鎬庝箞娌荤枟鐧界櫆椋庢晥鏋滃ソ http://m.39.net/pf/a_4359077.html
本文在人工合成分类数据集上进行特征离散化。特征离散化将每个特征分解为一组组的箱(bin),箱(bin)的宽度均匀分布,然后将离散值进行一次热编码(one-hotencode),并将离散化后的特征提供给线性分类器。即使分类器是线性的,也可以实现非线性的预测行为。
在本文中,前两行代表线性不可分离的数据集(月亮(moons)和同心圆(concentriccircles)),而第三行则是近似线性可分离。在两个线性不可分离的数据集上,特征离散化大大提高了线性分类器的性能。在线性可分离的数据集上,特征离散化会降低线性分类器的性能,本文同时还比较了两个非线性分类器。
当然本文的有些结论不一定会在实际数据集中起作用,特别是在高维空间中。此外,使用特征离散化和热编码增加了特征数量,当样本数量很少时,容易导致过拟合。
这些图以纯色(solidcolors)显示训练点,测试点是半透明的颜色。右下方的数字表示在测试集上的分类器的准确度。
输出:
dataset0---------LogisticRegression:0.86LinearSVC:0.86KBinsDiscretizer+LogisticRegression:0.86KBinsDiscretizer+LinearSVC:0.92GradientBoostingClassifier:0.90SVC:0.94dataset1---------LogisticRegression:0.40LinearSVC:0.40KBinsDiscretizer+LogisticRegression:0.88KBinsDiscretizer+LinearSVC:0.86GradientBoostingClassifier:0.80SVC:0.84dataset2---------LogisticRegression:0.98LinearSVC:0.98KBinsDiscretizer+LogisticRegression:0.94KBinsDiscretizer+LinearSVC:0.94GradientBoostingClassifier:0.88SVC:0.98
#源代码:TomDuprélaTour#改编自Ga?lVaroquaux和AndreasMüller的plot_classifier_