使用pythonsklearn实现特征

鎬庝箞娌荤枟鐧界櫆椋庢晥鏋滃ソ http://m.39.net/pf/a_4359077.html

本文在人工合成分类数据集上进行特征离散化。特征离散化将每个特征分解为一组组的箱(bin),箱(bin)的宽度均匀分布,然后将离散值进行一次热编码(one-hotencode),并将离散化后的特征提供给线性分类器。即使分类器是线性的,也可以实现非线性的预测行为。

在本文中,前两行代表线性不可分离的数据集(月亮(moons)和同心圆(concentriccircles)),而第三行则是近似线性可分离。在两个线性不可分离的数据集上,特征离散化大大提高了线性分类器的性能。在线性可分离的数据集上,特征离散化会降低线性分类器的性能,本文同时还比较了两个非线性分类器。

当然本文的有些结论不一定会在实际数据集中起作用,特别是在高维空间中。此外,使用特征离散化和热编码增加了特征数量,当样本数量很少时,容易导致过拟合。

这些图以纯色(solidcolors)显示训练点,测试点是半透明的颜色。右下方的数字表示在测试集上的分类器的准确度。

输出:

dataset0---------LogisticRegression:0.86LinearSVC:0.86KBinsDiscretizer+LogisticRegression:0.86KBinsDiscretizer+LinearSVC:0.92GradientBoostingClassifier:0.90SVC:0.94dataset1---------LogisticRegression:0.40LinearSVC:0.40KBinsDiscretizer+LogisticRegression:0.88KBinsDiscretizer+LinearSVC:0.86GradientBoostingClassifier:0.80SVC:0.84dataset2---------LogisticRegression:0.98LinearSVC:0.98KBinsDiscretizer+LogisticRegression:0.94KBinsDiscretizer+LinearSVC:0.94GradientBoostingClassifier:0.88SVC:0.98

#源代码:TomDuprélaTour#改编自Ga?lVaroquaux和AndreasMüller的plot_classifier_



转载请注明地址:http://www.sanbaicaoasb.com/scgx/8549.html
  • 上一篇文章:
  • 下一篇文章: 没有了
  • 热点文章

    • 没有热点文章

    推荐文章

    • 没有推荐文章