网站首页 > 博客文章 正文
欢迎点击上方“关注”,如果感兴趣,欢迎收藏、分享给身边好友!
业界广泛流传这么一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。可见特征有多么的重要,那么特征工程到底是什么呢?顾名思义,其本质是一项工程活动,是基于数据的一个非常精细、刻意的加工过程,目的是最大限度地从原始数据中提取特征以供算法和模型使用。
对于从事数据分析、数据挖掘的小伙伴来说,特征选择是绕不开的话题,是数据挖掘过程中不可或缺的环节。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。
特征选择作用
- 减少特征数量、降维,使模型泛化能力更强,减少过拟合
- 增强对特征和特征值之间的理解
特征选择方法介绍
1.特征重要性
在特征的选择过程中,学习器是树模型的话,可以根据特征的重要性来筛选有效的特征,在sklearn中,GBDT和RF的特征重要性计算方法是相同的,都是基于单棵树计算每个特征的重要性,探究每个特征在每棵树上做了多少的贡献,再取个平均值。单棵树上特征的重要性定义为:特征在所有非叶节在分裂时加权不纯度的减少,减少的越多说明特征越重要
import numpy as np from sklearn.tree import DecisionTreeClassifier from sklearn.externals.six import StringIO from sklearn import tree import pydotplus clf = DecisionTreeClassifier() x = [[1,1,1,1,1,2,2,2,2,2,3,3,3,3,3], [1,1,2,2,1,1,1,2,1,1,1,1,2,2,1], [1,1,1,2,1,1,1,2,2,2,2,2,1,1,1], [1,2,2,1,1,1,2,2,3,3,3,2,2,3,1] ] y = [1,1,2,2,1,1,1,2,2,2,2,2,2,2,1] x = np.array(x) x = np.transpose(x) clf.fit(x,y) print(clf.feature_importances_) feature_name = ['A1','A2','A3','A4'] target_name = ['1','2'] dot_data = StringIO() tree.export_graphviz(clf,out_file = dot_data,feature_names=feature_name, class_names=target_name,filled=True,rounded=True, special_characters=True) graph = pydotplus.graph_from_dot_data(dot_data.getvalue()) graph.write_pdf("Tree.pdf")
2.回归模型的系数
越是重要的特征在模型中对应的系数就会越大,而跟输出变量越是无关的特征对应的系数就会越接近于0。在噪音不多的数据上,或者是数据量远远大于特征数的数据上,如果特征之间相对来说是比较独立的,那么即便是运用最简单的线性回归模型也一样能取得非常好的效果。
from sklearn.linear_model import LinearRegression import numpy as np np.random.seed(0) size = 5000 #A dataset with 3 features X = np.random.normal(0, 1, (size, 3)) #Y = X0 + 2*X1 + noise Y = X[:,0] + 2*X[:,1] + np.random.normal(0, 2, size) lr = LinearRegression() lr.fit(X, Y) #A helper method for pretty-printing linear models def pretty_print_linear(coefs, names = None, sort = False): if names == None: names = ["X%s" % x for x in range(len(coefs))] lst = zip(coefs, names) if sort: lst = sorted(lst, key = lambda x:-np.abs(x[0])) return " + ".join("%s * %s" % (round(coef, 3), name) for coef, name in lst) print "Linear model:", pretty_print_linear(lr.coef_)
3.平均精确率减少
平均精确率减少就是直接度量每个特征对模型精确率的影响。主要思路是打乱每个特征的特征值顺序,并且度量顺序变动对模型的精确率的影响。很明显,对于不重要的变量来说,打乱顺序对模型的精确率影响不会太大,但是对于重要的变量来说,打乱顺序就会降低模型的精确率。这个方法sklearn中没有直接提供,但是很容易实现
from sklearn.cross_validation import ShuffleSplit from sklearn.metrics import r2_score from collections import defaultdict X = boston["data"] Y = boston["target"] rf = RandomForestRegressor() scores = defaultdict(list) #crossvalidate the scores on a number of different random splits of the data for train_idx, test_idx in ShuffleSplit(len(X), 100, .3): X_train, X_test = X[train_idx], X[test_idx] Y_train, Y_test = Y[train_idx], Y[test_idx] r = rf.fit(X_train, Y_train) acc = r2_score(Y_test, rf.predict(X_test)) for i in range(X.shape[1]): X_t = X_test.copy() np.random.shuffle(X_t[:, i]) shuff_acc = r2_score(Y_test, rf.predict(X_t)) scores[names[i]].append((acc-shuff_acc)/acc) print "Features sorted by their score:" print sorted([(round(np.mean(score), 4), feat) for feat, score in scores.items()], reverse=True)
猜你喜欢
- 2024-09-26 python中的容器(Collections)(python中的容器包括)
- 2024-09-26 脑血管病知识图谱--2 模型训练(脑血管疾病讲解)
- 2024-09-26 leetCode算法-数独有效验证(数独的算法实现)
- 2024-09-26 机器学习之:跑通第一个入门算法(如何跑通github代码)
- 2024-09-26 订阅者模式,公众号、B站、快手用了都说好
- 2024-09-26 Python 6 个字典操作,你都知道吗
- 2024-09-26 学会Python的collections模块,助力编程轻松赚钱与体育数据分析
- 2024-09-26 Python里超级好用的字典模块:Addict 模块
- 2024-09-26 10个提高python水平的高级知识点(python 提高效率)
- 2024-09-26 Monte Carlo方法解决强化学习问题
你 发表评论:
欢迎- 最近发表
-
- 给3D Slicer添加Python第三方插件库
- Python自动化——pytest常用插件详解
- Pycharm下安装MicroPython Tools插件(ESP32开发板)
- IntelliJ IDEA 2025.1.3 发布(idea 2020)
- IDEA+Continue插件+DeepSeek:开发者效率飙升的「三体组合」!
- Cursor:提升Python开发效率的必备IDE及插件安装指南
- 日本旅行时想借厕所、买香烟怎么办?便利商店里能解决大问题!
- 11天!日本史上最长黄金周来了!旅游万金句总结!
- 北川景子&DAIGO缘定1.11 召开记者会宣布结婚
- PIKO‘PPAP’ 洗脑歌登上美国告示牌
- 标签列表
-
- ifneq (61)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)