网站首页 > 博客文章 正文
实现了一个完整的机器学习分类流程,主要使用逻辑回归模型对鸢尾花数据进行分类预测。首先,从指定路径读取训练集和测试集的特征数据与目标数据。接着,调用自定义的 mx_log 函数,创建并训练一个使用 L2 正则化的逻辑回归模型。之后,使用训练好的模型对测试集的特征数据进行预测,并将预测结果添加到一个新的 DataFrame 中,同时对预测结果进行四舍五入处理。再将包含测试集特征、目标数据和预测结果的 DataFrame 保存为 CSV 文件。最后,调用自定义的 ai_acc_xed 函数计算模型的准确率并输出。整个流程涵盖了数据加载、模型训练、预测和评估等关键步骤。
# 导入用于操作系统交互的 os 模块,可用于文件和目录操作
import os
# 导入 sys 模块,提供对 Python 解释器使用或维护的一些变量的访问,以及与解释器进行交互的函数
import sys
# 导入用于正则表达式操作的 re 模块
import re
# 导入用于处理日期和时间的 arrow 模块
import arrow
# 导入用于网页解析的 bs4 模块
import bs4
# 导入 pandas 库,别名为 pd,用于数据处理和分析
import pandas as pd
# 导入用于发送 HTTP 请求的 requests 库
import requests
# 从 bs4 模块导入用于解析 HTML 和 XML 文档的 BeautifulSoup 类
from bs4 import BeautifulSoup
# 导入 sklearn 库,它是一个强大的机器学习库
import sklearn
# 从 sklearn 中导入用于加载数据集的 datasets 以及用于线性模型的 linear_model
from sklearn import datasets, linear_model
# 从 sklearn.model_selection 导入 train_test_split 函数,用于将数据集划分为训练集和测试集
# 旧版本使用 sklearn.cross_validation 中的 train_test_split,现在已迁移到 model_selection
# from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split
# 从 sklearn.linear_model 导入用于创建线性回归模型的 LinearRegression 类
from sklearn.linear_model import LinearRegression
# 从 sklearn 导入用于评估模型性能的 metrics 模块
from sklearn import metrics
# 从 sklearn.model_selection 导入用于交叉验证预测的 cross_val_predict 函数
from sklearn.model_selection import cross_val_predict
# 导入自定义模块 zsys
import zsys
# 导入自定义模块 ztools,并将其别名为 zt
import ztools as zt
# 导入自定义模块 ztools_str,并将其别名为 zstr
import ztools_str as zstr
# 导入自定义模块 ztools_web,并将其别名为 zweb
import ztools_web as zweb
# 导入自定义模块 ztools_data,并将其别名为 zdat
import ztools_data as zdat
# 导入自定义模块 ztop_ai,并将其别名为 zai
import ztop_ai as zai
# 导入自定义模块 zpd_talib,并将其别名为 zta
import zpd_talib as zta
# 导入自定义模块 tfb_sys,并将其别名为 tfsys
import tfb_sys as tfsys
# 导入自定义模块 tfb_tools,并将其别名为 tft
import tfb_tools as tft
# 导入自定义模块 tfb_strategy,并将其别名为 tfsty
import tfb_strategy as tfsty
# 导入自定义模块 tfb_backtest,并将其别名为 tfbt
import tfb_backtest as tfbt
#-----------------------
#1
# 定义文件路径前缀
fs0='dat/iris_'
# 打印初始化信息和文件路径前缀
print('\n1# init,fs0,',fs0)
# 读取训练集的特征数据,index_col=False 表示不将任何列作为索引
x_train=pd.read_csv(fs0+'xtrain.csv',index_col=False);
# 读取训练集的目标数据,index_col=False 表示不将任何列作为索引
y_train=pd.read_csv(fs0+'ytrain.csv',index_col=False);
# 读取测试集的特征数据,index_col=False 表示不将任何列作为索引
x_test=pd.read_csv(fs0+'xtest.csv',index_col=False)
# 读取测试集的目标数据,index_col=False 表示不将任何列作为索引
y_test=pd.read_csv(fs0+'ytest.csv',index_col=False)
# 复制测试集的特征数据,方便后续添加预测结果
df9=x_test.copy()
#2
# 打印提示信息,表示开始建模
print('\n2# 建模')
# 调用自定义模块 zai 中的 mx_log 函数,传入训练集的特征和目标数据的数组形式进行模型训练
mx =zai.mx_log(x_train.values,y_train.values)
#3
# 打印提示信息,表示开始进行预测
print('\n3# 预测')
# 使用训练好的模型 mx 对测试集的特征数据进行预测
y_pred = mx.predict(x_test.values)
# 在复制的测试集特征数据 DataFrame 中添加预测结果列
df9['y_predsr']=y_pred
# 在 df9 中添加测试集的目标数据列和预测结果列
df9['y_test'],df9['y_pred']=y_test,y_pred
# 将预测结果四舍五入并转换为整数类型
df9['y_pred']=round(df9['y_predsr']).astype(int)
#4
# 将包含测试集特征、目标数据和预测结果的 DataFrame 保存为 CSV 文件,不保存索引
df9.to_csv('tmp/iris_9.csv',index=False)
# 打印提示信息
print('\n4# df9')
# 打印 df9 的最后几行数据
print(df9.tail())
#5
# 调用自定义模块 zai 中的 ai_acc_xed 函数,传入 df9、参数 1 和 False 来计算模型的准确率
dacc=zai.ai_acc_xed(df9,1,False)
# 打印模型的准确率,保留两位小数
print('\n5# mx:mx_sum,kok:{0:.2f}%'.format(dacc))
#-----------------------
# 打印完成提示信息
print('\nok!')
# 定义一个名为 mx_log 的函数,用于创建并训练一个逻辑回归模型
# 参数 train_x:表示训练数据的特征矩阵,通常是一个二维数组或 DataFrame,每一行代表一个样本,每一列代表一个特征
# 参数 train_y:表示训练数据的目标值,通常是一个一维数组或 Series,每个元素对应 train_x 中一行样本的目标值
def mx_log(train_x, train_y):
# 创建一个 LogisticRegression 类的实例 mx,用于构建逻辑回归模型
# penalty='l2' 是逻辑回归模型的一个参数设置,指定使用 L2 正则化
# L2 正则化有助于防止模型过拟合,它会对模型的系数进行约束,使得系数的平方和尽可能小
mx = LogisticRegression(penalty='l2')
# 使用训练数据的特征矩阵 train_x 和对应的目标值 train_y 对模型进行训练
# fit 方法是 sklearn 中所有模型类都有的方法,它会让模型学习数据中的模式和规律
# 通过不断调整模型的参数,使得模型能够尽可能准确地根据特征预测目标值
mx.fit(train_x, train_y)
# 返回训练好的逻辑回归模型 mx,以便后续使用该模型进行预测等操作
return mx
#结果验证函数
def ai_acc_xed(df9,ky0=5,fgDebug=True):
#1
#ny_test,ny_pred=len(df9['y_test']),len(df9['y_pred'])
ny_test=len(df9['y_test'])
df9['ysub']=df9['y_test']-df9['y_pred']
df9['ysub2']=np.abs(df9['ysub'])
#2
df9['y_test_div']=df9['y_test']
df9.loc[df9['y_test'] == 0, 'y_test_div'] =0.00001
df9['ysubk']=(df9['ysub2']/df9['y_test_div'])*100
dfk=df9[df9['ysubk']<ky0]
dsum=len(dfk['y_pred'])
dacc=dsum/ny_test*100
#
#3
if fgDebug:
print('\nai_acc_xed')
print(df9.head())
y_test,y_pred=df9['y_test'],df9['y_pred']
print('\nn_df9,{0},n_dfk,{1}'.format(ny_test,dsum))
dmae=metrics.mean_absolute_error(y_test, y_pred)
dmse=metrics.mean_squared_error(y_test, y_pred)
drmse=np.sqrt(metrics.mean_squared_error(y_test, y_pred))
print('acc-kok: {0:.2f}%, MAE:{1:.2f}, MSE:{2:.2f}, RMSE:{3:.2f}'.format(dacc,dmae,dmse,drmse))
#
#4
return dacc
runfile('D:/zwPython/zwrk/4_零起点Python机器学习快速入门/zai201_mx_log.py', wdir='D:/zwPython/zwrk/4_零起点Python机器学习快速入门')
Reloaded modules: zsys, cpuinfo, ztools, ztools_str, ztools_web, ztools_data, ztop_ai, zpd_talib, tfb_sys, tfb_tools, tfb_strategy, tfb_backtest
1# init,fs0, dat/iris_
2# 建模
3# 预测
4# df9
x1 x2 x3 x4 y_predsr y_test y_pred
33 6.4 2.8 5.6 2.1 1 1 1
34 5.8 2.8 5.1 2.4 1 1 1
35 5.3 3.7 1.5 0.2 2 2 2
36 5.5 2.3 4.0 1.3 3 3 3
37 5.2 3.4 1.4 0.2 2 2 2
5# mx:mx_sum,kok:97.37%
ok!
d:\zwpython\py37\python-3.7.6.amd64\lib\site-packages\sklearn\utils\validation.py:760: DataConversionWarning:
A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples, ), for example using ravel().
猜你喜欢
- 2025-04-26 R数据分析:如何计算问卷的组合信度,实例操练
- 2025-04-26 外婆都能学会的Python教程(十九):Python读写CSV文件
- 2025-04-26 python爬虫25 | 爬取的数据怎么保存?CSV了解一下
- 2025-04-26 R语言描述统计第一弹 | 计算泰坦尼克号不同舱位的存活率
- 2025-04-26 Python 数据可视化:使用 Matplotlib 和 Pandas 实现动态数据分析
- 2025-04-26 使用python把csv汇总成excel
- 2025-04-26 matlab读取表格数据以固定周期通过串口发送
- 2025-04-26 Pandas读取CSV文件
- 2025-04-26 Jmeter和Postman测试工具的区别
- 2025-04-26 零起点Python机器学习快速入门-5-1-Iris爱丽丝
你 发表评论:
欢迎- 369℃手把手教程「JavaWeb」优雅的SpringMvc+Mybatis整合之路
- 368℃用AI Agent治理微服务的复杂性问题|QCon
- 359℃初次使用IntelliJ IDEA新建Maven项目
- 352℃Maven技术方案最全手册(mavena)
- 349℃安利Touch Bar 专属应用,让闲置的Touch Bar活跃起来!
- 348℃InfoQ 2024 年趋势报告:架构篇(infoq+2024+年趋势报告:架构篇分析)
- 346℃IntelliJ IDEA 2018版本和2022版本创建 Maven 项目对比
- 344℃从头搭建 IntelliJ IDEA 环境(intellij idea建包)
- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)