专业的编程技术博客社区

网站首页 > 博客文章 正文

零起点Python机器学习快速入门-6-1-逻辑回归算法

baijin 2025-04-26 16:38:55 博客文章 15 ℃ 0 评论

实现了一个完整的机器学习分类流程,主要使用逻辑回归模型对鸢尾花数据进行分类预测。首先,从指定路径读取训练集和测试集的特征数据与目标数据。接着,调用自定义的 mx_log 函数,创建并训练一个使用 L2 正则化的逻辑回归模型。之后,使用训练好的模型对测试集的特征数据进行预测,并将预测结果添加到一个新的 DataFrame 中,同时对预测结果进行四舍五入处理。再将包含测试集特征、目标数据和预测结果的 DataFrame 保存为 CSV 文件。最后,调用自定义的 ai_acc_xed 函数计算模型的准确率并输出。整个流程涵盖了数据加载、模型训练、预测和评估等关键步骤。

# 导入用于操作系统交互的 os 模块,可用于文件和目录操作
import os
# 导入 sys 模块,提供对 Python 解释器使用或维护的一些变量的访问,以及与解释器进行交互的函数
import sys
# 导入用于正则表达式操作的 re 模块
import re
# 导入用于处理日期和时间的 arrow 模块
import arrow
# 导入用于网页解析的 bs4 模块
import bs4
# 导入 pandas 库,别名为 pd,用于数据处理和分析
import pandas as pd

# 导入用于发送 HTTP 请求的 requests 库
import requests
# 从 bs4 模块导入用于解析 HTML 和 XML 文档的 BeautifulSoup 类
from bs4 import BeautifulSoup 

# 导入 sklearn 库,它是一个强大的机器学习库
import sklearn 
# 从 sklearn 中导入用于加载数据集的 datasets 以及用于线性模型的 linear_model
from sklearn import datasets, linear_model

# 从 sklearn.model_selection 导入 train_test_split 函数,用于将数据集划分为训练集和测试集
# 旧版本使用 sklearn.cross_validation 中的 train_test_split,现在已迁移到 model_selection
# from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split

# 从 sklearn.linear_model 导入用于创建线性回归模型的 LinearRegression 类
from sklearn.linear_model import LinearRegression
# 从 sklearn 导入用于评估模型性能的 metrics 模块
from sklearn import metrics
# 从 sklearn.model_selection 导入用于交叉验证预测的 cross_val_predict 函数
from sklearn.model_selection import cross_val_predict

# 导入自定义模块 zsys
import zsys
# 导入自定义模块 ztools,并将其别名为 zt
import ztools as zt
# 导入自定义模块 ztools_str,并将其别名为 zstr
import ztools_str as zstr
# 导入自定义模块 ztools_web,并将其别名为 zweb
import ztools_web as zweb
# 导入自定义模块 ztools_data,并将其别名为 zdat
import ztools_data as zdat
# 导入自定义模块 ztop_ai,并将其别名为 zai
import ztop_ai as zai
# 导入自定义模块 zpd_talib,并将其别名为 zta
import zpd_talib as zta
# 导入自定义模块 tfb_sys,并将其别名为 tfsys
import tfb_sys as tfsys
# 导入自定义模块 tfb_tools,并将其别名为 tft
import tfb_tools as tft
# 导入自定义模块 tfb_strategy,并将其别名为 tfsty
import tfb_strategy as tfsty
# 导入自定义模块 tfb_backtest,并将其别名为 tfbt
import tfb_backtest as tfbt

#-----------------------

#1 
# 定义文件路径前缀
fs0='dat/iris_'
# 打印初始化信息和文件路径前缀
print('\n1# init,fs0,',fs0)
# 读取训练集的特征数据,index_col=False 表示不将任何列作为索引
x_train=pd.read_csv(fs0+'xtrain.csv',index_col=False);
# 读取训练集的目标数据,index_col=False 表示不将任何列作为索引
y_train=pd.read_csv(fs0+'ytrain.csv',index_col=False);
# 读取测试集的特征数据,index_col=False 表示不将任何列作为索引
x_test=pd.read_csv(fs0+'xtest.csv',index_col=False)
# 读取测试集的目标数据,index_col=False 表示不将任何列作为索引
y_test=pd.read_csv(fs0+'ytest.csv',index_col=False)
# 复制测试集的特征数据,方便后续添加预测结果
df9=x_test.copy()

#2
# 打印提示信息,表示开始建模
print('\n2# 建模')
# 调用自定义模块 zai 中的 mx_log 函数,传入训练集的特征和目标数据的数组形式进行模型训练
mx =zai.mx_log(x_train.values,y_train.values)

#3
# 打印提示信息,表示开始进行预测
print('\n3# 预测')
# 使用训练好的模型 mx 对测试集的特征数据进行预测
y_pred = mx.predict(x_test.values)
# 在复制的测试集特征数据 DataFrame 中添加预测结果列
df9['y_predsr']=y_pred
# 在 df9 中添加测试集的目标数据列和预测结果列
df9['y_test'],df9['y_pred']=y_test,y_pred
# 将预测结果四舍五入并转换为整数类型
df9['y_pred']=round(df9['y_predsr']).astype(int)   

#4
# 将包含测试集特征、目标数据和预测结果的 DataFrame 保存为 CSV 文件,不保存索引
df9.to_csv('tmp/iris_9.csv',index=False)
# 打印提示信息
print('\n4# df9')
# 打印 df9 的最后几行数据
print(df9.tail())
  
#5   
# 调用自定义模块 zai 中的 ai_acc_xed 函数,传入 df9、参数 1 和 False 来计算模型的准确率
dacc=zai.ai_acc_xed(df9,1,False)
# 打印模型的准确率,保留两位小数
print('\n5# mx:mx_sum,kok:{0:.2f}%'.format(dacc))   

#-----------------------    
# 打印完成提示信息
print('\nok!')

# 定义一个名为 mx_log 的函数,用于创建并训练一个逻辑回归模型
# 参数 train_x:表示训练数据的特征矩阵,通常是一个二维数组或 DataFrame,每一行代表一个样本,每一列代表一个特征
# 参数 train_y:表示训练数据的目标值,通常是一个一维数组或 Series,每个元素对应 train_x 中一行样本的目标值
def mx_log(train_x, train_y):
    
    # 创建一个 LogisticRegression 类的实例 mx,用于构建逻辑回归模型
    # penalty='l2' 是逻辑回归模型的一个参数设置,指定使用 L2 正则化
    # L2 正则化有助于防止模型过拟合,它会对模型的系数进行约束,使得系数的平方和尽可能小
    mx = LogisticRegression(penalty='l2')
    
    # 使用训练数据的特征矩阵 train_x 和对应的目标值 train_y 对模型进行训练
    # fit 方法是 sklearn 中所有模型类都有的方法,它会让模型学习数据中的模式和规律
    # 通过不断调整模型的参数,使得模型能够尽可能准确地根据特征预测目标值
    mx.fit(train_x, train_y)
    
    # 返回训练好的逻辑回归模型 mx,以便后续使用该模型进行预测等操作
    return mx

#结果验证函数
def ai_acc_xed(df9,ky0=5,fgDebug=True):
    #1
    #ny_test,ny_pred=len(df9['y_test']),len(df9['y_pred'])
    ny_test=len(df9['y_test'])
    df9['ysub']=df9['y_test']-df9['y_pred']
    df9['ysub2']=np.abs(df9['ysub'])
    #2
    df9['y_test_div']=df9['y_test']
    df9.loc[df9['y_test'] == 0, 'y_test_div'] =0.00001
    df9['ysubk']=(df9['ysub2']/df9['y_test_div'])*100
    dfk=df9[df9['ysubk']<ky0]   
    dsum=len(dfk['y_pred'])
    dacc=dsum/ny_test*100
    #
    #3
    if fgDebug:
        print('\nai_acc_xed')
        print(df9.head())
        y_test,y_pred=df9['y_test'],df9['y_pred']
        print('\nn_df9,{0},n_dfk,{1}'.format(ny_test,dsum))
        dmae=metrics.mean_absolute_error(y_test, y_pred)
        dmse=metrics.mean_squared_error(y_test, y_pred)
        drmse=np.sqrt(metrics.mean_squared_error(y_test, y_pred))
        print('acc-kok: {0:.2f}%, MAE:{1:.2f}, MSE:{2:.2f}, RMSE:{3:.2f}'.format(dacc,dmae,dmse,drmse))
        
    #
    #4
    return dacc  
runfile('D:/zwPython/zwrk/4_零起点Python机器学习快速入门/zai201_mx_log.py', wdir='D:/zwPython/zwrk/4_零起点Python机器学习快速入门')
Reloaded modules: zsys, cpuinfo, ztools, ztools_str, ztools_web, ztools_data, ztop_ai, zpd_talib, tfb_sys, tfb_tools, tfb_strategy, tfb_backtest

1# init,fs0, dat/iris_

2# 建模

3# 预测

4# df9
     x1   x2   x3   x4  y_predsr  y_test  y_pred
33  6.4  2.8  5.6  2.1         1       1       1
34  5.8  2.8  5.1  2.4         1       1       1
35  5.3  3.7  1.5  0.2         2       2       2
36  5.5  2.3  4.0  1.3         3       3       3
37  5.2  3.4  1.4  0.2         2       2       2

5# mx:mx_sum,kok:97.37%

ok!
d:\zwpython\py37\python-3.7.6.amd64\lib\site-packages\sklearn\utils\validation.py:760: DataConversionWarning:

A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples, ), for example using ravel().

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表