AI人工智能之机器学习sklearn-数据预处理和划分数据集

news/2025/2/25 10:17:44

1、概要

本篇学习AI人工智能之机器学习 sklearn数据预处理和划分数据集，从代码层面讲述如何进行数据的预处理和数据集划分。

2、简介

本片讲述数据预处理的标准化处理、归一化处理，以常用的两个类为例

标准化处理类 StandardScaler
归一化处理类 MinMaxScaler

在数据处理方面，使用train_test_split函数处理列表数据集为例

3、数据预处理和数据集划分

3.1 安装依赖

python安装机器学习库： pip install scikit-learn

3.2、定义数据集

python">from sklearn.feature_extraction import text, DictVectorizer
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split

# 示例数据集合，是一个经过处理的列表数据  X
X = [[1, 2], [3, 4], [5, 6], [7, 8]]
print("data:", X)

# 示例打标的数据，
y = [0, 1, 0, 1]
print("tag", y)

运行上述代码，您将得到如下输出：

data: [[1, 2], [3, 4], [5, 6], [7, 8]]
tag [0, 1, 0, 1]

3.3 数据预处理 StandardScaler、MinMaxScaler

python"># 标准化处理
ss = StandardScaler()
# 将特征缩放到零均值和单位方差
X = ss.fit_transform(X)
X

运行上述代码，您将得到如下输出：

array([[-1.34164079, -1.34164079],
       [-0.4472136 , -0.4472136 ],
       [ 0.4472136 ,  0.4472136 ],
       [ 1.34164079,  1.34164079]])

python"># 归一化处理
mms = MinMaxScaler()
# 将特征缩放到一个范围（如[0,1]）
X = mms.fit_transform(X) 
X

运行上述代码，您将得到如下输出：

array([[0.        , 0.        ],
       [0.33333333, 0.33333333],
       [0.66666667, 0.66666667],
       [1.        , 1.        ]])

3.4 划分数据集 train_test_split

python"># 划分训练集 _train, 测试集 _test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
print(f"训练集: {X_train} - {y_train}")
print(f"测试集: {X_test} - {y_test}")

运行上述代码，您将得到如下输出：

训练集: [[1.         1.        ]
 [0.         0.        ]
 [0.66666667 0.66666667]] - [1, 0, 0]
测试集: [[0.33333333 0.33333333]] - [1]

4、总结

本篇以自定义数据集为例，从代码视角讲述如何对数据集进行预处理和数据集的划分。

AI人工智能之机器学习sklearn-数据预处理和划分数据集

1、概要

2、简介

3、数据预处理和数据集划分

3.1 安装依赖

3.2、定义数据集

3.3 数据预处理 StandardScaler、MinMaxScaler

3.4 划分数据集 train_test_split

4、总结

相关文章

【Spark+Hadoop】基于Spark大数据小说数据分析推荐系统（完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程）✅

WPF-Avalonia实践一两个页面的相关传递

MySQL的InnoDB引擎中的聚簇索引和非聚簇索引有什么区别？

Linux项目自动化构建工具-make/Makeﬁle (linux第六课)

【杂谈】-强化学习遇见链式思维：将大型语言模型转变为自主推理代理

sklearn中的决策树-分类树：剪枝参数

CoralStyle CLIP 技术浅析（四）：多层次特征融合

ELK之elasticsearch基本使用教程

AI人工智能之机器学习sklearn-数据预处理和划分数据集

1、概要

2、简介

3、 数据预处理和数据集划分

3.1 安装依赖

3.2、定义数据集

3.3 数据预处理 StandardScaler、MinMaxScaler

3.4 划分数据集 train_test_split

4、 总结

相关文章

3、数据预处理和数据集划分

4、总结