大家好!书接上回,这个版块到了人工智能相关.首先和大家介绍的是人工智能中最重要的一个内容—机器学习.小编将从以下四个大的方向和看官老爷娓娓道来…
机器学习(Machine Learning)简称ML,是实现人工智能的重要方法.
机器学习是一种多领域交叉学科,涉及概率论、统计学、逼近论、线性代数、高等数学等多门学科。它专门研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,从而不断改善自身的性能。它是人工智能的核心,使计算机具有智能的根本途径。
机器学习通过使用算法从数据中自动创建模型。它不需要明确编程,而是通过训练数据来学习并做出预测或判断。
在讲分类前先和客官科普几个名词,它是分析机器学习类型的基础.
# 特征:即描述事务属性的一列数据.
# 样本:描述事务的相关信息的一行数据,通常也叫一条记录.多条样本组成数据集.
# 标签/目标:模型要预测的那一列数据.在训练集中是我们已知的结果,在新数据集中是预测后想要看到的结果.
# 数据集:我们通常把数据集分成两个部分,一部分是训练集,即在训练模型时使用的数据;另一部分是测试集,即在测试数据时使用的数据.通常训练集和测试集的比例为8:2 或者 7:3.
机器学习的具体分类如下:
通过业务部分获数据,或者自己搜集数据.我们通过Pandas提供的API读取到内存中进行操作.
原始数据中往往存在一些对训练结果不重要和严重影响结果的数据.比如:缺失值/异常值等等 .
缺失值填充处理:
.fillna(0) # 用固定值0填充缺失值.
Series对象.fillna(Series对象.mean()) # 用某列的平均值填充.
缺失值删除处理:
通过.dropna()方法删除占比很小且对结果影响几乎为0 的缺失值.
异常值筛选处理:
通过filter()过滤出需要的数据.
利用专业背景知识和技巧处理数据, 让机器学习算法效果最好.主要分以下几个部分.
从原始数据中提取与任务相关的特征.此过程往往需要很丰富的经验或者专家参与.有效特征可以让模型训练事半功倍.
将不同的单位的特征数据转成同一个范围内.解决量纲问题 主要通过归一化和标准化.
将原始数据的维度降低,例如x,y,z三维地图=>x,y二维平面图.
注意:会改变原始数据.
从特征中选择出一些重要特征,类似与在集合中选择部分数据形成子集数据.
注意:不会改变原始数据.
把多个特征合并成一个特征.
方式:加法或乘法.
选择合适的算法对模型进行训练,根据不同的任务来选中不同的算法;有监督学习,无监督学习,半监督学习,强化学习等.
具体是通过KNN(K近邻算法)/线性回归算法/逻辑回归算法/决策树/朴素贝叶斯/聚类Kmeans算法等训练模型,内容比较多后面有机会分专题介绍.
x_train # 训练集特征
y_train # 训练集标签
x_test # 测试集特征
y_test # 测试集标签
通过分析测试结果数据比例预测模型.
例如knn算法中:预测测试集标签 = knn_model.predict(x_test)
评估效果好上线服务,评估效果不好则重复上述步骤.
分类算法训练的模型评估时参考 准确率.
回归类算法训练的模型评估时参考 MAE, MSE.
聚类算法训练的模型评估时参考 CH, SC.
例如:
方式1:estimator.score(x_test, y_test) # 直接评估
方式2:accuracy_score(y_test, y_predict) # 真实值与预测值对比
拟合:用来表示模型对样本点的拟合情况.
三种情况:
正好拟合:模型对样本点的拟合最好.
过拟合:模型在训练集上表现很好, 在测试集表现很差.
# 产生原因:模型太过于复杂, 数据不纯, 训练数据太少,K值过小比如是1.
欠拟合:模型在训练集上表现很差, 在测试集表现也很差.
# 模型过于简单或K值过大.
说了这么多到底那些地方应用到了机器学习呢?其广泛应用于多个领域,包括但不限于以下几个方面:
以上就是要和大家聊的有关机器学习的内容.后面会陆续分享些机器学习训练算法相关内容,感兴趣的小伙伴可以关注.
今天是国庆节,是新中国成立75周年.祝愿我们的祖国繁荣昌盛,人民幸福安康!