新媒易动态
NEWS CENTER
NEWS CENTER
2020-11-28
我所理解的机器学习是一种能够实现人工智能的技术,建立能从经验(数据)中进行学习的模型,从而使这个模型可以达到自行处理此类数据的能力。
也可以理解为:通过大量的数据,训练出一个能处理此类数据的模型,使得这个模型可以根据已知的数据,准确率很高的判断出未知的数据,从而使得人类能够采取正确的方法去处理某些事情。
想要了解机器学习你需要知道以下几点:
从实际的应用场景出发,要训练出来一个能够适应某场景的模型需要经过以下几步:
场景解析就是将业务逻辑,抽象成为通过算法能够解决的问题。
比如:做一个心脏病预测系统,那么就可以抽象为二分类问题——要么有心脏病,要么没有;然后,根据已有的数据看看有没有目标值,可以判断出:是监督学习还是无监督学习,还是半监督学习;从而,选择出能够处理好此类数据的算法。
(不同场景采用的算法是不同的)高频的有以下几种类型的场景:
场景解析完,选择适合处理此类数据的算法后,需要对数据进行预处理——就是对数据进行清洗工作,对空值、乱码进行处理。
数据预处理的主要目的就是:减少噪音数据对训练数据的影响。
特征工程是机器学习中最重要的一部分,因为根据已有的训练数据,可选用的算法是有限的;那么在同样的算法下特征的选取是不同的,100个人对一件事情会有100种看法,也就有100种特征,最后特征的质量决定模型的好坏。
特征工程需要做的包括:特征抽象、特征重要性的评估、特征衍生、特征降维。
在经过以上过成后,进入训练模块,生成模型。
对生成模型的成熟度进行评估。
在实际运用过程中,需要配合调度系统来使用。
案例场景:每天将用户当日新增的数据量流入数据库表里,通过调度系统启用离线训练服务,生成最新的离线模型,然后通过在线预测服务进行实时预测。
结构化数据:机构化数据是指以矩阵结构储存的数据。
结构化数据中,有两个重要的概念需要介绍一下:特征列和目标列。
上图里age,sex,cp列都是特征列,ifhealth是目标列。
非结构化数据:典型的非结构化数据是图像、文本、语音等文件;这些数据不能以矩阵的结构储存,目前的做法也是通过把非结构化的数据转化为二进制储存格式。
半结构化数据:半结构化数据是指按照一定的结构储存,但不一定是二维的数据库行存储形态的数据;还有一种是以二维数据形态储存的,但某些字段是文本类型,某些字段是数值类型的,如下图: