新媒易动态
NEWS CENTER
NEWS CENTER
2020-06-23
逆向推理是指从问题的目标状态出发,按照目标组成的逻辑顺序逐级向初始状态递归的问题解决策略。简单来讲,当一件事结果是正确的或客观的,那么可以根据这一结果进行反向推理从而得到原因。当我们已经知道患者得了感冒,可以推想他可能是受凉、感染流感病毒等多个原因导致感冒,这就是逆向推理的思维模式。
双向推理结合正向推理与逆向推理,它是构成推理网络的理论基础。
知识建模是早期人工智能技术的代表,由知识建模而构建的专家系统为医学、教育、工业领域做出巨大贡献。知识建模的优点可以总结为以下3个方面:
任何建模方法同样有缺点,知识建模的缺点同样可以总结为以下3个方面:
非知识建模是当前大数据时代的主流建模方式。由于数据中蕴含着人的知识或经验,但是建模过程并不需要将这种知识提取出来,而是直接通过获取大量数据去训练模型。非知识建模避免了知识提取的过程,也回避了建模人员对专业知识的理解问题。
由于非知识建模中不涉及到对知识的提取,所以非知识建模中最重要是数据准备工作。这些数据准备是为了构成模型的训练集,我们需要准备存储格式统一、真实性高、标注明确合规的数据作为模型的训练集。
在准备好训练集后,我们可以根据具体业务进行模型的选型,根据选择模型的特点对训练数据进行微调,以满足不同模型的训练要求。对于数据特征不明显的数据集,我们也可以通过特征工程来提取数据特征,使训练出的模型更加高效准确。模型训练的过程如下图所示。
在进行模型训练时,我们需要通过某个学习算法,得到我们的目标模型。模型是否能够得到较好效果,主要在于训练数据的质量,所以数据才是整个算法构建的核心要素。非知识建模主要就是通过数据使机器自动提取某些内在的业务特征,从而达到模型效果。模型的选择种类也根据不同的业务,以及不同算法工程师的偏好灵活选择。
分类最常见的机器学习任务,主要目的是数据划归为不同类别。分类问题包括二分类与多分类问题。识别垃圾邮件或判定是否为潜在用户就是典型的二分类问题,用户画像、辅助诊断系统等属于多分类问题。分类问题的评估指标主要有准确率、损失函数、精准率-召回率、曲线下面积(AUC)等。
(1)准确率
准确率是一个非常直接的评价指标,指的是分类正确的个数占总体个数的比。但是准确率并不能够公正的评价一个模型。主要原因有2个:
第一原因是两种分类重要程度不同。例如在癌症诊断中,确诊癌症患者中未患有癌症的情况(假阳性)与确诊未患有癌症患者中患癌的情况(假阴性),这两种情况对于患者的意义截然不同;
第二个原因是数据分布不均,如果两个分类个数相差过大,占有大样本的一方会主导准确率的计算。
(2)平均准确率
为了处理每个类别样本数量不一致的情况,使用平均准确率来进行度量。平均准确率将多个分类的准确率取平均值来对模型进行评价。平均准确率是对整体模型进行的评价,而并不等于某一个分类的准确率。在某个类别数量很少时,会造成该类别准确率的方差过大,使准确率可靠性降低。
(3)对数损失函数(Log-loss)
对数损失函数很像Logistic回归的损失评价函数,这些评价标准都基于概率估计。对数损失通过惩罚错误的分类,实现对分类器的准确度(Accuracy)的评价。损失函数最小意味着分类器具有最佳的性质,分类器提供的是输入样本所属类别的概率值。对于多分类问题对数损失函数表示如公式(3.5.1)所示。
(4)精确率-召回率(Precision-Recall)
精确率-召回率其实是两个评价指标,但是它们经常同时使用。精确率是指分类器分类正确的正样本的个数占该分类器所有分类为正样本个数的比例。召回率是指分类器分类正确的正样本个数占所有的正样本个数的比例。具体解释在后面混淆矩阵中详细介绍。
(5)AUC (Area under the Curve, AUC)
AUC的意义为曲线下的面积,所描述的是ROC曲线(Receiver OperatingCharacteristic, ROC)。首先我们需要了解ROC曲线是如何绘制的。
ROC曲线的x与y轴的含义:
对于设定一个阈值,就可以对应算出一组(FPR,TPR)从而在平面中得到对应坐标点。随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着真正的负实例,即TPR和FPR会同时增大。阈值最大时对应坐标点为(0,0),阈值最小时对应坐标点(1,1)。