新媒易动态
NEWS CENTER
NEWS CENTER
2021-02-22
我们最近常听到的一个词叫“大数据杀熟”,应该是算法在业务上非常常用的一种应用场景。通常来说,算法的产出物有两种,第一种是算法产出的结果(分群、分类、预测值),第二种是算法产出的规则。
很多时候我们往往只会关注到了结果本身,准确性、精确率、召回率怎么样,却忽略了算法产生的规则层应用。前面提到过的模型可解释性,其实就是一种规则的具象化。
在关联分析中,有提到过强相关、弱相关、不相关。作为一名业务,他可以说这个产出结果通过业务经验也能知道,而作为分析,则需要把所谓“经验”演绎为规则,这个规则就是通过数字串联起来的。
于算法而言,在模型解释时,也会碰到一些特征具备很强的规则,但往往容易只看数据结果,却忽略了其在实际业务过程中的意义和因果关系,于是造成了“算法分析出的结果不如根据经验拍脑袋决策”的现象。
我们先明确一个概念,即数据分析,它既可以作为一个社会中职业人的附加技能存在,也可以作为一个社会中职业人的主干职业进行发展。
在挖掘分析应用的项目中,算法是核心要素,大部分算法的实现原理,都会涉及一些高等数学知识。
数学本身非常抽象,学的快忘的快,自然而然算法对很多人来说具备某种神秘感。人类的好奇心和上进心,促进了人类的进化与生存,所以我要揭开那层神秘面纱去学习。
同样人也会经常高估自己的毅力及短期内可取得成果,所以往往是:费劲周折投入大量时间搞明白几个算法原理实现后,就再也没有继续坚持下去。此时可能走向一个极端,只要能使用第三方的算法库在自己的电脑中成功运行并能输出结果就可以,效果不好就再换一个算法尝试。
分析师懂算法非常有必要,最近几年,数据分析师的岗位职责中,或多或少会写一些算法相关要求。
我的认知是,初级分析师不需要懂算法即可cover大部分的工作内容。但是要想职业更上一层楼,增强分析的科学性严谨性和效率性,尤其是涉及算法策略驱动的业务类型中,分析师必须懂一些常用机器学习算法。
其实分析的重点还是聚焦在对目标问题的拆解、论证与实现上,对于绝大多数分析师而言,业务需求特征大致可归纳为,交付时间短、实现成效快、数据维度丰富、结论支撑足够、方便报告汇报。
大部分业务分析的场景都可以通过类似杜邦分析的方法进行层层下钻拆解,而这个过程对数学知识以及算法知识的涉及可能非常少。
业界已经有了非常多成熟的算法应用实践,有的时候为了做数据论证和探索,就需要用到类似算法,其目的是用最短的时间找到一个可以去下结论的突破点。于是在实际应用时会碰到一个前提,即每种算法都有其合适的应用场景及前置条件,且当具体使用时超级参数的影响也非常大。
所以如果我们不从更高层次去理解和对待算法,那么在实际运用时,就可能如刻舟求剑,难以取得预想效果或者过早的否掉一个本可以恰当解决当前问题的算法模型,只因为相关的工作没有足够的重视(例如数据清洗、特征选取方式不合理)。
skl包提供了大量简单函数,为了快速运用这些函数解决实际问题,我们不得不花时间去了解算法的内部原理及实现细节。建筑设计师不需要精通制造钢筋水泥的工艺,但需要了解不同钢铁、水泥的性质用途及之间配合关系,道理同样适用在这个环节。
数据分析师的成长就像一场马拉松,需要合理分配时间精力。专注力和自制力是一种稀缺资源,需要用在最合适的地方。经常提醒自己的目标是什么,才能把事情做好,对于分析师来说尤其如此。