摘要:本篇文章探讨了大数据应用之我们该怎么玩数据,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。
本篇文章探讨了大数据应用之我们该怎么玩数据,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。
数据挖掘核心:
以业务为核心,
以思路为重点,
以挖掘技术为辅佐。
本周看了一本关于数据挖掘方面的书,此文是笔记也结合自己的感悟进行总结,欢迎一起学习理解数据挖掘在商业实践中的应用流程,相信这不仅对于自己,对于各位正从事数据挖掘朋友,机器学习算法的工程师,或者各公司的老板都有一定的意义。
对于技术达人,一定要懂项目管理,知道技术如何在商业中落地,让技术能够真正帮助公司,实现自我价值,同时使自己的生活更好。
对于老板,应该知道数据驱动将会是未来大多数公司新发展的动力,应该了解数据如何帮助企业实现突破,解围。
数据挖掘的流程总共可以分为以下12个步骤:
有痛点,才会有需求,没有痛点公司也可以找到需要优化的点开展数据挖掘的项目,首先就是要理解需求,了解痛点和需要优化的指标。
数据分析师能知道技术的边界,知道技术可以做什么,与业务方的需求探讨是必不可少的。讨论时需要研究需求背景,了解有哪些相关数据资源,熟悉业务逻辑。专业评估需求解决的可行性,是否能达到目的,初步给出结论是短期目标还是长期目标。
数据分析师应该用专业的角度定位问题,该用什么模型,分类还是回归模型等。需要什么特征数据(变量),数据源在何处,如何抽取。对于目前的数据情况,人力进行风险评估,如果模型不好,有没有弥补方式。
同时也要给出运营方案建议,如果是现在短期没有的数据可否进行运营活动进行数据的获取。最后给出项目计划,制定项目各节点。
工程师上场先得摸下数据,从数据仓库提取数据,观察数据是否可用。观察空值多少是否进行填充或剔除等。如果能够获取的数据特征较少应该根据业务创建合适的衍生变量(特征)。基于业务的理解,对于共线性的特征只需要保留其一就行。业务清晰才能选对特征,这是重要一环。
选取特征,选择算法。
验证集进行交叉验证,进行算法模型的比较。
在算法的应用时,数据分析师可以得出哪些是影响结果关键特征,模型目前测试的效果如何,这些可以同业务方进行汇报。对于模型可能更优化的方案,是否需要配合进行数据的重新获取,是否采取运营措施进行数据补充,或进行数据埋点长期获取。
增加新数据,优化方案,重新进行模型建立。
经过多轮的模型实施,得出分析报告。
对于提升业务效率,拉客,留存激活等可以进行分层,个性化服务,哪怕是一篇个性化的文案也会起到不错的。
对于需要将模型上线的,需要与业务系统配合解决上线工程问题。
落地的方案可能会有多种,前期会进行小范围样本对照,对于各方案结果需要跟踪。
根据对比,集中资源采取最优化方案落地,并不断完善。
本文由职坐标整理发布,学习更多的相关知识,请关注职坐标IT知识库!
您输入的评论内容中包含违禁敏感词
我知道了
请输入正确的手机号码
请输入正确的验证码
您今天的短信下发次数太多了,明天再试试吧!
我们会在第一时间安排职业规划师联系您!
您也可以联系我们的职业规划师咨询:
版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
沪公网安备 31011502005948号