大数据应用之大数据的算法如何表现更好
沉沙 2018-10-25 来源 : 阅读 1081 评论 0

摘要:本篇教程介绍了大数据应用之大数据的算法如何表现更好,希望阅读本篇文章以后大家有所收获,帮助大家对大数据云计算大数据应用的理解更加深入。

本篇教程介绍了大数据应用之大数据的算法如何表现更好,希望阅读本篇文章以后大家有所收获,帮助大家对大数据云计算大数据应用的理解更加深入。

<

  “大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。

  整个社会要习惯这种思维可能需要很长时间,其中也会出现一些问题。

  但现在,有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。

  我们可以在大量数据对计算机其他领域进步的重要性上看到类似的变化。

  我们都知道,如摩尔定律所预测的,过去一段时间里计算机的数据处理能力上得到了很大的提高。

  摩尔定律认为,每块芯片上晶体管的数量每两年就会翻一倍。这使得电脑运行更加快速,存储空间变得更加庞大。

  但大家没有意识到的是,驱动各类系统的算法也进步了——美国总统科技顾问委员会的报告显示,在很多领域这些算法带来的进步还要胜过芯片的进步。

  然而,社会从“大数据”中所能得到的,并非来自运行更快的芯片或更好的算法,而是更多的数据。

  由于象棋的规则家喻户晓,且走子限制良多,在过去的几十年里,象棋算法的变化很小。计算机象棋程序总是步步为赢是因为

  对残局掌握得更好了,而之所以能做到这一点也只是因为往系统里加入了更多的数据。

  实际上,当棋盘上只剩下六枚棋子或更少的时候,这个残局得到了更全面的分析,并且接下来所有可能的走法都被制入了一个庞大的数据表格。

  这个数据表格如果不压缩的话,会有一太字节那么多。所以,计算机在这些重要的象棋残局中表现得完美无缺和不可战胜。

  大数据在多大程度上优于算法这个问题在自然语言处理上表现得更加明显(这是关于计算机如何学习和领悟我们在日常生活中使用语言的学科方向)。

  在2000年的时候,微软研究中心的米歇尔.班科和埃里克.布里尔一直在寻求改进Word程序中语法检查的方法。

  但是他们不确定是努力改进现有的算法、研发新的方法,还是添加更加细腻精致的特点更有效。

  所以,在实施这些措施之前,他们决定往现有的算法中添加更多的数据,看看会有什么不同的变化。

  很多对计算机学习算法的研究都建立在百万字左右的语料库基础上。

  最后,他们决定往4种常见的算法中逐渐添加数据,先是一千万字,再都一亿字,最后到十亿。

  结果有点令人吃惊。

  他们发现,随着数据的增多,4种算法的表现都大幅提高了。

  当数据只有500万的时候,有一种简单的算法表现得很差,但当数据达10亿的时候,它变成了表现最好的,准确率从原来的75%提高到了95%以上。

  与之相反地,在少量数据情况下运行得最好的算法,当加入更多的数据时,也会像其他的算法一样有所提高,但是却变成了在大量数据条件下运行得最不好的。它的准确率会从86%提高到94%。

  后来,班科和布里尔在他们发表的研究论文中写到:“如此一来,我们得重新衡量一下更多的人力物力是应该消耗在算法发展上还是在语料库发展上。”      
          

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据应用频道!

本文由 @沉沙 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程