大数据应用开源大数据技术生态与发展-职坐标

大数据应用开源大数据技术生态与发展

沉沙 2018-10-15 来源：阅读 506 评论 0

摘要：本篇教程介绍了大数据应用开源大数据技术生态与发展，希望阅读本篇文章以后大家有所收获，帮助大家对大数据云计算大数据应用的理解更加深入。

本篇教程介绍了大数据应用开源大数据技术生态与发展，希望阅读本篇文章以后大家有所收获，帮助大家对大数据云计算大数据应用的理解更加深入。

以“开源大数据技术的生态与应用”为主题的“第四届中国大数据应用论坛”在北京大学隆重举办。本次论坛由北京大学信息化与信息管理研究中心和中国新一代IT产业推进联盟主办，北京大学班教务办公室和北达软协办，时代网承办。活动当天来自业界的专家领导、大数据专家、技术大咖、知名企业、知名媒体等近200位嘉宾参与了此次盛会。本届论坛的主题聚焦开源大数据技术的生态与应用，嘉宾们分别从不同的侧面揭示了大数据技术本身的发展与行业应用趋势，带给了台下嘉宾们很多的干货以及经验分享。

    百度高级技术经理、高级架构师朱冠胤先生为大家带来了题为“开源大数据技术生态与展”的主题演讲，以下为演讲实录：

百度高级技术经理、高级架构师朱冠胤
    各位领导、各位专家，北大班的各位同学，大家上午好！我先自我介绍一下，我叫朱冠胤，2008年加入百度，一直从事大数据处理。今天有幸跟大家分享一下百度以及我个人在大数据处理方面的浅显认识。我本人也是北大互联网班的学员，今天非常高兴能够和各位同学一起探讨一下开源大数据的一些进展。

    现在业界流行一种说法“从IT到DT”。DT就是数据技术。现在出现一个新的角色就是数据科学家。这个图是百度对于大数据相关的搜索情况。从2012年到现在，网民对于大数据关注度越来越高，2015年7月3日国务院发布的关于互联网+行动指导意见，20多次提到“大数据”这一关键词。

    业界对大数据关键词也做了很多总结。用“4V”来概括。第一个就是数据规模，2013年8月，个人云存储，百度引领进入T时代。到2015年下半年，单盘6TB，单机12块盘近100TB。行业数据，单人基因测序原始数据200GB。第二就是数据类型方面，包括日志、语音、视频、图片、地理位置、基因等等。第三就是数据处理方面，大吞吐、高并发、低延迟、事务性。数据本身就是资源，随着时间流逝，价值会越来越掉价，所以延迟性要非常注重。还有我们存储这些数据也是需要花费很多成本的。

    看一下大数据应用模型。大数据产生，万物智能时代，产生的数据越来越多，数据收集也是一个非常关键的，将数据收集上来之后存储也是非常关键的。我们要对数据进行分析，对大数据进行可视化看一下大数据应用模型。大数据产生，万物智能时代，产生的数据越来越多，数据收集，分析和可视化之后的结果最终从结果中挖掘出价值，并且将这种价值用于决策。比如说用户行为的数据，进行分析、建模，然后对这个模型进行评估，评估之后，觉得这个模型可用时会将这种模型推到线上，会对新进入人群行为进行预测。业界总结的一个非常经典的例子，对底层是批处理层。我们的Web页面，AppService，通过实时计算对其进行数据挖掘，然后交给上一层，最后拿到分析结果，再继续用于影响新的数据产生。

    下面看一下Google的例子。这个图的作者是剑桥博士生写的，我在图上做了一些改进。最下面是资源层，中间是Data store层。上面是计算引擎这层，包括批处理，还有各种计算模型，交互式分析等。右边可以看到存储分析这块的界限并没有那么清晰了，互相之间重叠的领域非常多。这个图是Google  bigData  Stack。接下来看一下Open Source BigData Stack。File Systems，Data Stores，Engines，Computational Frameworks，Data Analytics，Data Integration。

    提到大数据，肯定绕不开Hadoop。Hadoop这个关键字在百度搜索中可以看到从2011年到现在，其实百度最开始真正引入Hadoop是2007年。我们可以看到这个关键字的关注是持续高涨。看完Hadoop我们看一下大数据明日之星，Spark。网民对Spark关键字的关注度也是突飞猛进。接下来看一下大数据领域，以Hadoop和Spark为核心的开源技术。计算引擎这一层，最主流的是MapReduce。MapReduce和Spark下面还有一些系统。Spark上面还有Spark Streaming。看了这么多，尤其是来自于传统行业的我们究竟要选择什么样的组建和模型？这个问题不是简单能回答的。这块与你本身的用户场景关系非常大。另外与你所处公司内部的工程架构、IT背景有很大关系。简单来说，我们在计算引擎选择上，我们推荐Spark SQL。优先推荐上层的，比如说Pig。一些普通的应用开发人员直接用上层的系统来进行大数据的分析和挖掘，比直接用底层的会更好。在Open Source领域，以Hadoop等为核心的开源大数据生态，这种我们可以看到种类非常繁多。那我们怎么样选择呢？对于怎么选择，要结合自己的用户场景。

    非常好的一个消息是，因为百度在这块积累非常深，目前大数据处理，包括像亚马逊、微软、百度，大家纷纷都将大数据处理本身做成一种非常普通的服务。百度大数据对外开放，已经经过深度优化。百度开放云—大数据+智能。我们的BMR已经开放。那么PALO，是邀请内测中。还有BML，也是邀请内测中。更多内部大数据产品将对外开放服务。

    接下来分享一下百度在Spark、Hadoop服务经验。依托百度多年Hadoop/Spark研发、实践经验，全集群10万台，单集群最大超过1.3W，全球最大Hadoop/Spark集群。2014年Sort Benchmark大赛全球排名第一。自研Hadoop性能超越开源Hadoop50%。日处理Task超过百万，日均CPU利用率80%。

    依托百度多年在Hadoop/ Spark研发、实践经验，国内首个云端全托管的Hadoop/Spark服务。特点就是按需部署（组建、集群规模、服务器配置）；用户专享（独占集群、安全可靠）大家知道数据本身是一种资产、资源，对于公司来讲，它有着最大的价值。这种资源本身是不能对外泄露，或者被别人拿到、删除、修改，所以我们的要求就是安全可靠；弹性扩展（按需随时伸缩计算节点）目前我们是限制20个节点；还有很关键一点，就是超高性能（内置百度高性能计算引擎）；兼容开源（完全兼容开源Hadoop/ Spark生态）。

    总结一下我今天的演讲：大数据典型特征（4V）；大数据应用模型；开源大数据协议栈；以Hadoop、Spark为核心的开源大数据生态，选择适合的组建，百度开放云：大数据+智能，助力互联网+。我们会有很多专家和大家一起来解决传统行业大数据处理这块的各种问题。我今天的演讲就到这里，谢谢大家。