大数据应用之Hulu 大数据架构与应用经验
沉沙 2018-12-27 来源 : 阅读 165 评论 0

摘要:本篇教程介绍了大数据应用之Hulu 大数据架构与应用经验,希望阅读本篇文章以后大家有所收获,帮助大家对大数据云计算大数据应用的理解更加深入。

本篇教程介绍了大数据应用之Hulu 大数据架构与应用经验,希望阅读本篇文章以后大家有所收获,帮助大家对大数据云计算大数据应用的理解更加深入。

大数据应用之Hulu 大数据架构与应用经验

<

                <div class="title">                    <h3><a href="" rel="bookmark" title="">Hulu 大数据架构与应用经验</a></h3>                    <div class="property">                        <!--<span class="editor">funny</span>-->                        <span class="time">发布于:2017-12-31 03:07:35.0</span>                        <span class="views">已浏览:101 views</span>                        <span class="tag"></span>                    </div>                </div>                <div class="entry"><div>  <p> <img src="https://www.j4ml.com/wp-content/uploads/2017/12/R3iya2E.gif" class="alignCenter"> </p>  <p> <img src="https://www.j4ml.com/wp-content/uploads/2017/12/V7jm6bN.jpg!web" class="alignCenter"> </p>  <p> <span>内容来源:</span> <span>2017年8月12日,Hulu大数据架构部门负责人董西成在“网易博学实践日:大数据与人工智能技术大会”进行</span> <span>《Hulu大数据架构与应用经验》</span> <span>演讲分享。IT 大咖说作为独家视频合作方,经主办方和讲者审阅授权发布。</span> </p>  <p>阅读字数:1540&nbsp;| 4分钟阅读</p>  <p>摘要</p>  <p> <span>Hulu</span> <span>大数据架构部门负责人董西成为我们分享</span> <span>Hulu</span> <span>在大数据架构与应用上的实践经验。</span> </p>  <p> <span> <strong>Overview</strong> </span> </p>  <p> <img src="https://www.j4ml.com/wp-content/uploads/2017/12/i22Aj2y.jpg!web" class="alignCenter"> </p>  <p>上图是hulu整体的大数据架构。我们的架构和其它架构基本都是大同小异,只在几个地方稍有不同。</p>  <p>Hulu在yarn上主要跑了四种东西,批处理、交互式计算、流式处理和服务。</p>  <p>我们自己开发了一个交互式计算引擎Nesto,在运行服务这一块,我们有一个工具叫Voidbox。</p>  <p>在这之上,我们还提供了各种各样的工具,方便用户使用整个集群。比如客户端管理工具Firework,还有统一的配置管理中心Horcrux,以及其它的工具。</p>  <p>除此之外,在上图右边可以看到我们用了两个集群管理工具,Cloudera Manager和Hawkeye。</p>  <p>我们有4个clusters、3个datacenters,这些基础设施都是被北京和美国的所有团队共享。目前在大数据基础架构这一块大约有十个人在负责整个集群的运维优化和开发。</p>  <p> <span> <strong>Hulu Focus</strong> </span> </p>  <p> <span>Hawkeye</span> </p>  <p>作为一个大数据基础运维团队,有一部分工作就是运维。运维必然需要一个强大的管理和监控系统,Hawkeye主要是帮助用户更好地了解数据或应用程序的变化,主要分为三部分。</p>  <p>第一个是报表。我们会给各个团队周期性地发送一些报表,这些报表里包括了冷热数据的分布、小文件的分布以及数据增长情况。让各团队了解数据的变化。</p>  <p>第二个是各种报警。有服务级别的报警、数据增长的报警、大的应用程序报警、服务状态的报警等等。这些报警信息有的会发送给数据团队,有的会发送给基础设施团队,以了解整个集群的运营情况。</p>  <p>我们还有自动化的程序,自动根据磁盘或者机器的状况产生任务,把它发送给常驻机房的团队,帮助我们进行修复。</p>  <p> <span>Firework</span> </p>  <p>Firework集成了hulu内部所有的Hadoop位置信息和版本信息。如果想用Firework访问不同的集群,只需要用相应的命令指令要访问哪一个机房,它会自动从中央仓库上把对应的版本缓存在本地,然后通过应用对应的客户端来访问Central。</p>  <p> <span>Hulu Spark</span> </p>  <p>目前Spark已经升级到了2.1版本,我们在内部版本里打了超过30个比较大的patches。</p>  <p>sparkstreaming和kafka结合的时候,任何的风吹草动都会使spark streaming出现问题,因为它在稳定性这一块非常差,现在开源社区还没有解决这个问题。</p>  <p>每一个spark会有很多executors,有时候客户需要调试各个executors。我们会采用一些启发式的算法,动态地探测各个executors的运行情况并对出现问题的executors采取一些措施。</p>  <p>我们有high cpu的applications,针对这样的应用程序,我们允许用户来定制每个节点可以跑的executors个数。</p>  <p>以上的例子都是我们对spark内部做的一些调整和优化,来帮助用户提高spark的稳定性和性能。</p>  <p> <span>OLAP Engines</span> </p>  <p>现在出现了越来越多的OLAP引擎,OLAP通常会分为三层。</p>  <p> <img src="https://www.j4ml.com/wp-content/uploads/2017/12/Q3IvaqI.jpg!web" class="alignCenter"> </p>  <p> 如上图所示,最底层就是各种各样的OLAP引擎,有Impala、Presto、Nesto以及Druid。 <br> </p>  <p>上面是基于OLAP引擎开发的应用,比如多维分析、时间序列分析、Cohort的分析以及用户流通率分析。</p>  <p>最顶层就是各种各样的可视化系统,Tableau和Hulu BI Portal。</p>  <p> <span>OLAP - Presto</span> </p>  <p>OLAP引擎中比较好用的就要算Presto了。Hulu在Presto里面启用了Resource group特性,可以把OLAP的资源分成若干个资源池,给不同的组来使用。</p>  <p>ElasticPresto就是可伸缩的Presto,根据查询的负载,动态地增加或者减少计算资源。在这一块yarn为我们提供了很好的操作系统。把Presto运行到yarn上,可以简化部署,滚动升级变得非常容易,并可以根据负载的情况不断弹性伸缩可用的计算资源。</p>  <p> <span>OLAP – Nesto Background</span> </p>  <p>Hulu自己开发了一个计算引擎Nesto,它主要是解决嵌套式数据查询的问题。</p>  <p> <img src="https://www.j4ml.com/wp-content/uploads/2017/12/Y3iaquM.jpg!web" class="alignCenter"> </p>  <p> <span> <strong>Hadoop Multi-DC</strong> </span> </p>  <p> <span>Challenge</span> </p>  <p>数据量非常大,应用程序也非常多,还有很多混合类型的应用程序。</p>  <p>我们把切换的downtime控制在一天之内,或者几个小时甚至更短。</p>  <p>Hulu的场景比较特殊,由于我们是一个跨国的公司,涉及到很多office,要与多个办事处的所有数据组协调。</p>  <p>如果想做透明的迁移,可能要做很多技术上的改动,自定义基础结构(代码级)以保证顺利地迁移。</p>  <p> <img src="https://www.j4ml.com/wp-content/uploads/2017/12/uIJrUry.jpg!web" class="alignCenter"> </p>  <p> <span>Components</span> </p>  <p>DCNamenode:支持数据中心级拓扑。</p>  <p>DCTunnel:根据文件夹级白名单和黑名单同步块;有带宽限制;基于优先级的块复制;调整报价;显示进度的Web门户网站。</p>  <p>DCBalancer:每一个数据中心内的平衡。</p>  <p> <span> <strong>总结</strong> </span> </p>  <p>构建基本的工具来更好地为用户服务,为用户的特殊案例定制开源项目,为特殊场景构建新系统。</p>  <p>今天的分享就到这里,谢谢大家!</p>  <div>   <p>相关推荐</p>   <h4>推荐文章</h4>   <ul>    <li> <p class="no-text-indent"> <a href="//mp.weixin.qq.com/s?__biz=MzIxODQxMjc0MA==&amp;mid=2247489279&amp;idx=1&amp;sn=a112d61c0337fe6cd78ab16baa69ac85&amp;chksm=97ebb554a09c3c423aeab26443792e58f6b5aa87bb56cef211286d5d320cc339cd8878e7cc8f&amp;scene=21#wechat_redirect" target="_blank" rel="nofollow,noindex">点融网亿级业务量背后的大数据技术应用</a> </p> </li>    <li> <p class="no-text-indent"> <a href="//mp.weixin.qq.com/s?__biz=MzIxODQxMjc0MA==&amp;mid=2247488543&amp;idx=2&amp;sn=e44e9bae37f874e6bace81f69afb9af1&amp;chksm=97ebb7b4a09c3ea221e7777db2d131716e84bd8281d17a69a0b3e848e43b50e91a93a44d4eba&amp;scene=21#wechat_redirect" target="_blank" rel="nofollow,noindex">腾讯云大数据产品研发实战(由IT大咖说整理)</a> </p> </li>   </ul>   <h4>近期活动</h4>   <ul>    <li> <p class="no-text-indent"> <a href="//mp.weixin.qq.com/s?__biz=MzIxODQxMjc0MA==&amp;mid=2247490929&amp;idx=1&amp;sn=76bc48cada488b111df664940ecf8a98&amp;chksm=97ebbedaa09c37cca0f123209587aaa09acdc0671d7a97233df62b0a4b344483bbc0aa46f7d2&amp;scene=21#wechat_redirect" target="_blank" rel="nofollow,noindex">重磅干货 | AI场景的价值体现——视觉 AI 技术如何落地?(文末福利)</a> </p> </li>   </ul>  </div>  <p> <img src="https://www.j4ml.com/wp-content/uploads/2017/12/FfuIVjj.jpg!web" class="alignCenter"> </p>  <p> <img src="https://www.j4ml.com/wp-content/uploads/2017/12/jEbEFjY.gif"> <span> 点击 <strong>【阅读原文】</strong> 进入干货密道 </span> </p> </div> <p><i style="float:left;">原文</i>&nbsp; <a class="cut cut70" href="//mp.weixin.qq.com/s/7w_hyOoPjFd1u7vqqefsjA?utm_source=tuicool&amp;utm_medium=referral" style="display:inline-block;">//mp.weixin.qq.com/s/7w_hyOoPjFd1u7vqqefsjA</a></p></div>                

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据应用频道!

本文由 @沉沙 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程