谈Hadoop平民化(infoq访谈)51CTO博客 - 众发娱乐

谈Hadoop平民化(infoq访谈)51CTO博客

2019年04月05日14时30分11秒 | 作者: 绍晖 | 标签: 数据,需求,技能 | 浏览: 1616

原文地址

作者 水羽哲 发布于 2012年

跟着Hadoop的推出,大数据处理完结了技能上的落地。可是关于一般的公司和开发者而言,Hadoop依旧是一个生疏或许难以运用的技能。这次的阿里云开发者大会上,向磊凭仗EasyHadoop将Hadoop平民化而取得了最佳构思奖,InfoQ对他进行了采访。InfoQ: 首要请您做下自我介绍并介绍本次的参赛著作EasyHadoop?
向磊:我们好,我是向磊,本次阿里云开发者大赛最佳构思奖著作EasyHadoop和phpHiveAdmin的作者。现在供职于一家互联网视频公司的数据部分,担任整个Hadoop集群的保护和一些数据剖析产品的研制作业。本次参赛的EasyHadoop和phpHiveAdmin是我在业余时刻编写的开源软件,其间EasyHadoop是界面化装置布置和办理Hadoop集群用的,phpHiveAdmin是用来办理和查询Hive数据库房用的。假设打个类比的话,EasyHadoop类似于Cloudera Manager,phpHiveAdmin类似于HUE里边的Beeswax。首要是期望可以协助到一些需求用到Hadoop做数据剖析,又苦于Hadoop技能门槛太高的公司可以快速运用Hadoop。
InfoQ: 现在国内公司对Hadoop接受程度是怎样的?
向磊:个人观念吧,国内有一些大的互联网公司比较早就现已开端用Hadoop剖析事务数据,可是许多中小企业或许国企央企仍是处于张望状况。我觉得首要仍是由于Hadoop的技能门槛比较高,推行起来具有必定难度,对中小企业来说,Hadoop的施行本钱比较高。然后国企央企或许以为假设自己上了Hadoop,保护和开发将是比较困难的工作。其时Hadoop的人才稀有,所以,国内许多人传闻过Hadoop了,可是可以真实下决心在自己企业施行的仍是少量。不过总的趋势仍是好的,乐意测验Hadoop的公司和个人越来越多了。首要我觉得是事务压力逼的,传统的联系型数据库做统计剖析现在的确有些无能为力了。数据量越来越大,一个group by就内存溢出了。在质变现已无法满意需求的时分,就需求质变了。
InfoQ:Hadoop尽管很火,可是可以操作起来的公司和技能人员却不是许多,那么你以为是什么阻止了Hadoop的“平民化”?EasyHadoop又是怎么协助开发者来下降门槛的?
向磊:这个就需求说到我在大赛演示的时分说的Hadoop的三高问题(不是血糖高血脂高血压高,哈哈,这三高由我来替我们承当)。第一是硬件投入高,Hadoop是集群存储和核算,这就意味着无法由一台效劳器完结,建立集群的话,一台高配效劳器大约需求2-4万左右。关于中小企业来说,哪怕建立3-4台集群都是很大的本钱压力。不过很快乐这次看到阿里云供给的云主机,可以大幅度下降硬件的本钱投入,合适Hadoop用的主机用一年才几千块钱,10台下来一年才几万块钱,这可以说个人都是可以接受的了。第二是技能门槛高,可以装置布置运维Hadoop集群的人极端稀疏,由于分布式核算究竟需求数台到数十台效劳器的协同运作,这时毛病就变成常态了。给我很深刻印象的是阿里云的唐洪博士做的陈述,单台效劳器的硬盘毛病率是4%,可是当你是一个集群,有5000台效劳器的时分,硬盘毛病率便是99.6%了。而且效劳器之间网络通讯,使命调度都会出问题,这些问题对保护人员来说都提出了适当高的要求。不过,其实最早做EasyHadoop和phpHiveAdmin是为了下降自己作业中的重复劳动,由于Hadoop的集群布置和装置装备甚至运用都是十分繁琐且简略犯错的。所以为了省劲,写了这样一个东西,从一个装置脚本开端,后来渐渐越写越大。最终收拾一下功用就开源出来了。里边把装置脚本都封装起来了,用户不需求关怀Hadoop装置的繁琐过程。只需泡杯茶,点根烟,点点鼠标就好了,运维中的检查日志和重启节点也只需求动动手指就完结了。第三是开发本钱高,每个公司对自己的数据需求都是不同的,而可以开发Map/Reduce程序的人又少又贵,这就造成了大数据剖析的人力本钱很高。曾经淘宝的陈述说到,淘宝的数据90%剖析是经过Hive库房完结的,在我现在的公司,或许份额更高,95%是Hive完结的。可是Hive自身是彻底命令行操作的,除了技能人员或许都用不了。所以我就写了phpHiveAdmin用来做Hive数据库房的办理和查询界面。这样,之前的mysql/oracle办理员可以不必开掉,留下来办理Hive库房就好了。只需会写SQL就可以做大数据的剖析了。而且我想提一个最初开发时分彻底意料之外的改动,是办理流程上的改动。之前没有界面化,事务人员需求提交需求给技能人员。由技能人员编写HQL或许Map/Reduce,然后生成报表回来给事务人员,周期慢,中心对技能和事务人员对事务了解有误差还要从头返工。写了phpHiveAdmin之后,事务人员只需简略训练一下HQL言语,许多数据他们可以自己去数据库房里查询,而不需求经过技能人员了,节约了办理流程上的时刻和本钱。数据成果也愈加直观。技能人员也能有更多的时刻和精力去研制更多更重要的数据内容。这算是phpHiveAdmin为公司节约办理本钱和数据研制本钱做的一点奉献吧。所以总结下来,云核算处理硬件本钱问题,EasyHadoop处理技能门槛问题,phpHiveAdmin处理开发和办理本钱高的问题,开源出来,算是对我们作出一点微乎其微的协助吧。
InfoQ:现在现已进入到了“大数据的年代”,比方王坚博士说阿里云是一家以“数据为中心的云核算效劳公司”现已印证了这一点,那么您以为“大数据”带来的机会和应战别离是什么?开发者怎么应该怎么应对?
向磊:王坚博士讲演的时分我在场外展台,没有听到,可是我传闻他的讲演中也说到了EasyHadoop,令我感到十分的侥幸。我十分赞同王坚博士的观念,阿里系一向以来都是数据推进事务,才干取得今日雄霸整个我国电子商务商场和云核算商场的成果。关于大数据,我个人的观念是,大数据带来的也是大机会和大应战,不仅仅是技能层面上的,更是办理者视野的问题。你计划靠什么来辅导你自身的事务开展,是开所谓Brain Storm的拍脑袋会,仍是用数据来证明,这是办理者需求改动思路的当地。而作为开发者,也需求改动一些思想方法,从传统的单机思想,扩展到集群思想,大数据年代需求的是可以提出更快更好更立异的概念并完结。Hadoop和大数据我以为给我的一个启示是,个人英雄主义的孤军独战作战方法将不再适用。团体和协作的力气将远大于个人的力气,用我国俗语来说,便是“三个臭皮匠,顶个诸葛亮”。关于技能人员来说也是这样,一个人再强也不是强,团队强才是真的强。更多共享和更多沟通,是开发者需求加入到自己的时刻表里的,而不仅仅是进步自己的技能和算法水平。团队协作不会下降你的社会地位和收入。
InfoQ: 在开发的过程中,你用到了阿里云的哪些效劳?请罗列这些效劳的长处和需求改善的当地?
向磊:首要是用到了阿里云的ECS效劳器,对Hadoop来说这就够了。长处嘛,便是履行速度快,内网间通讯也十分快。需求改善的么,我了解了一下,阿里云为了确保数据安全,每个云主机里的数据都是备份3份的。然后假设用上Hadoop,Hadoop自身又是备份呢3份,这样数据就变成9份了。不知道阿里云能否有一种效劳,用户可以自己界说主机数据的备份份数的。不过我觉得这会比较困难,由于这是云核算的底层效劳,或许会很难改。算是个期望吧。
InfoQ: 你说到EasyHadoop是依据GPL协议进行开发的,首要奉献者是几个中心团队的人员,您以为这种开源方法有什么利害?
向磊:GPL简略的说便是开源感染协议。我的主意是,我已然乐意开源出来,就意味这我乐意为需求的人作出一点奉献。而被供给协助的人们不需求向我付出费用,只需把这种协助一向延续下去就好了。“Pay it forward, not pay me”,现在代码奉献者首要是我个人,首要原因是言语和程序架构比较复杂,言语方面用到了php,shell,python三种。然后触及操作系统的底层内容比较多,像异步调用,线程池,socket通讯等等。然后趣游的程序员史东杰提交过phpHiveAdmin的HQL主动提示代码和其他修改意见。窝窝团的用户提交过phpHiveAdmin的HQL正则表达式bug问题,现在现已批改了。利害方面,有利的方面是可以让软件可持续开展下去,每个人的代码都会被公开出来。坏处便是不会得到商业的支撑,也便是没有任何来自商业公司的资助。我现在是这样看的。
InfoQ:请你共享一下获奖的感触?
向磊:首要得感谢阿里云供给了这样一个竞赛,可以和许多优异的开发者面对面沟通开发技巧。获奖感触一个成语总结便是被宠若惊,的确没有想到能拿到奖,由于究竟参赛人数许多,每个人的著作又都匠心独运,十分有主意和特征,有些技能水平也十分高。比方三等奖的一个作者,北航的研三学生蔺波写的僵尸网络仿真就很凶猛,网络仿真自身便是一个比较偏技能和前沿的东西,很难想象是一个学生的著作。
InfoQ: EasyHadoop下一步的开展计划是什么?
向磊:首要来说仍是会持续完善整个产品,持续简化用户操作,添加功用,增强监控,批改bug,进步代码的安全性和健壮性。我还有许多主意,渐渐会逐渐完结出来。然后也会对其他Hadoop生态圈的周边软件进行界面化封装,比方Pig,Mahout等等。我们在大会上都看到了phpHiveAdmin的Logo,其时由于时刻联系没有讲。在这里我也想借这个logo的诞生贫两句,这个Logo是我一个发小帮我规划的。其时我通知了他三个关键词:蜜蜂,大象,和简略。我们都知道,Hive的标志是蜜蜂,Hadoop的标志是大象,phpHiveAdmin的标志便是简略。所以就诞生了这个又像蜜蜂,又像大象,又很笼统的类似于任天堂红白机感觉的Logo,我觉得他很好的诠释了我对这整个系列产品的概念,便是要让我们像打红白机相同简略的进入大数据的殿堂。只需你会用Mysql,你就可以用Hive,只需你会点鼠标,你就可以用Hadoop。极简是EasyHadoop和整个系列产品的开展方针和方向,这也是我为什么最初决议用php来开发的理由。
感谢阿里云,感谢InfoQ,感谢谷歌,感谢Doug Cutting,以及感谢为大数据作出奉献的每一个人。
版权声明
本文来源于网络,版权归原作者所有,其内容与观点不代表众发娱乐立场。转载文章仅为传播更有价值的信息,如采编人员采编有误或者版权原因,请与我们联系,我们核实后立即修改或删除。

猜您喜欢的文章