当前位置: 首页 > 互联网, 历程 > 正文

数据达人培训

现在是在数据时代,而我基本却没大数据方面相关的知识和技能。记不清上一次是什么时候安装hadoop了,运行了一个count的程序。而之后的学习就断了。一个很重要的原因是,大数据环境下我应该怎么学,走什么样的路,少走弯路的去学。没有找人指点,或者说没有这样的环境与机遇让我去学,让我在在数据之路上一止停止不前。但说实话,我对大数据方面的热情和知识的渴望却一直来没有减少过。

作为商业智能部门的每一位员工,大数据的知识应该是入门的,也是基础的。公司在大数据架构师到位的情况下,适时的为我们开起了《数据达人》的培训课程,而我自然不想也不会错过。这是我很容易快速入门的一个途径,况且有实际操作的部门必定让你在操作之后久久不忘,或者说那些简单的概念或是基础的应用也是你拓展知识面的又一个途径。

培训从基础的概念入门,从分布式存储开讲,到分布式计算,再到分布式查询,数据仓库工具,再到分布式数据采集,分布式消息处理。从而对大数据平台的存储、计算、应用的各个方面都有个基础的理解,及他们在大数据环境中所处的位置。而同层中也会列出其它相关的开源产品和应用,这对我们扩展延伸去学习大数据是有极大帮助的。

在这次的数据达人培训中,实操部分我们先安装了hdfs,知道了mapreduce和yarn,如何查看hdfs文件,job执行及日志,最重要的分布式存储机制以及在现实环境中的硬件架构,网络配置等也有所提及,讲师把自己多年来的碰到问题及获取得到的经验也都分享给了大家。在此基础上我们又安装了Hive,理解了数据仓库的概念以及Hive在hdfs中的存储,及Hive元数据库的相关知识。接下来我们又实际操作了HBase,理解了列式存储的概念,宽表的概念。hdfs作为分布式文件系统,必然要收集大量的数据,或是消息日志,或是普通的关系型数据库。这时又适时引入了flume和sqoop工具。flume作为实时的消息收集工具可以灵活地对外部文件夹进行监控,将数据收集到hdfs中。而sqoop能很方便在把关系弄数据库上的数据和结构快速的导入或hdfs环境中,如Hive或Hbase。最后我们又讲到了kafka,一个分布式的发布与订阅工具,并进行了具体操作,了解了其与activeMq, rabbitMq等消息队列框架的差异。实操部分让自己对这方面的知识有了进一步的巩固。在这一系列的过程中又学习应用了zookeeper的相关知识和操作。在集群环境下,很多工具和应用需要与zookeeper进行相互之前的协调处理与一致。

也许现在并不能将所有学到的知识完全无误的记录下来,但这一个过程却是很鲜活和有趣的。为了这个培训,我们又是在下班之后,周末的时间进行,让这次培训显得更加的额外所获。当然仅从培训得来的知识往往是基础和皮毛的,但就像导师说的那样,你入门了,你才能更好的去发展,无论谁都需要这个阶段,只是每个人跨过这个阶段的方式不一样,而你所需要的是继续努力,深入学习下去。

本文固定链接: http://www.byhard.com/?p=1749 | 海纳百川

该日志由 byhard 于2017年10月23日发表在 互联网, 历程 分类下,
原创文章转载请注明: 数据达人培训 | 海纳百川
关键字: ,
【上一篇】
【下一篇】

数据达人培训:目前有3 条留言

  1. 数据分析水很深啊

    2017-10-25 09:55
  2. 板凳
    无刷水泵:

    正文的字体颜色,比较淡,看起来比较费力。

    2017-11-15 11:02
  3. 沙发
    创业网:

    冬天虽已来临,祝您四季如春!

    2017-11-20 11:35