hadoop大数据技术基础及应用pdf,基于hadoop的大数据处理技术

  hadoop大数据技术基础及应用pdf,基于hadoop的大数据处理技术

  大数据的热度持续升温,继云计算之后,大数据成为大众追捧的又一新星。先不讨论大数据是否适用于你的公司或组织,至少它已经在互联网上被吹嘘成无所不能的超级战舰。好像一夜之间,我们从互联网时代跳到了大数据时代!大数据到底是什么?说真的,到目前为止和云计算一样。总让我觉得在看电影《云图》 ——。也许那些正在向你推销大数据产品的公司会给你描绘一幅乌托邦般的美好图景,但你至少要保持清醒的头脑,仔细问问自己,我们的公司真的需要大数据吗?

  作为第三方支付公司,数据确实是公司最重要的核心资产。由于公司成立不久,随着业务的快速发展,交易数据呈几何级增长,系统不堪重负。业务部门,领导,甚至集团老总都吵着要报表,要分析,要竞争力。R&D部门唯一能做的就是执行复杂到无法想象的SQL语句,然后系统开始罢工,内存溢出,宕机.简直是噩梦。OMG!请放开我!

  其实数据部门的压力可以说是常人无法想象的。将所有离散数据汇总成一份有价值的报告可能需要几周或更长时间。这显然与业务部门所要求的快速反应的理念格格不入。俗话说,工欲善其事,必先利其器。我们该换枪了。

  互联网上有大量描述大数据好处的文章,一大群人不厌其烦地谈论他们使用大数据的经历。但是,我想问,有多少人和机构是真正在做大数据的?实际效果如何?真正给公司带来价值?价值可以量化吗?我似乎没有看到很多关于这些问题的评论。可能是大数据太新了(其实底层概念并不新,只是旧酒装新瓶),人们还沉浸在各种精彩的YY中。

  作为一个严谨的技术人员,在短暂的盲目崇拜之后,你要迅速进入落地应用的研究,这也是踩“云”的建筑师和骑自行车的建筑师的本质区别。我说了一些牢骚话,要么作为一种发泄,要么作为一种吸引眼球的方式。总之,我想表达的其实很简单:不要被新事物所迷惑,不要盲目崇拜任何新事物,不要随波逐流。这对于做研究的我们来说是绝对不能接受的。

  说了很多,该说正题了。公司高层决定在集团内部正式实施大数据平台(来自一些社区的yby被特别邀请,期待着它.),而且作为第三方支付公司实施大数据平台无可厚非,所以他们也积极参与了这个项目。正如之前对OSGi企业级框架的研究已经告一段落一样,

  所以,我想以CSDN为平台,记录这个大数据平台的实施过程。我想我一定能给其他有类似想法的个人或公司提供一个很好的参考!需要大数据的可以加我扣群大数据零基础到实际项目,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘,都是纯干货分享,入群可以获得永久免费权限。410391744

  第一,大数据平台的整体架构设计。

  1.软件架构设计

  大数据平台的架构设计遵循分层设计的思想,将平台所需的服务按照其功能划分为不同的模块层次。每个模块级别只与较高或较低的模块级别交互(通过级别边界的接口),以避免跨层交互。这种设计的优点是每个功能模块的内部是高度内聚的,而模块之间是松散耦合的。这种架构有利于实现平台的高可靠性、高可扩展性和易维护性。比如,当我们需要扩展Hadoop集群时,只需要在基础架构层增加一个新的Hadoop节点服务器,不需要对其他模块层做任何改动,对用户完全透明。

  整个大数据平台按照功能分为五个模块层次,自下而上:

  操作环境层:

  运行时环境层为基础设施层提供运行时环境,由两部分组成,即操作系统和运行时环境。

  (1)操作系统我们建议安装REHL5.0版本5.0以上(64位)。另外,为了提高磁盘的IO吞吐量,避免安装RAID驱动,分布式文件系统的数据目录分布在不同的磁盘分区上,提高磁盘的IO性能。

  (2)运行时环境的具体要求如下:

  版本描述

  JDK1.6以上Hadoop需要Java运行时环境,必须安装JDK。

  Gcc/g 3.x或以上。当使用Hadoop管道运行MapReduce任务时,需要一个gcc编译器,这是可选的。

  Python版本2.x或以上使用Hadoop Streaming运行MapReduce任务时,需要Python运行时,这是可选的。

  基础设施层:

  基础设施层由两部分组成:Zookeeper集群和Hadoop集群。它为基础平台层提供基础设施服务,如命名服务、分布式文件系统、MapReduce等。

  (1)ZooKeeper集群用于命名映射。基础平台层的任务调度控制台作为Hadoop集群的命名服务器,可以通过命名服务器访问Hadoop集群中的NameNode,同时还具有故障转移的功能。

  (2)Hadoop集群是大数据平台的核心,是基础平台层的基础设施。它提供HDFS、MapReduce、JobTracker和TaskTracker服务。目前,我们采用双主节点模式来避免Hadoop集群的单点故障。

  基础平台层:

  基础平台层由三部分组成:任务调度控制台、HBase和Hive。它为用户网关层提供基本的服务调用接口。

  (1)任务调度控制台是MapReduce任务的调度中心,分配各种任务的顺序和优先级。用户通过调度控制台提交作业任务,并通过用户网关层的Hadoop客户端返回任务执行的结果。具体实施步骤如下:

  任务调度控制台收到用户提交的作业后,匹配其调度算法;

  请求ZooKeeper返回可用Hadoop集群的JobTracker节点地址;

  提交MapReduce作业任务;

  轮询作业任务是否完成;

  如果作业发送完消息并调用了回调函数;

  继续下一个工作任务。

  作为一个完善的Hadoop集群实现,任务调度控制台尽可能自己开发实现,这样灵活性和可控性会更强。

  (2)HBase是基于Hadoop的列数据库,为用户提供基于表的数据访问服务。

  (3)Hive是Hadoop上的查询服务。用户通过用户网关层的Hive客户端提交类似SQL的查询请求,通过客户端的UI查看返回的查询结果。该接口可以为数据部门提供准实时的数据查询统计服务。

  用户层:

  网关层用于为终端客户提供个性化的调用接口和用户认证,是用户唯一可见的大数据平台运营入口。终端只能通过用户网关层提供的接口与大数据平台进行交互。目前,网关层提供了三种个性化的调用接口:

  (1)Hadoop客户端是用户提交MapReduce作业的入口,可以从其UI界面查看返回的处理结果。

  (2)Hive客户端是用户提交HQL查询服务的入口,可以从其UI界面查看查询结果。

  (3)Sqoop是关系数据库与HBase或Hive的接口。您可以根据需要将关系数据库中的数据导入HBase或Hive,以便用户可以通过HQL进行查询。同时,HBase或Hive或HDFS也可以将数据导入回关系数据库,以便其他分析系统进行进一步的数据分析。

  网关层可以根据实际需要无限扩展,满足不同用户的需求。

  应用层:

  应用层是各种终端应用,可以包括各种关系数据库、报表、交易行为分析、报表、结算等。

  目前我能想到能登陆大数据平台的应用如下:

  1.行为分析:将关系数据库的事务数据导入Hadoop集群,然后根据数据挖掘算法编写MapReduce作业任务提交给JobTracker进行分布式计算,再将计算结果放入Hive。终端用户通过Hive客户端提交HQL查询的统计分析结果。

  2.对账单:将关系数据库的交易数据导入Hadoop集群,然后根据业务规则编写MapReduce作业任务,提交给JobTracker进行分布式计算。最终用户可以通过Hadoop客户端提取语句结果文件(Hadoop本身也是一个分布式文件系统,具有通常的文件访问能力)。

  3.清算结算:将银联文件导入HDFS,然后对从关系数据库导入的POSP交易数据进行MapReduce计算(即账户结算操作),再将计算结果连接到另一个MapReduce作业进行费率和利润分成计算(即结算操作),最后将计算结果导回关系数据库,用户触发商户汇款(即汇款操作)。

  部署架构设计

  关键点描述:

  1.目前整个Hadoop集群放在银联机房。

  2.在2中有两个主节点和五个从节点。Hadoop集群,两个主节点互为备份。故障转移功能可以通过ZooKeeper实现。每个主节点共享所有从节点,保证分布式文件系统的备份存在于所有DataNode中。Hadoop集群中的所有主机必须使用同一个网段,放在同一个机架上,以保证集群的IO性能。

  3.ZooKeeper集群至少配置2台主机,以避免命名服务的单节点故障。有了ZooKeeper,我们可以不再需要F5进行负载均衡,任务调度控制台可以通过ZK直接访问Hadoop名称节点进行负载均衡。

  4.所有服务器都必须配置为无密钥SSH访问。

  5.外部或内部用户需要通过网关访问Hadoop集群,网关只有经过一些认证后才能提供服务,以保证Hadoop集群的访问安全。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • oracle的clob大小,oracle clob类型转字符串,Oracle的CLOB大数据字段类型操作方法
  • ,,大数据分析R语言RStudio使用超详细教程
  • 大数据在不同应用场景的价值体现,举例说明大数据应用的场景和优势
  • Python与大数据,python能不能分析大数据
  • 人工智能产业的框架结构分别为,人工智能产业的框架结构的基础层包括大数据
  • Python处理大数据,Python科学计算及大数据
  • 随着ai和大数据技术的发展,对大数据与人工智能的理解
  • 数据开发和大数据开发的区别,大数据开发是啥
  • 应用统计学思考题,应用统计学在大数据背景下的应用与创新
  • 大数据技术主要包括哪几方面,大数据技术包括哪些主要内容
  • 与大数据相关的书籍,大数据方面的书籍推荐
  • 数据存储方式,大数据存储的概念是什么,大数据的存储方式包括
  • 学python大数据,Python做大数据
  • 如何成为大数据架构师,大数据架构师发展前景分析,如何成为大数据架构师,大数据架构师发展前景怎么样
  • 大数据学了能做什么,大数据 要学什么吗,大数据学了能做什么,大数据 要学什么科目
  • 留言与评论(共有 条评论)
       
    验证码: