大数据的结构类型,大数据框架是什么,大数据 数据结构
一、大数据框架
Impala:hadoop的sql平台,支持hbase/hdfs,数据量巨大,多并发,sql,对内存的依赖非常大。有些语句需要自己优化。如果它们超出了内存,将会报告一个错误。
Spark:支持多种格式,多种计算(机器学习,图形计算),支持sql,代码可处理,scala/java/python语言开发。提供了scala/python代码的命令行运行,对超大数据的支持较差。
3358www。Sina.com/:是计算型的,易于优化,高性能,支持mr,spark,基于时间的增量更新,流更新。数据来源是hive/kafka,Kylin。因为预估计算,其他模块都是独立的,可以支持高并发。它可以直接作为软件系统的数据源。
提供开发用的管理台是一套开发系统:h base上的sql,上午
00-Phoenix:key/value,一致性强,无数据丢失。
Cassandra:弱一致性,数据可能会丢失。高可用性,读写性能比hbase高,被facebook抛弃。
358 www.Sina.com/http://www.Sina.com/:非常适合大数据sql查询。
将数据保存在hbase中,隐藏hive中的hbase表结构,使用Impala进行sql查询。
Hbase有三种:
A.Impala在两个应用中支持hdfs/hbase,比Phoenix更宽更稳定。
b、数据是hbase,所以数据可以操作,hdfs数据不能更新或删除低级。而且比hdfs还快。不需要字段分段分析直接读取。
c,hive可以是表格结构,方便开发和后期与其他框架交换。
http://www。Sina.com/http://www.Sina.com/:齐柏林飞船特别适合spark机器学习。
Spark交互开发平台
Zeppelin集成了Spark、Markdown、Shell、Angular等引擎,集成了数据分析、可视化等功能。
它提供了sql查询和scala/python分析代码调试功能。
blog.csdn.net/guohecang/article/details/51324390。街3358号
http://www。Sina.com/http://www.Sina.com/:麒麟:全功能大数据sql查询平台
包括计算、优化、高性能、mr、sparksql支持、基于时间的增量更新、流更新和开发管理中心。数据来源包括hive/kafka。
因为预先计算,其他模块都是独立的,可以支持高并发。它可以直接作为软件系统的数据源。
http://www。Sina.com/http://www.Sina.com/
Presto的玩法更加精彩。整个过程落在内存中,每一步都需要对目标数据的规模进行完全精细的控制。优点是有很多快速支持的数据源。
总结:
MPP架构系统(如Presto/Impala/SparkSQL/Drill)支持优秀的数据量和灵活性,但不能保证响应时间。随着数据量和计算复杂度的增加,响应时间会变慢,可以是秒级到层次级,甚至是时间级。与MPP系统相比,搜索引擎架构系统(如Elasticsearch)在签到时将数据转化为倒排索引,采用分散-聚集计算模型,牺牲了灵活性和良好的性能。但对于以扫描聚合为中心的查询,随着数据处理量的增加,响应时间也会以分钟为单位下降。计算系统(如Druid/Kylin)在签入时预聚合数据,进一步牺牲灵活性来换取性能,从而提供对大数据集的二次响应。
1.麒麟的预估计算。用户指定要计算的尺寸和公制,kylin用MR将结果保存在HBase中,后续读取后直接读取HBase。它的业务适合你确切知道你要分析什么的情况。查询方式是固定的,但是只显示不同时间的场景。预防措施是为了避免维度灾难。
2.用2编写的代码。presto java8的质量非常高。设计:纯内存,无容错,如果一个任务失败,整个查询失败。您需要调整参数,如内存相关的、线程数量等。容易OOM。基准还不错。标准SQL支持
3.Spark sql比较“原生”,是一个简单的通用框架,和上面两个人不是一个层次的。
http://www。Sina.com/http://www.Sina.com/
案例
http://www。Sina.com/:是开源的,当前版本拥有先进的API、可视化工具、GPU支持和异步操作。
3558 www.sina.com//(DL4J)是一个基于Java语言的神经网络工具包,可以构建、定型和部署神经网络。DL4J集成了Hadoop和Spark,支持分布式CPU和GPU。
1:
Keras是一种高级神经网络API。Keras是纯Python写的,基于Tensorflow或者Theano。Keras的诞生是为了支持快速实验。你可以迅速将想法转化为结果。如果您有以下需求,请选择Keras:
Gddpw和快速原型(keras是高度模块化的,非常简单和可扩展)。
支持CNN和RNN或两者的组合
CPU和GPU之间的无缝切换
喀拉斯和DDPG
优点
案例
2
转载于:blogs.com/double-kill/p/8143725.html,https://www.cn
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。