大数据技术主要包括哪几方面,大数据技术包括哪些主要内容

　　大数据有很多方向。目前我们常说的大数据主要就业方向有：大数据研发、大数据分析与挖掘、深度学习、人工智能等。

　　我自己建的大数据学习交流群：199427210，群里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据软件开发相关的），包括我自己整理的一份最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴加入。

　　下面从学习的要求到学习的知识来解释一下。1.要求：1。大专以上学历，最好是理工科毕业(有些文科生很难学)。

　　2.年龄20-32岁。

　　二、你需要学习的知识1。基础知识：java linux学习大数据，只需要学习java的标准版JavaSE，比如Servlet、JSP、Tomcat、Struts、Spring、Hibernate、Mybatis，这些都是面向JavaEE的技术。大数据技术用的技术不多，知道就行。当然，你还需要知道Java是如何连接数据库的。你必须掌握JDBC。有同学说Hibernate或者Mybites也可以连接数据库。你为什么不学它们？我不是说学它们不好，而是说学它们可能会花你很多时间，而且在最后的工作中也不常用。没见过用这两个东西做大数据处理的。当然，如果你有足够的精力，可以学习Hibernate或者Mybites的原理，而不仅仅是API，这样可以增加你对Java操作数据库的了解，因为这两种技术的核心是Java反射加上JDBC的各种用法。Linux:因为大数据相关的软件运行在Linux上，所以Linux要学的更扎实。学好Linux对你快速掌握大数据相关技术会有很大帮助。能让你更好的了解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置。而且踩了很多坑会更容易理解和配置大数据集群。学习shell可以让你理解脚本。也可以让你更快的了解未来新的大数据技术。2.大数据技术：Hadoop-hive-oo zie-we b-flume-python-h base-Kafka-Scala-spark

　　Hadoop:这是一个流行的大数据处理平台，几乎成了大数据的代名词，所以这是必须的。Hadoop包括几个组件HDFS、MapReduce和YARN。HDFS是存储数据的地方，就像我们电脑的硬盘一样。MapReduce处理和计算数据。它有一个特点，就是不管数据有多大，只要给它时间就可以运行数据，但时间可能不会很快，所以叫数据批处理。YARN是体现hadoop平台理念的重要组件。配合其大数据生态系统的其他软件，可以运行在Hadoop上，这样可以更好的利用HDFS大存储的优势，节省更多的资源。比如我们不用单独搭建spark集群，直接让它运行在现有的hadoop yarn上就可以了。其实你可以通过学习Hadoop的这些组件来处理大数据，但是你可能对‘大数据’有多大没有一个清晰的概念。听我说，别担心。以后你工作的时候，会有很多场景会遇到几十吨/几百吨的大规模数据。那时候你就不会觉得有大数据真的好了。它越大，你就越头疼。当然，不要害怕处理这种大规模的数据，因为这是你的价值所在。让那些搞Javaee php的html5和DBA羡慕吧。

　　记住学到这里可以作为你学大数据的一个节点。

　　动物园管理员：这是灵丹妙药。安装Hadoop的HA时会用到，以后Hbase也会用到。一般是用来存储一些合作信息的，比较小，一般不超过1M，使用它的软件依赖它。对于我们个人来说，只需要正确安装，让它正常运行就可以了。Mysql:我们已经学会了如何处理大数据。接下来我们要学习mysql数据库，一个小数据的处理工具，因为我们安装hive的时候会用到。mysql需要掌握什么水平？您可以在Linux上安装和运行它，配置简单的权限，修改root的密码，并创建一个数据库。这里主要是学习SQL的语法，因为hive的语法和这个很像。Sqoop:用于将数据从Mysql导入Hadoop。当然，你不一定要用这个。直接把Mysql数据表导出到一个文件里然后放到HDFS上也是一样的。当然，你要注意Mysql在生产环境下使用的压力。Hive:这个东西是懂SQL语法的人的神器。它可以让你轻松处理大数据，你也不用费劲去写MapReduce程序了。有人说猪？和猪差不多。掌握一个就好。Oo:既然你学会了Hive，我相信你一定需要这个东西。它可以帮助你管理你的Hive或MapReduce和Spark脚本，检查你的程序是否正确执行，如果出现问题就给你报警，帮助你重试你的程序，最重要的是，帮助你配置任务的依赖关系。我肯定你会喜欢它的。不然你看着那一堆脚本和密密麻麻的crond是不是觉得自己很屎？Hbase:这是Hadoop生态系统中的NOSQL数据库。其数据以键和值的形式存储，且键是唯一的，因此可用于重复数据删除。与MYSQL相比，它可以存储更多的数据。因此，在大数据处理完成后，它经常被用作存储目的地。卡夫卡：这是一个简单易用的排队工具。排队是为了什么？你知道怎么排队买票吗？如果数据太多，也需要排队处理，这样其他和你合作的同学就不会尖叫了。你为什么给我这么多数据(例如，数百千兆字节的文件)，我该如何处理？不要因为他不搞大数据就怪他。你可以告诉他，我把数据放在队列里，你用的时候一个一个拿，这样他就会停止抱怨，马上去优化他的程序，因为处理是他的事。不是你给我的问题。当然，我们也可以使用这个工具将在线实时数据存储到HDFS。这时候可以配合一个叫Flume的工具使用，专门用来简单处理数据，写给各种数据接收者(比如卡夫卡)。Spark:用来弥补基于MapReduce的数据处理速度的不足。它的特点是将数据加载到内存中进行计算，而不是读取进化极其缓慢的慢速硬盘。特别适合迭代运算，所以算法流程对它特别饥渴。它是用scala写的。Java语言或者Scala都可以操作，因为都是用JVM。