大数据开发与java开发的区别,大数据开发和java开发哪个前景

  大数据开发与java开发的区别,大数据开发和java开发哪个前景

  2019-04-02 18:30:46

  最近发现有同学不太了解大数据开发工程师这个职位,所以想简单介绍一下什么是大数据开发工程师,现在的互联网公司数据开发是什么样的?你的工作和一般Java或PHP工程师的工作有什么区别?

  什么不是大数据开发?

  仅限数据库(关系型mysql、sqlserver、oracle等非关系型mongo redis等。)都用上了,虽然数据量达到几千万,十亿也不是大数据开发。

  大数据和人工智能的概念很模糊。我们应该走什么路线去学习,学完之后又该何去何从?欢迎想了解更多的同学加入大数据学习qq群:740041381。有大量干货(零基础和高级经典实战)与您分享,清华大学毕业的资深大数据讲师为您免费授课,分享国内最完整的大数据高端实战学习流程体系。先从java和linux开始,然后逐步深入Hadoop-hive-oo zie-we b-flume-python-h base-Kafka-Scala-spark等相关知识一一分享!

  从业务系统的数据库中查询数据,然后生成报表,这不是大数据开发。

  把上报的数据记录在上面(page,h5,手机原生)埋在数据库里不是大数据发展。

  什么是大数据开发?

  大数据开发所需技能我在智联上搜索了大数据开发工程师这个职位,随机选了几个职位。截图如下:

  所以互联网公司大数据开发使用的工具有hadoop、hive、hbase、spark、kafka等。

  大数据发展做的事情,归结为一个词:统计。

  简化为两类指标:PV和UV。

  可以归结为一句话:统计各种指标的PV和UV。

  在PC时代,所有的门户网站(如新浪、网易、搜狐)都在关注自己的网站今天被打开了多少次(pv),今天有多少人(uv)访问了网站。稍微复杂一点的,比如:

  你点击了多少次页面上的按钮或连接?

  页面上的热图(您点击的地方越多,地图上的颜色就越深)

  在移动互联网时代,手机应用被用户打开的次数和次数也是大家关注的重点,但是还有很多其他非常重要的数据。由于手机屏幕的限制,信息流成为了移动时代的主流。

  每个门户网站都非常注重自己的新闻客户端:有多少文章在信息流中曝光,有多少文章被用户点击。每篇文章都是看了很久的,因为用户点击的文章越多,使用客户端的时间越长,每个公司的广告收入也越高,所以每个公司都尽力推荐用户喜欢的内容。

  怎么做这些事情因为网站的浏览行为,文章在移动客户端的曝光或者点击量是非常大的,基本都在上亿。因此,传统的将统计信息录入数据库的方式无法完成这项统计工作。(例如:在wordpress博客中,用户每阅读一篇文章,mysql就会更新这篇文章的阅读次数1)

  所以大数据通过日志统计这些指标。

  例如:后台服务的日志(apache、tomcat、weblogic、nginx日志)

  如下图,比如我个人网站apache服务的访问日志。

  日志的url字段中以/year(红色部分)开头的行数是该网站文章页面被访问的次数,以/category(蓝色部分)开头的行数是该网站分类目录被访问的次数。

  当然,我无法统计这个日志中的用户数量,因为要统计用户数量,我们需要在每个日志中记录当前用户的唯一标识,然后做一个重复数据删除。重复数据删除后的数字是用户数,但这里没有报告用户的唯一标识。

  怎么统计人数?一般互联网公司都会在自己的页面或者客户端生成一个用户的唯一ID,然后主动上报给自己的日志服务器。

  大数据的主要困难是:

  日志量太大(一般比较大的互联网公司和一条业务线的日志每天都有几个T,大一点的日志每天几十个T或者几百个T也不奇怪),所以需要掌握前面提到的hadoop、hive等大数据相关技术。

  数据的时效性,从线下计算,一般是每天0点,接收前一天的日志,计算前一天的数据。什么时候能算出来?这取决于每个公司的要求。

  数据的准确性。(这是最重要的。大数据开发的工作是统计。如果统计数据不准确.)如果是实时计算,需要掌握实时相关技术。比如:网站每5分钟的在线人数。

  监控:监控任务是否失败,数据是否输出,输出数据是否异常。

  容灾容灾:任务失败如何补救。比如实时任务,由于某种原因,13:00到14:00的数据不可用。如何补数据?

  大数据开发与一般业务开发的比较

  在转向大数据开发之前,Java已经被用作业务系统:比如hr系统(考勤、工资等。)和收费系统。

  谈谈我个人对业务系统开发和大数据开发的理解:

  业务系统:

  底线:添加、删除和检查数据库的各种操作。

  重点和难点是:

  对复杂业务的了解(例如,基本工资、五险一金、全勤奖、高温补贴、报销、奖金、加班费等。都需要计算)。

  在线服务的稳定性,如facebook、淘宝等网站,在高并发的压力下保持网站正常运行。

  大数据开发

  底线:字符串的各种算法。

  难点在于:

  数据的及时性。比如实时数据,你想知道12: 00到12: 10这10分钟的用户数,如果这个数据是晚上20点计算的,那就没有意义了。再举个例子,大家应该都经历过:当你在手机上点击某篇文章,然后继续刷新闻,很快就会出来很多和你之前点击的文章类似的文章。也就是根据你的点击量,我会及时给你推荐你点击可能性比较大的东西。

  数据的准确性。这个重要性不言而喻

  数据稳定性和容灾能力。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • oracle的clob大小,oracle clob类型转字符串,Oracle的CLOB大数据字段类型操作方法
  • ,,大数据分析R语言RStudio使用超详细教程
  • 大数据在不同应用场景的价值体现,举例说明大数据应用的场景和优势
  • Python与大数据,python能不能分析大数据
  • 人工智能产业的框架结构分别为,人工智能产业的框架结构的基础层包括大数据
  • Python处理大数据,Python科学计算及大数据
  • 随着ai和大数据技术的发展,对大数据与人工智能的理解
  • 数据开发和大数据开发的区别,大数据开发是啥
  • 应用统计学思考题,应用统计学在大数据背景下的应用与创新
  • hadoop大数据技术基础及应用pdf,基于hadoop的大数据处理技术
  • 大数据技术主要包括哪几方面,大数据技术包括哪些主要内容
  • 与大数据相关的书籍,大数据方面的书籍推荐
  • 数据存储方式,大数据存储的概念是什么,大数据的存储方式包括
  • 学python大数据,Python做大数据
  • 如何成为大数据架构师,大数据架构师发展前景分析,如何成为大数据架构师,大数据架构师发展前景怎么样
  • 留言与评论(共有 条评论)
       
    验证码: