大数据开发与java开发的区别,大数据开发和java开发哪个前景
2019-04-02 18:30:46
最近发现有同学不太了解大数据开发工程师这个职位,所以想简单介绍一下什么是大数据开发工程师,现在的互联网公司数据开发是什么样的?你的工作和一般Java或PHP工程师的工作有什么区别?
什么不是大数据开发?
仅限数据库(关系型mysql、sqlserver、oracle等非关系型mongo redis等。)都用上了,虽然数据量达到几千万,十亿也不是大数据开发。
大数据和人工智能的概念很模糊。我们应该走什么路线去学习,学完之后又该何去何从?欢迎想了解更多的同学加入大数据学习qq群:740041381。有大量干货(零基础和高级经典实战)与您分享,清华大学毕业的资深大数据讲师为您免费授课,分享国内最完整的大数据高端实战学习流程体系。先从java和linux开始,然后逐步深入Hadoop-hive-oo zie-we b-flume-python-h base-Kafka-Scala-spark等相关知识一一分享!
从业务系统的数据库中查询数据,然后生成报表,这不是大数据开发。
把上报的数据记录在上面(page,h5,手机原生)埋在数据库里不是大数据发展。
什么是大数据开发?
大数据开发所需技能我在智联上搜索了大数据开发工程师这个职位,随机选了几个职位。截图如下:
所以互联网公司大数据开发使用的工具有hadoop、hive、hbase、spark、kafka等。
大数据发展做的事情,归结为一个词:统计。
简化为两类指标:PV和UV。
可以归结为一句话:统计各种指标的PV和UV。
在PC时代,所有的门户网站(如新浪、网易、搜狐)都在关注自己的网站今天被打开了多少次(pv),今天有多少人(uv)访问了网站。稍微复杂一点的,比如:
你点击了多少次页面上的按钮或连接?
页面上的热图(您点击的地方越多,地图上的颜色就越深)
在移动互联网时代,手机应用被用户打开的次数和次数也是大家关注的重点,但是还有很多其他非常重要的数据。由于手机屏幕的限制,信息流成为了移动时代的主流。
每个门户网站都非常注重自己的新闻客户端:有多少文章在信息流中曝光,有多少文章被用户点击。每篇文章都是看了很久的,因为用户点击的文章越多,使用客户端的时间越长,每个公司的广告收入也越高,所以每个公司都尽力推荐用户喜欢的内容。
怎么做这些事情因为网站的浏览行为,文章在移动客户端的曝光或者点击量是非常大的,基本都在上亿。因此,传统的将统计信息录入数据库的方式无法完成这项统计工作。(例如:在wordpress博客中,用户每阅读一篇文章,mysql就会更新这篇文章的阅读次数1)
所以大数据通过日志统计这些指标。
例如:后台服务的日志(apache、tomcat、weblogic、nginx日志)
如下图,比如我个人网站apache服务的访问日志。
日志的url字段中以/year(红色部分)开头的行数是该网站文章页面被访问的次数,以/category(蓝色部分)开头的行数是该网站分类目录被访问的次数。
当然,我无法统计这个日志中的用户数量,因为要统计用户数量,我们需要在每个日志中记录当前用户的唯一标识,然后做一个重复数据删除。重复数据删除后的数字是用户数,但这里没有报告用户的唯一标识。
怎么统计人数?一般互联网公司都会在自己的页面或者客户端生成一个用户的唯一ID,然后主动上报给自己的日志服务器。
大数据的主要困难是:
日志量太大(一般比较大的互联网公司和一条业务线的日志每天都有几个T,大一点的日志每天几十个T或者几百个T也不奇怪),所以需要掌握前面提到的hadoop、hive等大数据相关技术。
数据的时效性,从线下计算,一般是每天0点,接收前一天的日志,计算前一天的数据。什么时候能算出来?这取决于每个公司的要求。
数据的准确性。(这是最重要的。大数据开发的工作是统计。如果统计数据不准确.)如果是实时计算,需要掌握实时相关技术。比如:网站每5分钟的在线人数。
监控:监控任务是否失败,数据是否输出,输出数据是否异常。
容灾容灾:任务失败如何补救。比如实时任务,由于某种原因,13:00到14:00的数据不可用。如何补数据?
大数据开发与一般业务开发的比较
在转向大数据开发之前,Java已经被用作业务系统:比如hr系统(考勤、工资等。)和收费系统。
谈谈我个人对业务系统开发和大数据开发的理解:
业务系统:
底线:添加、删除和检查数据库的各种操作。
重点和难点是:
对复杂业务的了解(例如,基本工资、五险一金、全勤奖、高温补贴、报销、奖金、加班费等。都需要计算)。
在线服务的稳定性,如facebook、淘宝等网站,在高并发的压力下保持网站正常运行。
大数据开发
底线:字符串的各种算法。
难点在于:
数据的及时性。比如实时数据,你想知道12: 00到12: 10这10分钟的用户数,如果这个数据是晚上20点计算的,那就没有意义了。再举个例子,大家应该都经历过:当你在手机上点击某篇文章,然后继续刷新闻,很快就会出来很多和你之前点击的文章类似的文章。也就是根据你的点击量,我会及时给你推荐你点击可能性比较大的东西。
数据的准确性。这个重要性不言而喻
数据稳定性和容灾能力。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。