用1000行代码统计西安新房价格后,我有一个惊人的发现……(2018西安房产数据分析)

  本篇文章为你整理了用1000行代码统计西安新房价格后,我有一个惊人的发现……(2018西安房产数据分析)的详细内容,包含有西安房价查询app 2018西安房产数据分析 查询西安房价 西安楼市ai 用1000行代码统计西安新房价格后,我有一个惊人的发现……,希望能帮助你了解 用1000行代码统计西安新房价格后,我有一个惊人的发现……。

  事情是这样的

  前段时候,我站在华山之巅(没错,我去夜爬华山看日出了,要死),一个朋友突然问我:你知道现在西安每个区域的新房均价是多少吗?

  这个时候,肯定是用数据说话嘛。

  不过你以为我会在网上随便找个,不知道哪里冒出来的(野榜)西安各区域价格排名,甩给对方了事吗?

  当然不会!

  众所周知,我是一个程序猿,身为程序猿,严谨细致,阳光帅气。。。咳咳

  秉承着严谨负责的态度,我当然要用最准确,最全面的数据,这样才有说服力嘛。

  高新单价 一枝独秀 23199.73/㎡

  航天基地 总价霸榜 平均333个w

  航天基地 户均158.72㎡

  时而房荒 时而放量

  精装毛坯大约 1比2

  面积分布 主力为100-150

  房子越大,单价越贵

  我们来需求分解下,要想知道西安每个区域的新房均价是多少

  首先我们需要知道全市每套新房的价格

  其次要知道每套房子位于哪个区域

  然后将所有房子按区域分类

  最后求每个区域所有房子价格的平均数

  重点难点还是前两步,从哪里获取这种价格和区域的数据,才最准确,最全面呢?

  当然是西安住建官网的价格公示啦~

  这个网站上,有 2021-09-14 之后所有新房的一房一价数据。刚好有我需要的每一套房子的价格和区域数据,还有一些其他信息。而且是官方公示,保证准确全面。

  我们来看下这个网站的结构,点击项目名称,可显示楼幢信息:

  点击楼幢编号,显示房屋信息:

  这样我们就可以查到我们需要的所有数据了。

  我简单看了下,网站总共公示了有160多个项目,5万多套房子的数据,我呢,手动将5万多套房子的数据复制粘贴到 Excel 统计。

  最后得到了以上结论。很简单,有手就行。

  全文完 感谢阅读

  手艺人的事

  说好的写代码实现呢!??

  众所周知,我是一个程序猿,身为程序猿,会点网络请求和数据处理很合情合理吧。

  上手艺!

  于是乎,我分析了下网页代码,流程大致是这样的:

  3个界面所包含的信息如下:

  项目信息:项目名称、所属事权区域、项目坐落、开发企业、公示楼幢数量、公示时间

  楼幢信息:楼幢(#)、层数、楼幢均价(元/㎡)、装修标准、是否一房一价

  房屋信息:房号、建筑面积(㎡)、单价(元/㎡)、房屋总价(元)、装修标准

  一进项目信息的网页,从开发者工具中可以看到,哗啦啦请求了一大堆资源,不用管别的,真正有用的是第一个(居然不是rest风格接口,差评):

  这个请求就返回了我们需要的项目名称和所属事权区域信息。

  看这个请求的三个参数page=1 key= qdm=,猜也能猜出来,第一个是分页参数,第二个是项目名称,第三个是区域。由于这里我们要的是所有数据,所以后面两个参数对我们来说就没啥用了。

  再点击项目名称,进入楼幢信息页面,又会请求一堆资源,有用的还是第一个接口:

  这个接口返回的是该项目下,每栋楼幢的信息,这里其实没有什么我们需要的数据。

  请求参数也很简单,就一个gsbh=BDADB0175B77D79C60DA5D5B0B6F00D4,一看就知道是项目(公司)编号ID,用的应该是UUID。

  有人会说,这里就有每栋楼幢的均价啊,那不就可以了吗?知道每幢楼的均价,再对每个区域所有楼幢的均价求平均数,不就是区域的房价平均数吗?

  从数学角度,这逻辑没毛病,可我明明可以获取更精确的每套房子的价格,干嘛还要用别人给我提供的均价再去求平均数呢?万一某个楼幢均价被工作人员算错了也说不定。

  于是我再点击楼幢号,进入房屋信息界面,依然请求了一堆资源,依然看第一个接口:

  这个接口返回的是该楼幢下,每个房屋的信息,就有我们最关心的面积、单价和总价信息。

  请求参数有两个lzbh=A4DE1E35C1227816B3F2239C0A685603 lzh=1,看拼音也知道,这两个分别是楼幢编号ID和楼幢号。

  现在我们就清楚了所有需要的数据,应该从哪些地方搞了,就是上面三个接口。

  Coding

  页面逻辑已经梳理清楚,接下来不就剩coding了嘛。

  别急,在coding之前,我们应该先在数据库里建好表,这样方便我们后续各种花式查询。

  我设计的表结构长这样:

  其实从业务模型上来说,应该是有三张表才对:项目表、楼幢表、房屋表。但是因为我懒,所以一个大宽表全部存起来,数据冗余就冗余吧,对数据库来说数据量很小,问题不大。

  然后去https://start.spring.io/网站搭个架子,我设想中这个程序要是持续自动化的,每周自动去更新最新的信息到数据库里,所以这里用一下 Spring 自带的 Scheduled 单机定时任务就行,不需要整什么分布式任务调度。

  这里我们用 cron 表达式规则,让他每周六凌晨4点执行,这个时候网站访问人数应该比较少,减少对服务器的压力:

  既然要模拟发送网络请求,我就简单搞个 OkHttp 吧,这个没什么,自己喜欢用哪个就用哪个:

  然后就是一大段 html 解析了,这个没啥说的,就是一些数据处理,很简单,直接上成果:

  代码逻辑主要有5步:

  查询所有的项目信息

  从数据库中过滤掉已经入库的项目信息

  根据项目信息查询所有楼幢信息

  根据楼幢信息查询所有房屋信息

  构造DO对象集合,将所有房屋信息插入数据库

  最后就是用 mybatis 批量插入数据库里:

  记得这么写的话要开启这个参数哦:

  既然是分页查询数据,那肯定会有什么时候结束分页的问题。这个本来没什么,测试请求一个很大的 page 参数,看看服务器怎么返回的就知道了。可这里就有个坑,我在项目信息页,传入 page=100,返回的数据是这样的:

   table 标签内只有一个 tr ,就是表头信息,那我就认为,当出现这种情况的时候,分页请求就应该结束了。

  可当我在请求楼幢信息页的时候,同样传入 page=100,发现并不一样,响应体居然是空的:

  房屋信息页也是一样的问题。

  所以项目信息页的分页终止条件,和楼幢信息页、房屋信息页的分页终止条件,是不一样的,这是一个坑。

  第二个遇到的坑,是隐藏在网页的 JS 代码里。

  当点击项目名称、楼幢编号,会进行页面跳转嘛,这肯定是在 JS 里实现的,去看看代码。

  如上图所示,当点击项目名称的时候,会去调用 goherf 方法,这个方法有两个参数。第一个简单,应该就是项目编号ID,是打开楼幢信息页面所需要的参数之一。可第二个参数是什么呢?我们去看看方法里面:

  看到第二个参数是一个 type ,当不等于 0 的时候,才会打开楼幢信息页面,否则就弹窗提示:“当前项目暂未公示楼幢信息!”

  好了,知道了这个点,我们代码里也需要判断下这个 type 是否等于 0,当等于 0 的时候,就不需要继续往后查询楼幢和房屋信息了。

  那么楼幢信息页呢?是不是也是这么处理的呢?结果它不一样了!在楼幢信息页,点击楼幢号,它也是调用了一个 goherf 方法:

  这个方法有三个参数,第一个同样是楼幢编号ID,第三个是楼幢号,那第二个是啥?有了上面的经验,我猜测也是一个 type,去看看 JS 代码:

  没猜错,第二个确实是一个 type,可判断逻辑和上面的项目信息页的不一样!这个是只有等于 1 的时候,才允许打开房屋信息页,否则就弹窗提示“当前楼幢暂未公示房屋信息!”,总结如下:

  
所以这第二个坑,在处理两个页面的逻辑时要注意区别。

  从上面两个坑来看,我有理由怀疑,写项目信息页接口的,和楼幢信息页、房屋信息页接口的程序员,应该不是同一个人。

  经过我两天的调研和coding,终于写完了,上成果:

  数据库内容:

  数据库有数据了,那么接下来就是写sql的事了。

  统计各个区域新房的平均单价,由高到低排序:

  这绝对是全网最真实最准确的各个区域新房均价排名了。怎么样,和你心目中的排名有区别吗?

  我们可以再统计其他信息玩玩。

  统计各个区域新房的平均总价,由高到低排序:

  统计各个区域新房的平均建筑面积,由高到低排序:

  统计每个月公示价格的新房数量:

  好家伙,西安今年6月份是放了多少量啊,接下来一两个月市场供货量肯定很猛了。

  统计西安新房中,精装房和毛坯房的数量:

  可以看出来,毛坯房才是市场主流。

  统计西安新房中,各个面积段的新房数量:

  看的出来,主流面积段还是100-150的。

  统计西安新房中,各个面积段的平均单价,由高到低排序:

  总体来看,果然还是面积越大,单价越高啊。

  好了,开头的问题,看到这里你肯定就有了答案,写完收工。如果还想知道从其他维度统计的结果,可以留言补充。

  最后提一个直击灵魂的问题:

  一个程序员写多少行代码,才能买下西安高新一套房?

  
© 版权声明

  文章版权归作者所有,欢迎转载,但必须给出原文链接,否则保留追究法律责任的权利

  THE END

  以上就是用1000行代码统计西安新房价格后,我有一个惊人的发现……(2018西安房产数据分析)的详细内容,想要了解更多 用1000行代码统计西安新房价格后,我有一个惊人的发现……的内容,请持续关注盛行IT软件开发工作室。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: