python技术交流论坛,python交流平台

  python技术交流论坛,python交流平台

  一.课程项目

  Scuinfo文本分类分析

  二、项目类别

  以攀登川大匿名社区SCUinfo一段时间的帖子为例,进行情感分类分析,包括情感分类(正面和负面)、帖子内容相关性分析等。

  三。个人工作完成报告

  3.1工作概述

  负责数据收集、预处理和简单的情绪分析。

  3.2爬行动物计划

  Scuinfo动态加载网页,由移动终端验证。用scrapy抓取数据的尝试失败了,爬虫需要大量的定制和优化。为了提高开发效率,最终采用了之前的爬QQ空间的方式:用selenium库调用firefox浏览器驱动,然后通过代码模拟人类对浏览器的操作。获得相应的页面数据后,使用etree和xpath选择相应的目标节点数据。

  优点:轻松解决网页动态加载、登录验证、移动验证等问题。

  缺点:这种方式需要让浏览器一直在前台运行,而且只能是单线程模式,爬行效率比较低。

  点击下载源代码

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: