[原创]在中国,为什么一定要当官,[原创]好看不??
最终word图形效果:
第一步:审核豆瓣电影《肖申克的救赎》(https://movie.douban.com/subject/1292052/comments?排序=时间状态=P)
第二步:词频统计的可视化展示。
第三步:画出Ci的云图。
第四步:
================================================================
准备
================================================================
#安装街霸分词和词云
pipinstalljieba
pipinstallwordcloud
#安装桨
pipi install-upgrade paddle paddle
#安装型号
# huinstallporn _ detection _ lstm==1 . 1 . 0
pipi install-upgradepaddlehub
皮皮斯塔勒姆皮
#安装Beautifulsoup
pipinstallBeautifulSoup4
问题:
1.UnicodeDecodeError错误:“utf-8”编解码器无法解码位置1中的字节0xe8:无效的连续字节
解决方法:
1.不要对请求使用urlLib。
2.删除请求标头中的“accept-encoding”:“gzip,deflate,br”
3.返回值响应字符串以指定utf-8编码
# 接受编码: gzip,deflate,br ,
2.关于饼干
解决方法:
1.转到豆瓣请求头,将cookie设置复制到请求头。
Cookie: bid=WD6_t6hVqgM
3.请求退回问题418
解决方案模拟设置请求标题,设置用户代理
用户代理: Mozilla/5.0(Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/94 . 0 . 4606 . 81 Safari/537.36 ,
4.使用beautifulsoup无法获得评论
解决方法:
步骤1:将解析参数指定为“lxml”
soupComment=BeautifulSoup(html, lxml )
第二步:
findAll方法指定css文件的类名。
Print (Web content:,soup comment . pretify())comments=soup comment . find all(class _= short )
源代码地址:
https://gitee.com/mikite/python_sp_shawshank
声明:本站所有文章,除特别注明或标注外,均由本站原创发布。未经本网站同意,禁止任何个人或组织复制、挪用、收集本网站内容并向任何网站、书籍及其他媒体平台发布。如本站内容侵犯原作者合法权益,请联系我们处理。
转载请联系作者授权,否则将追究法律责任。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。