python3爬取网易云歌曲,python网易云音乐爬虫
本文主要介绍Python抓取网易云歌曲评论实现词云分析。有需要的朋友可以借鉴一下,希望能有所帮助。祝大家进步很大,早日升职加薪。
00-1010序环境是用代码实现的。首先,安装并导入所需的模块。1.创建浏览器对象。2.执行自动下拉页面,直接下拉到页面底部。3.分析数据,翻页,存为txt文件。运行代码得到结果,然后做一个word cloud导入到相关模块。读取文件数据,词云切分,中文(词),基于结果合并,创建词云。最后的效果。
目录
Emmmm无话可说,她想说的都在代码里。
前言
Python 3.8解释器3.10
Pycharm 2021.2专业版
硒
这次会用到selenium模块,所以请记得提前下载浏览器驱动和配置环境。
环境使用
代码实现
selenium导入浏览器的功能导入webdriver #。
导入#正则表达式模块,内置
导入时间#模块,程序延迟
先是安装、导入所需模块
driver=webdriver。铬合金()
1. 创建一个浏览器对象
driver . get( https://music . 163.com/#/song?id=488249475’)
# selenium不能直接获取嵌套页面中的数据。
driver . switch _ to . frame(0)# switch _ to . frame()切换到嵌套网页
Driver.implicit _ wait (10) #浏览器加载时,等待页面呈现
2. 执行自动化
js= document . document element . scroll top=document . document element . scroll height
驱动程序执行脚本(js)
下拉页面, 直接下拉到页面的底部
divs=driver . find _ elements _ by _ CSS _ selector(。ITM’)
#所有div css语法3360针对html数据/xpath/常规
对于divs:中的div
CNT=div . find _ element _ by _ CSS _ selector( . CNT . f-brk )。文本
Cnt=re.findall(:(。*),CNT) [0] #中英文有区别。
打印(计数)
3.解析数据
保存数据
对于范围(10)内的页面, #控制翻页速度过快。
#翻页,找到下一个标签,点击?
driver . find _ element _ by _ CSS _ selector(。znxt’)。单击()
时间.睡眠(1)
#硒欲速则不达
翻页
用open( content . txt ,mode=a ,encoding=utf-8 )作为f:
f.write(计数 \n )
保存为txt文件
运行代码得到结果
再做个词云
导入洁霸#中文分词库pip安装洁霸
导入wordcloud # pip安装wordcloud,一个制作wordcloud图片的模块
导入图像
导入相关模块
用open( content . txt ,mode=r ,encoding=utf-8 )作为f:
txt=f.read()
打印(文本)
读取文件数据
txt_list=jieba.lcut(txt)
打印(分词结果3360 ,txt _ list)
词云图 分词中文(词语) 基于结果
String_= 。join(txt_list) # 1 1=2字符串的基本语法
Print(合并分词3360 ,string _)
合并
wc=wordcloud。WordCloud(
Width=1000,#图片的宽度
Height=800,#图片的高度
Background_color=white ,#图片的背景色
Font_path=msyh.ttc ,#微软雅黑
Scale=15,# word云图的默认字体大小
# mask=img,#指定单词云图像的图片。
#停用字词lt;语气词,助词,
stop words=set([line . strip()for line in open( cn _ stop words . txt ,mode=r ,encoding=utf-8 )。readlines()])
)
打印(绘制文字云图.)
Wc.generate(string_) #画一张文字云图
Wc.to_file(out.png) #保存word云图
打印( word云图绘制完成.)
创建词云图
以上是Python抓取网易云歌评论的词云分析的详细内容。更多关于Python抓取歌曲评论的词云分析,请关注盛行IT软件开发工作室的其他相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。