python抓取抖音数据,python抖音爬虫关注
本文主要介绍一个用Python制作的新钓鱼神器,可以实现Tik Tok热搜和定时抓取。文中详细讲解了实现步骤,有兴趣的可以一试。
00-1010 Tik Tok热搜榜请求抓取硒抓取数据分析设置定期运行大家好,我是丁小洁。
上次给大家分享了Python定期抓取微博的热搜实例介绍。堪称抓鱼神器,但一个热榜还不够?今天,让我们再次登上Tik Tok热搜榜,有兴趣的朋友可以自己尝试一下。
目录
链接:https://tophub.today/n/K7GdaMgdQy
整个热门榜单有50条数据。这次抓取的内容:排名,人气,标题和链接。
抖音热搜榜
请求是一个非常简单的方法。由于该页面没有反抓取措施,直接获取请求页面即可。
导入请求
importpandasaspd
标题={
用户代理“:”Mozilla/5.0(windows nt 10.0;Win64x64)AppleWebKit/537.36(KHTML,like gecko)Chrome/94 . 0 . 4606 . 54 safari/537.36
}
URL= https://top hub . today/n/k7 gdamgdqy
page_text=requests.get(url=url,headers=headers)。文本
页面_文本
如您所见,只需要几行代码就可以轻松获得数据。
requests 爬取
将selenium设置为无头浏览器,打开指定的url获取页面数据。
fromseleniumimportwebdriver
option=webdriver。ChromeOptions()
option.add_argument( - headless )
driver=webdriver。铬合金(选项=选项)
URL= https://top hub . today/n/k7 gdamgdqy
driver.get(url)
page_text=driver.page_source
两种抓取方式都可以成功获取数据,但是请求相对简洁,整个代码运行速度更快。如果页面数据不是动态加载的,那么使用请求会相对方便一些。
selenium 爬取
现在用lxml库分析我们抓取的数据,保存到excel中。
tree=etree。HTML(page_text)
tr_list=tree.xpath(
//*[@ id= page ]/div[2]/div[2]/div[1]/div[2]/div/div[1]/table/tbody/tr )
Df=pd。DataFrame(columns=[ rank , popularity , title , link])
对于index,trinenumerate(tr_list):
hot=tr.xpath(。/td[3]/text())[0]
title=tr.xpath(。/TD[2)/a/text())[0]
article_url=tr.xpath(。/td[2]/a/@href)[0]
df=df.append({
排名:指数1,
热度 :热,
标题 :标题:
Link 3360Article _ URL},ignore _ index=true)
df[ link ]= https://top hub . today df[ link ]
df
运行结果
数据解析
至此,抓取代码已经完成。如果希望每小时自动运行一次代码,可以使用任务计划程序。
打开任务计划程序,[创建任务]
输入一个名字,随便起个名字就行了。
选择触发新设置触发时间。
选择[操作][新建][选择程序]
最后,确认一下。到时候会自动运行,或者右键任务手动运行。
这就是我今天想分享的。整体难度不大。希望你能学到东西。文章中的代码可以拼接在一起运行!
以上是Python实现Tik Tok热搜抓取功能的详细内容。更多关于Python Tik Tok热搜和爬取的信息,请关注风行IT软件开发工作室的其他相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。