python抓取抖音数据,python抖音爬虫关注

  python抓取抖音数据,python抖音爬虫关注

  本文主要介绍一个用Python制作的新钓鱼神器,可以实现Tik Tok热搜和定时抓取。文中详细讲解了实现步骤,有兴趣的可以一试。

  00-1010 Tik Tok热搜榜请求抓取硒抓取数据分析设置定期运行大家好,我是丁小洁。

  上次给大家分享了Python定期抓取微博的热搜实例介绍。堪称抓鱼神器,但一个热榜还不够?今天,让我们再次登上Tik Tok热搜榜,有兴趣的朋友可以自己尝试一下。

  

目录

  链接:https://tophub.today/n/K7GdaMgdQy

  整个热门榜单有50条数据。这次抓取的内容:排名,人气,标题和链接。

  

抖音热搜榜

  请求是一个非常简单的方法。由于该页面没有反抓取措施,直接获取请求页面即可。

  导入请求

  importpandasaspd

  标题={

  用户代理“:”Mozilla/5.0(windows nt 10.0;Win64x64)AppleWebKit/537.36(KHTML,like gecko)Chrome/94 . 0 . 4606 . 54 safari/537.36

  }

  URL= https://top hub . today/n/k7 gdamgdqy

  page_text=requests.get(url=url,headers=headers)。文本

  页面_文本

  如您所见,只需要几行代码就可以轻松获得数据。

  

requests 爬取

  将selenium设置为无头浏览器,打开指定的url获取页面数据。

  fromseleniumimportwebdriver

  option=webdriver。ChromeOptions()

  option.add_argument( - headless )

  driver=webdriver。铬合金(选项=选项)

  URL= https://top hub . today/n/k7 gdamgdqy

  driver.get(url)

  page_text=driver.page_source

  两种抓取方式都可以成功获取数据,但是请求相对简洁,整个代码运行速度更快。如果页面数据不是动态加载的,那么使用请求会相对方便一些。

  

selenium 爬取

  现在用lxml库分析我们抓取的数据,保存到excel中。

  tree=etree。HTML(page_text)

  tr_list=tree.xpath(

  //*[@ id= page ]/div[2]/div[2]/div[1]/div[2]/div/div[1]/table/tbody/tr )

  Df=pd。DataFrame(columns=[ rank , popularity , title , link])

  对于index,trinenumerate(tr_list):

  hot=tr.xpath(。/td[3]/text())[0]

  title=tr.xpath(。/TD[2)/a/text())[0]

  article_url=tr.xpath(。/td[2]/a/@href)[0]

  df=df.append({

  排名:指数1,

  热度 :热,

  标题 :标题:

  Link 3360Article _ URL},ignore _ index=true)

  df[ link ]= https://top hub . today df[ link ]

  df

  运行结果

  

数据解析

  至此,抓取代码已经完成。如果希望每小时自动运行一次代码,可以使用任务计划程序。

  打开任务计划程序,[创建任务]

  输入一个名字,随便起个名字就行了。

  选择触发新设置触发时间。

  选择[操作][新建][选择程序]

  最后,确认一下。到时候会自动运行,或者右键任务手动运行。

  这就是我今天想分享的。整体难度不大。希望你能学到东西。文章中的代码可以拼接在一起运行!

  以上是Python实现Tik Tok热搜抓取功能的详细内容。更多关于Python Tik Tok热搜和爬取的信息,请关注风行IT软件开发工作室的其他相关文章!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: