python爬取贴吧图片,python爬取电影评论

  python爬取贴吧图片,python爬取电影评论

  一般步骤:

  第一步:找到我们要抓取的网站,https://www.vmgirls.com/.这是一个女孩图片的私人网站。

  第二步:打开Vscode或者Pycharm复制我的代码。详细解释写好了。

  Ps:请求库需要手动下载。按win R进入cmd进入命令行模式,进入pip install。

  请求安装请求库。

  第一部分是请求一个网页。# import requests library import requests # import re正则表达式库import re # import系统内置库importosheaders={ user-agent : Mozilla/5.0(Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/78 . 0 . 3904 . 108 Safari/537.36 } #使用request.get方法访问URL获取网页的HTML内容response=requests . get( 3359 www.vmgirls.com/12985.html, Headers=Headers)#网页内容打印为文本html=response.text设置标题头防止爬回。之所以这样设置标题,是因为我们想模仿我们真的是从这个网页上下载图片而不是通过python获取,所以就用网站的标题。

  查看网站标题:在网页中按F12,在菜单栏中选择网络可以看到网页的页眉,复制粘贴可以得到原来的页眉!

  第二部分,获取网页内容#用图片名称命名文件夹。dir _ name=re . find all( h1 class= post-title H3 (。*?)/h1 ,html)[-1] #如果文件夹不存在,则创建文件夹,否则,如果不存在OS . path . exists(dir _ name):OS . mkdir(dir _ name)#获取图片地址URLs=re . find all( a rel= ExternalnoFollow rel= ExternalnoFollow ) alt=。*? 标题=。*? ,html)#打印获取的urlsprint(urls)的第三部分,并保存图片#通过for循环遍历过滤后的URL,然后分别下载保存!对于url中的URL:file _ name=URL . split(/)[-1]response=requests . get(URL,headers=headers)with open(dir _ name / file _ name, WB )as f:f . write(response . content)以上是详细教程完成啦!!!!!!!!!!!!!!

  完整代码:# import requests库import requests # import re正则表达式库import re # import系统内置库importosheaders={ user-agent : Mozilla/5.0(Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML,像gecko)Chrome/78 . 0 . 3904 . 108 Safari/537.36 } #使用request.get方法访问URL以获取网页的HTML内容response=requests . get( 3359 www.vmgirls.com/12985.html, Headers=Headers)#网页内容以文本html=response.text #用图片名称命名文件夹。dir _ name=re . find all( h1 class= post-title H3 (。*?)/h1 ,html)[-1] #如果文件夹不存在,则创建文件夹,否则,如果不存在OS . path . exists(dir _ name):OS . mkdir(dir _ name)#获取图片地址URLs=re . find all( a rel= ExternalnoFollow rel= ExternalnoFollow ) alt=。*?标题=。*?html)#打印urlsprint(urls)#通过一个for循环遍历过滤后的URL,然后分别下载保存!对于url中的URL:file _ name=URL . split(/)[-1]response=requests . get(URL,headers=headers)with open(dir _ name / file _ name, WB )as f:f . write(response . content)

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: