python爬取博客文章,python爬取论坛帖子

  python爬取博客文章,python爬取论坛帖子

  Python爬虫入门教学(八):抓取论坛文章并另存为PDF_mb628b309d85c3f的技术博客_博客

  前言中的文字和图片均来自互联网,仅供学习交流,无商业用途。如有问题,请及时联系我们进行处理。

  以前的内容

  新人Python入门教学(一):抓取豆瓣电影排名信息

  Python爬虫入门教学(二):爬行小说

  Python入门教学(三):抓取链家二手房数据

  Python新手入门教学(四):攀登无忧未来招聘信息

  Python初学者教学(五):攀登哔哩哔哩视频弹幕

  Python新人入门教学(六):制作Word云图

  Python入门教学(七):攀爬腾讯视频弹幕

  基础开发环境Python 3.6Pycharmwkhtmltopdf相关模块使用pdfkitrequestsparsel安装Python并将其添加到环境变量中。pip可以安装所需的相关模块。

  一、目标需求

  抓取并保存CSDN上面的文章内容,保存为PDF格式。

  第二,web数据分析。如果你想把网络文章的内容保存为PDF,首先你得下载一个软件wkhtmltopdf否则你无法实现。可以自己去百度搜索下载,也可以找上面的交流群下载。

  之前的文章提到过,关于爬取文本的方式,爬取文本内容并不难。

  要获取一篇文章的内容,必须先抓取每篇文章的url地址。

  具体的分析过程之前的文章已经分享过了,这里就不赘述了。

  Python抓取了CSDN的博客文章,并将其制作成PDF文件。

  完成实施代码导入pdfkit

  导入请求

  导入parsel

  html_str=

  !声明文档类型

  html lang=en

  头

  meta charset=UTF-8

  标题文档/标题

  /头

  身体

  {文章}

  /body

  /html

  定义保存(文章,标题):

  pdf_path=pdf\\ title 。 pdf

  html_path=html\\ title 。 html

  html=html _ str . format(article=article)

  用open(html_path,mode=w ,encoding=utf-8 )作为f:

  f .编写(html)

  打印( {}已下载)。格式(标题))

  存储# exe文件的路径

  config=pdf kit . configuration(wkhtmltopdf= C:\ \ Program Files \ \ wkhtmltopdf \ \ bin \ \ wkhtmltopdf . exe )

  #通过pdfkit将html转换为pdf文件

  pdfkit.from_file(html_path,pdf_path,configuration=config)

  def main(html_url):

  #请求标题

  标题={

  Host: blog.csdn.net ,

  referer : https://blog . csdn . net/QQ _ 41359265/article/details/102570971 ,

  用户代理: Mozilla/5.0(Windows NT 10.0;Win64x64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/77 . 0 . 3865 . 90 Safari/537.36 ,

  }

  #用户信息

  cookie={

  饼干:你自己的饼干

  }

  response=requests . get(URL=html _ URL,headers=headers,cookies=cookie)

  选择器=parsel。选择器(响应.文本)

  urls=selector.css(。文章列表h4 a:attr(href))。getall()

  对于url中的html_url:

  response=requests . get(URL=html _ URL,headers=headers,cookies=cookie)

  # text文本(字符串)

  #遭遇反弹

  #打印(response.text)

  如何将HTML转换为PDF格式

  #提取文章部分

  sel=parsel。选择器(响应.文本)

  # css选择器

  article=sel.css(article )。获取()

  title=sel.css(h1:text )。获取()

  保存(文章,标题)

  if __name__==__main__ :

  URL= https://blog . csdn . net/Fei 347795790/article/list/1

  主页(url)

  原创作品来自爱吃饼干的博主松鼠,

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: