python爬取博客文章,python爬取论坛帖子
Python爬虫入门教学(八):抓取论坛文章并另存为PDF_mb628b309d85c3f的技术博客_博客
前言中的文字和图片均来自互联网,仅供学习交流,无商业用途。如有问题,请及时联系我们进行处理。
以前的内容
新人Python入门教学(一):抓取豆瓣电影排名信息
Python爬虫入门教学(二):爬行小说
Python入门教学(三):抓取链家二手房数据
Python新手入门教学(四):攀登无忧未来招聘信息
Python初学者教学(五):攀登哔哩哔哩视频弹幕
Python新人入门教学(六):制作Word云图
Python入门教学(七):攀爬腾讯视频弹幕
基础开发环境Python 3.6Pycharmwkhtmltopdf相关模块使用pdfkitrequestsparsel安装Python并将其添加到环境变量中。pip可以安装所需的相关模块。
一、目标需求
抓取并保存CSDN上面的文章内容,保存为PDF格式。
第二,web数据分析。如果你想把网络文章的内容保存为PDF,首先你得下载一个软件wkhtmltopdf否则你无法实现。可以自己去百度搜索下载,也可以找上面的交流群下载。
之前的文章提到过,关于爬取文本的方式,爬取文本内容并不难。
要获取一篇文章的内容,必须先抓取每篇文章的url地址。
具体的分析过程之前的文章已经分享过了,这里就不赘述了。
Python抓取了CSDN的博客文章,并将其制作成PDF文件。
完成实施代码导入pdfkit
导入请求
导入parsel
html_str=
!声明文档类型
html lang=en
头
meta charset=UTF-8
标题文档/标题
/头
身体
{文章}
/body
/html
定义保存(文章,标题):
pdf_path=pdf\\ title 。 pdf
html_path=html\\ title 。 html
html=html _ str . format(article=article)
用open(html_path,mode=w ,encoding=utf-8 )作为f:
f .编写(html)
打印( {}已下载)。格式(标题))
存储# exe文件的路径
config=pdf kit . configuration(wkhtmltopdf= C:\ \ Program Files \ \ wkhtmltopdf \ \ bin \ \ wkhtmltopdf . exe )
#通过pdfkit将html转换为pdf文件
pdfkit.from_file(html_path,pdf_path,configuration=config)
def main(html_url):
#请求标题
标题={
Host: blog.csdn.net ,
referer : https://blog . csdn . net/QQ _ 41359265/article/details/102570971 ,
用户代理: Mozilla/5.0(Windows NT 10.0;Win64x64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/77 . 0 . 3865 . 90 Safari/537.36 ,
}
#用户信息
cookie={
饼干:你自己的饼干
}
response=requests . get(URL=html _ URL,headers=headers,cookies=cookie)
选择器=parsel。选择器(响应.文本)
urls=selector.css(。文章列表h4 a:attr(href))。getall()
对于url中的html_url:
response=requests . get(URL=html _ URL,headers=headers,cookies=cookie)
# text文本(字符串)
#遭遇反弹
#打印(response.text)
如何将HTML转换为PDF格式
#提取文章部分
sel=parsel。选择器(响应.文本)
# css选择器
article=sel.css(article )。获取()
title=sel.css(h1:text )。获取()
保存(文章,标题)
if __name__==__main__ :
URL= https://blog . csdn . net/Fei 347795790/article/list/1
主页(url)
原创作品来自爱吃饼干的博主松鼠,
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。