python爬取微信公众号数据,python抓取微信公众号文章
大家好,本篇文章主要讲的是大蟒爬取微信公众号文章图片并转为PDF,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下
遇到那种有很多图的微信公众号文章咋办?一个一个存很麻烦,应朋友的要求自己写了个爬虫。
2.0版本完成了!完善了生成可移植文档格式文件的扩展名(可移植文档格式的缩写)的功能,可根据图片比例自动调节大小,防止超出页面范围,增加了序号方面查看
# -设置-
# URL= https://MP。微信。QQ。 com/s/8JwB _ SXQ-80 uwq 9 l 97 bmgw
打印( jd3096 for king 2.0 VIP8钻石永久会员版)
打印(愿你远离流氓软件每一天)
url=input(请输入网址:)
# -获取数据-
导入请求
进口是
从bs4导入美丽的声音
导入操作系统
从太平航运进口图片
尝试:
os.makedirs(图片)
例外:
及格
os.chdir(图片)
page=requests.get(url).文本
soup=BeautifulSoup(page, html.parser )
jdata=soup.find_all(img )
pn=0
对于jdata:中的我
尝试:
src=i[数据-src]
打印(src)
rp=requests.get(src)
用open(str(pn) .jpg , wb )as f : #循环写入图片
打印(字符串(pn) .jpg’)
f .写(参考内容)
pn=1
例外:
及格
# -制作pdf -
从fpdf进口FPDF
导入操作系统
path=os.getcwd()
打印(路径)
pdf=FPDF()
pdf.set_auto_page_break(1)
imagelist=[I for I in OS。listdir()]
imagelist。sort(key=lambda x : int(x . split( . )[0]))
打印(图像列表)
对于图像列表:中的图像
尝试:
img=Image.open(image)
w=图像宽度#图片的宽
h=图像。高度#图片的高
ii=高/宽
打印(二)
如果ii1.41:
ww=int(250/ii)
pdf.add_page()
pdf.set_xy(0,0)
pdf.set_font(arial, B ,14)
pdf.cell(60)
pdf.cell(70,10,image,border=0,ln=1,align=C )
pdf.image(os.path.join(path,image),w=ww,h=250
else:
hh=int(180*ii)
pdf.add_page()
pdf.set_xy(0,0)
pdf.set_font(arial, B ,14)
pdf.cell(60)
pdf.cell(70,10,image,border=0,ln=1,align=C )
pdf.image(os.path.join(path,image),w=180,h=hh)
例外:
及格
pdf.output(os.path.join(path, merge.pdf ), F )
爬完了长这样:
便携文档格式长这样,比例适中适合阅读
到此这篇关于大蟒爬取微信公众号文章图片并转为便携文档格式的文章就介绍到这了,更多相关大蟒微信公众号文章图片内容请搜索盛行信息技术软件开发工作室以前的文章或继续浏览下面的相关文章希望大家以后多多支持盛行信息技术软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。