如何导出公众号所有文章,怎么把微信公众号的文章导出
【相关学习推荐:python教程】
1.安装wkhtmltopdf
下载地址:https://wkhtmltopdf.org/downloads.html我测试用的是窗子的,下载安装后结果如下
2 编写python 代码导出微信公众号文章
不能直接使用wkhtmltopdf导出微信公众号文章,导出的文章会缺失图片,所以需要使用微信搜索将微信公众号文章页面抓取,之后将超文本标记语言文本转化为可移植文档格式文件的扩展名(可移植文档格式的缩写)点安装微信logou-升级
点安装可移植文档格式文件的扩展名(portable document format的缩写)包
踩坑!看了很多人的代码,都是一个模板,大家都是抄来抄去,结果还是运行不了,可能是因为依赖包更新的原因,也可能是因为我本地没有配置wkhtmltopdf的环境变量
导入操作系统
导入pdfkit
导入日期时间
导入微信搜索
# 初始化应用程序接口
ws_api=wechatsogou .WechatSogouAPI(captcha _ break _ time=3)
def url2pdf(url,title,targetPath):
使用pdfkit生成可移植文档格式文件的扩展名(可移植文档格式的缩写)文件
:param url:文章全球资源定位器(统一资源定位器)
:参数标题:文章标题
:参数目标路径:存储可移植文档格式文件的扩展名(可移植文档格式的缩写)文件的路径
尝试:
内容信息=ws _ API。获取文章内容(网址)
例外:
返回错误的
# 处理后的超文本标记语言
html=f
!声明文档类型
html lang=en
头
meta charset=UTF-8
标题{ title }/标题
/头
身体
H2 style= text-align : center;字体粗细: 400;{title}/h2
{content_info[content_html]}
/body
/html
尝试:
path _ wk= e :/软件app/wkhtmltopdf/bin/wkhtmltopdf。exe ;
配置=pdf包。配置(wkhtmltopdf=path _ wk)
pdfkit.from_string(输入=html,输出路径=目标路径,配置=配置)
例外:
# 部分文章标题含特殊字符,不能作为文件名
filename=datetime.datetime.now()。strftime("% Y % M % d % H % M % S "). pdf
pdfkit.from_string(html,targetPath os.path.sep文件名)
if __name__==__main__:
# 此处为要爬取公众号的名称
URL 2 pdf( https://MP。微信。QQ。N2 jweeakrrmohedziw , HBase的系统架构全视角解读, g :/测试/h基本文档. pdf’)
# gzh_name=
# # 如果不存在目标文件夹就进行创建
#如果不是OS。路径。存在(目标路径):
# os.makedirs(目标路径)
# # 将该公众号最近10篇文章信息以字典形式返回
# data=ws _ API。get _ gzh _ article _ by _ history(gzh _ name)
# article_list=data[article]
# for文章_列表:中的文章
# url=article[content_url]
# title=article[title]
# url2pdf(url,标题,目标路径)相关学习推荐:微信小程序教程
以上就是大蟒如何导出微信公众号文章的详细内容,更多请关注盛行信息技术软件开发工作室其它相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。