Python一行代码,几十行代码的python程序
推荐(免费):Python视频教程
文章目录
系列文章目录前言一、网页解析二、代码填写1.获取超文本标记语言及写入方法2.其余代码总结前言
利用大蟒写一个简单的笔趣阁爬虫,根据输入的小说网址爬取整个小说并保存到文本文件(文本文件)文件。爬虫用到了美丽的声音库的挑选方法
结果如图所示:本文只用于学习爬虫
一、网页解析
这里以斗罗大陆小说为例网址:
http://www.biquge001.com/Book/2/2486/
可以发现每章的网页地址和章节名都放在了p id=列表dl dd a中的a标签中,所以利用BeautfulSoup中的挑选方法可以得到网址和章节名
tag=beautiful soup(gethtml text(URL), html.parser) #这里的getHtmlText是自己写的获取超文本标记语言的方法urls=Tag.select(p #list dl dd a )然后遍历列表
对于urls:中的全球资源定位器(Uniform Resource Locator)
href= http://www。biquge 001。 URL[ href ]#字符串的拼接拼接成正确的网址
pageName=url.text #每章的章名然后每章小说的内容都存放在p id="内容"里同理得
物质=标签。选择( p #内容)#文章的内容最后同理在首页获取小说的名称
p id=信息氕
bookName=Tag.select(p #info h1 )
二、代码填写
1.获取Html及写入方法
def getHtmlText(url):
r=requests.get(url,headers=headers)
r。编码=r . apparent _ encoding #编码转换
r.raise_for_status()
return r.textdef writeIntoTxt(文件名,内容):
用打开(文件名, w ,编码=utf-8 )作为f:
f .写(内容)
f.close()
打印(文件名已完成)2.其余代码
代码如下(示例):
URL= http://www。biquge 001。 substance str= bookname 1= html=gethtml text(URL)#判断是否存在这个文件tag=美汤(gethtml text(URL), html。parser’)URLs=tag。select( p # list dl DD a )bookName=tag。为图书名称:中的I选择( p #信息h1 )
bookname 1=I .如果不是操作系统,则为文本。路径。存在(书名1):
os.mkdir(图书名称1)
打印(图书名称1 创建完成)else:
打印(文件已创建)用于urls:中的全球资源定位器(Uniform Resource Locator)
href= http://www。biquge 001。 URL[ href ]#字符串的拼接拼接成正确的网址
pageName=url.text #每章的章名
path=bookName1 \\ #路径
文件名=路径网址.文本.txt #文件名=路径章节名。文本
tag=beautiful soup(gethtml text(href), html.parser) #解析每张的网页
物质=标签。选择( p #内容)#文章的内容
因为我实质上是:
substanceStr=i.text
writeIntoTxt(文件名,物质Str)
时间。睡眠(1)
总结
简单利用了BeautfulSoup的挑选方法对笔趣阁的网页进行了爬取
更多相关学习敬请关注Python教程栏目!以上就是介绍python60行代码写一个简单的笔趣阁爬虫的详细内容,更多请关注盛行信息技术软件开发工作室其它相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。