Python一行代码,几十行代码的python程序

　　推荐（免费）：Python视频教程

　　文章目录

　　系列文章目录前言一、网页解析二、代码填写1.获取超文本标记语言及写入方法2.其余代码总结前言

　　利用大蟒写一个简单的笔趣阁爬虫，根据输入的小说网址爬取整个小说并保存到文本文件(文本文件)文件。爬虫用到了美丽的声音库的挑选方法

　　结果如图所示：本文只用于学习爬虫

　　一、网页解析

　　这里以斗罗大陆小说为例网址：

　　http://www.biquge001.com/Book/2/2486/

　　可以发现每章的网页地址和章节名都放在了p id=列表dl dd a中的a标签中，所以利用BeautfulSoup中的挑选方法可以得到网址和章节名

　　tag=beautiful soup(gethtml text(URL)， html.parser) #这里的getHtmlText是自己写的获取超文本标记语言的方法urls=Tag.select(p #list dl dd a )然后遍历列表

　　对于urls:中的全球资源定位器(Uniform Resource Locator)

　　href= http://www。biquge 001。 URL[ href ]#字符串的拼接拼接成正确的网址

　　pageName=url.text #每章的章名然后每章小说的内容都存放在p id="内容"里同理得

　　物质=标签。选择( p #内容)#文章的内容最后同理在首页获取小说的名称

　　p id=信息氕

　　bookName=Tag.select(p #info h1 )

　　二、代码填写

　　1.获取Html及写入方法

　　def getHtmlText(url):

　　r=requests.get(url，headers=headers)

　　r。编码=r . apparent _ encoding #编码转换

　　r.raise_for_status()

　　return r.textdef writeIntoTxt(文件名，内容):

　　用打开(文件名， w ，编码=utf-8 )作为f:

　　f .写(内容)

　　f.close()

　　打印（文件名已完成)2.其余代码

　　代码如下（示例):

　　URL= http://www。biquge 001。 substance str= bookname 1= html=gethtml text(URL)#判断是否存在这个文件tag=美汤(gethtml text(URL)， html。parser’)URLs=tag。select( p # list dl DD a )bookName=tag。为图书名称：中的I选择( p #信息h1 )

　　bookname 1=I .如果不是操作系统，则为文本。路径。存在(书名1):

　　os.mkdir(图书名称1)

　　打印（图书名称1 创建完成)else:

　　打印(文件已创建)用于urls:中的全球资源定位器(Uniform Resource Locator)

　　href= http://www。biquge 001。 URL[ href ]#字符串的拼接拼接成正确的网址

　　pageName=url.text #每章的章名

　　path=bookName1 \\ #路径

　　文件名=路径网址.文本.txt #文件名=路径章节名。文本

　　tag=beautiful soup(gethtml text(href)， html.parser) #解析每张的网页

　　物质=标签。选择( p #内容)#文章的内容

　　因为我实质上是：

　　substanceStr=i.text