python爬取特定内容,python爬虫只能爬取部分内容
本文主要介绍python爬虫爬取指定内容,爬取某些网站下的指定内容。一般来说,我们可以使用xpath直接从网页中获取,但是当获取的内容不唯一时,我们就无法选择了。我们需要的和指定的,有需要的朋友可以参考。
00-1010解决方案:实际列表代码如下:(以我校为例)抓取网站下的一些指定内容。一般来说,可以使用xpath直接从网页中获取,但是当我们获取的内容不唯一时,我们无法选择自己需要的内容并指定。
目录
您可以使用for In语句来确定。
如果我们指定的内容在这句话里,我们就爬下来,否则就丢弃。
解决办法:
导入urllib.request
从lxml导入etree
def creat_url(页面):
if(page==1):
URL= https://www . qjnu . edu.cn/channels/9260 . html
else:
URL= https://www . qjnu . edu.cn/channels/9260 _ str(page)。 html
标题={
用户代理“:”Mozilla/5.0(Windows NT 10.0;Win64x64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/101 . 0 . 4951 . 64 Safari/537.36 Edg/101 . 0 . 1210 . 53
}
request=URL lib . request . request(URL=URL,headers=headers)
退货请求
def creat_respons(请求):
respons=urllib . request . urlopen(request)
content=respons.read()。解码(“utf-8”)
返回内容
定义向下_2(url):
url=url
标题={
用户代理“:”Mozilla/5.0(Windows NT 10.0;Win64x64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/100 . 0 . 4896 . 60 Safari/537.36 Edg/100 . 0 . 1185 . 29
}
request=URL lib . request . request(URL=URL,headers=headers)
response=urllib . request . urlopen(request)
content2=response.read()。解码(“utf-8”)
tree2=etree。HTML(内容2)
返回树2
def down_loads(内容):
tree=etree。HTML(内容)
name _ list=tree . XPath(//div[@ class= media ]/H4/a/text())
URL _ list=tree . XPath(//div[@ class= media ]/H4/a/@ href )
对于范围内的I(len(name _ list)):
如果键入name_list[i]:
用(学校党员主题URL。txt , a ,编码= UTF-8 ),如FP :
fp.write(url_list[i] \n )
url=url_list[i]
tree=down_2(url)
tex _ list=tree . XPath(//div[@ class= field-item even ]//p/span/text())
name=name_list[i]
with open(name 。txt , w ,编码=UTF-8 ),如fp:
fp.write(str(tex_list))
if __name__==__main__:
All_page=int(input(请输入要爬网的页码:))
Key=str(input(请输入关键字:))
s_page=1
对于范围内的页面(s_page,all_page 1):
请求=创建url(页面)
content=creat_respons(请求)
下载(内容)
这个代码的可执行性没有问题,逻辑上是可以串通的。
但是代码是多余的,看起来有点复杂。现在在研究代码的简化版!
这就是这篇关于python爬虫抓取指定内容的文章。关于python爬取指定内容的更多信息,请搜索热门IT软件开发工作室之前的文章或者继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。