python爬取特定内容,python爬虫只能爬取部分内容

  python爬取特定内容,python爬虫只能爬取部分内容

  本文主要介绍python爬虫爬取指定内容,爬取某些网站下的指定内容。一般来说,我们可以使用xpath直接从网页中获取,但是当获取的内容不唯一时,我们就无法选择了。我们需要的和指定的,有需要的朋友可以参考。

  00-1010解决方案:实际列表代码如下:(以我校为例)抓取网站下的一些指定内容。一般来说,可以使用xpath直接从网页中获取,但是当我们获取的内容不唯一时,我们无法选择自己需要的内容并指定。

  

目录

  您可以使用for In语句来确定。

  如果我们指定的内容在这句话里,我们就爬下来,否则就丢弃。

  

解决办法:

  导入urllib.request

  从lxml导入etree

  def creat_url(页面):

  if(page==1):

  URL= https://www . qjnu . edu.cn/channels/9260 . html

  else:

  URL= https://www . qjnu . edu.cn/channels/9260 _ str(page)。 html

  标题={

  用户代理“:”Mozilla/5.0(Windows NT 10.0;Win64x64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/101 . 0 . 4951 . 64 Safari/537.36 Edg/101 . 0 . 1210 . 53

  }

  request=URL lib . request . request(URL=URL,headers=headers)

  退货请求

  def creat_respons(请求):

  respons=urllib . request . urlopen(request)

  content=respons.read()。解码(“utf-8”)

  返回内容

  定义向下_2(url):

  url=url

  标题={

  用户代理“:”Mozilla/5.0(Windows NT 10.0;Win64x64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/100 . 0 . 4896 . 60 Safari/537.36 Edg/100 . 0 . 1185 . 29

  }

  request=URL lib . request . request(URL=URL,headers=headers)

  response=urllib . request . urlopen(request)

  content2=response.read()。解码(“utf-8”)

  tree2=etree。HTML(内容2)

  返回树2

  def down_loads(内容):

  tree=etree。HTML(内容)

  name _ list=tree . XPath(//div[@ class= media ]/H4/a/text())

  URL _ list=tree . XPath(//div[@ class= media ]/H4/a/@ href )

  对于范围内的I(len(name _ list)):

  如果键入name_list[i]:

  用(学校党员主题URL。txt , a ,编码= UTF-8 ),如FP :

  fp.write(url_list[i] \n )

  url=url_list[i]

  tree=down_2(url)

  tex _ list=tree . XPath(//div[@ class= field-item even ]//p/span/text())

  name=name_list[i]

  with open(name 。txt , w ,编码=UTF-8 ),如fp:

  fp.write(str(tex_list))

  if __name__==__main__:

  All_page=int(input(请输入要爬网的页码:))

  Key=str(input(请输入关键字:))

  s_page=1

  对于范围内的页面(s_page,all_page 1):

  请求=创建url(页面)

  content=creat_respons(请求)

  下载(内容)

  这个代码的可执行性没有问题,逻辑上是可以串通的。

  但是代码是多余的,看起来有点复杂。现在在研究代码的简化版!

  这就是这篇关于python爬虫抓取指定内容的文章。关于python爬取指定内容的更多信息,请搜索热门IT软件开发工作室之前的文章或者继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: