python爬取新闻内容,利用爬虫获取新闻标题和链接

  python爬取新闻内容,利用爬虫获取新闻标题和链接

  Python抓取了部分学校的新闻标题、时间和对应的新闻链接_wx6296d048c716d _博客的技术博客

  使用目录工具准备步骤1。巨蟒领航员2。安装chrome_Xpath_v2.0.2 3。使用chrome_Xpath_v2.0.2环境构建代码示例效果展示。

  使用工具PyCharm 2018.2.3

  巨蟒领航员

  Python 3.6

  谷歌浏览器插件:chrome_Xpath_v2.0.2

  下载链接到https://share.weiyun.com/5iE161Y,魏云

  1.Anaconda Navigator打开Anaconda Navigator并创建一个Python 3.6运行环境。

  在Anaconda Navigator中安装相应的Python库

  安装gevent库、xlwt库、etree库和请求库

  下面是安装库的方法。

  安装成功。

  如果您需要使用命令行进行安装

  选择打开终端。

  安装方法:pip3安装模块名称

  2.安装chrome_Xpath_v2.0.2,打开谷歌chrome,找到定制和控制。

  选择扩展程序

  完整安装

  3.使用chrome_Xpath_v2.0.2,使用F12打开谷歌chrome开发者工具。

  选择:复制XPath

  设置环境并打开PyCharm。

  示例# _ * _编码:utf-8_*_

  # @作者:VVcat

  # @时间:2019/9/27 18:54

  # @File: Main.py

  # @IDE: PyCharm

  # @电子邮件:

  # @版本:1.0

  导入事件

  将xlwt作为xlwt导入

  从lxml导入etree

  导入请求

  def学校():

  xls=xlwt。工作簿(编码=# 39;Utf-8) #创建一个工作簿,用括号中的编码。

  #创建一个工作表

  括号内的# cell_overwrite_ok=True是允许用户在同一单元格内重复写入内容,但只保留最后一次有效写入的内容。

  sheet=xls.add_sheet(school ,cell_overwrite_ok=True)

  row=0

  对于范围(1,330)中的索引:# page有329页

  如果索引==1:

  URL= 3358 www.zjitc.net/xwzx/xyxw.htm #首页链接

  否则:

  URL= 3358 www.zjitc.net/xwzx/xyxw/str(索引-1)。htm #第一页后的链接

  Request=requests.get (URL) #请求获取页面的HTML代码

  resp=req . content . decode( utf-8 )#将页面编码格式设置为utf-8

  HTML=etree。HTML(resp) #构造一个XPath解析对象,并自动更正HTML文本。

  ul=html . XPath(/html/body/div[3]/div[8]/div[2]/div/ul/Li/a/div[2]/div )#定位内容,获取所有内容并存储在列表集合中。

  对于ul中的ul:#遍历集合

  Title=ul.xpath(h3) #获取标题

  URL=str (title [0])。xpath(././@ href) [0]) #获取新闻链接

  URL=url.replace(./.、 http://www.zjitc.net) #拆分拼接新闻链接。

  Day=ul.xpath(././div [1]/i) #获取天数

  Month=ul.xpath(././div [1]/em) #获取月份

  Sheet.write (row,0,title [0])。text) #将标题写入excel

  Sheet.write(第1行,第0个月)。textday [0]。文本“日”)#将日期写入excel

  Sheet.write(row,2,url) #编写指向excel的链接

  行=1

  Xls.save(school.xls) #命名excel文件。

  if _ _ name _ _==# 39__main__ :

  School=gevent.spawn(school) #将函数放入python协程中

  School.join() #启动协作流程

  效果显示

  转载请联系作者取得转载授权,否则将追究法律责任。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: