python爬取新闻内容,利用爬虫获取新闻标题和链接

　　Python抓取了部分学校的新闻标题、时间和对应的新闻链接_wx6296d048c716d _博客的技术博客

　　使用目录工具准备步骤1。巨蟒领航员2。安装chrome_Xpath_v2.0.2 3。使用chrome_Xpath_v2.0.2环境构建代码示例效果展示。

　　使用工具PyCharm 2018.2.3

　　巨蟒领航员

　　Python 3.6

　　谷歌浏览器插件：chrome_Xpath_v2.0.2

　　下载链接到https://share.weiyun.com/5iE161Y,魏云

　　1.Anaconda Navigator打开Anaconda Navigator并创建一个Python 3.6运行环境。

　　在Anaconda Navigator中安装相应的Python库

　　安装gevent库、xlwt库、etree库和请求库

　　下面是安装库的方法。

　　安装成功。

　　如果您需要使用命令行进行安装

　　选择打开终端。

　　安装方法：pip3安装模块名称

　　2.安装chrome_Xpath_v2.0.2，打开谷歌chrome，找到定制和控制。

　　选择扩展程序

　　完整安装

　　3.使用chrome_Xpath_v2.0.2，使用F12打开谷歌chrome开发者工具。

　　选择：复制XPath

　　设置环境并打开PyCharm。

　　示例# _ * _编码：utf-8_*_

　　# @作者：VVcat

　　# @时间：2019/9/27 18:54

　　# @File: Main.py

　　# @IDE: PyCharm

　　# @电子邮件：

　　# @版本：1.0

　　导入事件

　　将xlwt作为xlwt导入

　　从lxml导入etree

　　导入请求

　　def学校():

　　xls=xlwt。工作簿(编码=# 39；Utf-8) #创建一个工作簿，用括号中的编码。

　　#创建一个工作表

　　括号内的# cell_overwrite_ok=True是允许用户在同一单元格内重复写入内容，但只保留最后一次有效写入的内容。

　　sheet=xls.add_sheet(school ，cell_overwrite_ok=True)

　　row=0

　　对于范围(1，330)中的索引：# page有329页

　　如果索引==1:

　　URL= 3358 www.zjitc.net/xwzx/xyxw.htm #首页链接

　　否则：

　　URL= 3358 www.zjitc.net/xwzx/xyxw/str(索引-1)。htm #第一页后的链接

　　Request=requests.get (URL) #请求获取页面的HTML代码

　　resp=req . content . decode( utf-8 )#将页面编码格式设置为utf-8

　　HTML=etree。HTML(resp) #构造一个XPath解析对象，并自动更正HTML文本。

　　ul=html . XPath(/html/body/div[3]/div[8]/div[2]/div/ul/Li/a/div[2]/div )#定位内容，获取所有内容并存储在列表集合中。

　　对于ul中的ul:#遍历集合

　　Title=ul.xpath(h3) #获取标题

　　URL=str (title [0])。xpath(././@ href) [0]) #获取新闻链接

　　URL=url.replace(./.、 http://www.zjitc.net) #拆分拼接新闻链接。

　　Day=ul.xpath(././div [1]/i) #获取天数

　　Month=ul.xpath(././div [1]/em) #获取月份

　　Sheet.write (row，0，title [0])。text) #将标题写入excel

　　Sheet.write(第1行，第0个月)。textday [0]。文本“日”)#将日期写入excel

　　Sheet.write(row，2，url) #编写指向excel的链接

　　行=1

　　Xls.save(school.xls) #命名excel文件。

　　if _ _ name _ _==# 39__main__ :

　　School=gevent.spawn(school) #将函数放入python协程中

　　School.join() #启动协作流程

　　效果显示

　　转载请联系作者取得转载授权，否则将追究法律责任。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

python爬取新闻内容,利用爬虫获取新闻标题和链接

相关文章阅读

去评论

去顶部