python爬取新闻内容,利用爬虫获取新闻标题和链接
Python抓取了部分学校的新闻标题、时间和对应的新闻链接_wx6296d048c716d _博客的技术博客
使用目录工具准备步骤1。巨蟒领航员2。安装chrome_Xpath_v2.0.2 3。使用chrome_Xpath_v2.0.2环境构建代码示例效果展示。
使用工具PyCharm 2018.2.3
巨蟒领航员
Python 3.6
谷歌浏览器插件:chrome_Xpath_v2.0.2
下载链接到https://share.weiyun.com/5iE161Y,魏云
1.Anaconda Navigator打开Anaconda Navigator并创建一个Python 3.6运行环境。
在Anaconda Navigator中安装相应的Python库
安装gevent库、xlwt库、etree库和请求库
下面是安装库的方法。
安装成功。
如果您需要使用命令行进行安装
选择打开终端。
安装方法:pip3安装模块名称
2.安装chrome_Xpath_v2.0.2,打开谷歌chrome,找到定制和控制。
选择扩展程序
完整安装
3.使用chrome_Xpath_v2.0.2,使用F12打开谷歌chrome开发者工具。
选择:复制XPath
设置环境并打开PyCharm。
示例# _ * _编码:utf-8_*_
# @作者:VVcat
# @时间:2019/9/27 18:54
# @File: Main.py
# @IDE: PyCharm
# @电子邮件:
# @版本:1.0
导入事件
将xlwt作为xlwt导入
从lxml导入etree
导入请求
def学校():
xls=xlwt。工作簿(编码=# 39;Utf-8) #创建一个工作簿,用括号中的编码。
#创建一个工作表
括号内的# cell_overwrite_ok=True是允许用户在同一单元格内重复写入内容,但只保留最后一次有效写入的内容。
sheet=xls.add_sheet(school ,cell_overwrite_ok=True)
row=0
对于范围(1,330)中的索引:# page有329页
如果索引==1:
URL= 3358 www.zjitc.net/xwzx/xyxw.htm #首页链接
否则:
URL= 3358 www.zjitc.net/xwzx/xyxw/str(索引-1)。htm #第一页后的链接
Request=requests.get (URL) #请求获取页面的HTML代码
resp=req . content . decode( utf-8 )#将页面编码格式设置为utf-8
HTML=etree。HTML(resp) #构造一个XPath解析对象,并自动更正HTML文本。
ul=html . XPath(/html/body/div[3]/div[8]/div[2]/div/ul/Li/a/div[2]/div )#定位内容,获取所有内容并存储在列表集合中。
对于ul中的ul:#遍历集合
Title=ul.xpath(h3) #获取标题
URL=str (title [0])。xpath(././@ href) [0]) #获取新闻链接
URL=url.replace(./.、 http://www.zjitc.net) #拆分拼接新闻链接。
Day=ul.xpath(././div [1]/i) #获取天数
Month=ul.xpath(././div [1]/em) #获取月份
Sheet.write (row,0,title [0])。text) #将标题写入excel
Sheet.write(第1行,第0个月)。textday [0]。文本“日”)#将日期写入excel
Sheet.write(row,2,url) #编写指向excel的链接
行=1
Xls.save(school.xls) #命名excel文件。
if _ _ name _ _==# 39__main__ :
School=gevent.spawn(school) #将函数放入python协程中
School.join() #启动协作流程
效果显示
转载请联系作者取得转载授权,否则将追究法律责任。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。