python爬取网页内容,利用python爬取简单网页数据步骤

　　之前在网上也写了不少关于爬虫爬取网页的代码，最近还是想把写的爬虫记录一下，方便大家使用吧！

　　代码一共分为四部分：

　　第一部分：找一个网站。

　　我这里还是找了一个比较简单的网站，就是大家都知道的https://movie.douban.com/top250?开始=

　　大家可以登录里面看一下。这里大家可能会有一些库没有进行安装，先上图让大家安装完爬取网页所需要的库，其中我本次用到的库有：bs4、urllib、xlwt、re。

　　（免费学习推荐：python视频教程)

　　如图

　　这里选择文件-设置-项目-然后选择左下角的加号，自行去安装自己所需要的文件就可以了。

　　下面的代码是爬取网页的源代码：

　　导入URL库。来自bs4的请求导入美汤导入xlwtimport redef main():

　　# 爬取网页

　　基本网址=https://movie.douban.com/top250？start=

　　datalist=getData(baseurl)

　　保存路径=豆瓣电影 Top250.xls

　　# 保存数据

　　保存数据（数据列表，保存路径)

　　# askul( https://电影。豆瓣。com/top 250？start=1)#影片详情的规则findLink=re。编译(r a class= href=).*?)) #创建从正则表达式，表示规则findImgSrc=re.compile(rimg .* src=(0 .*?)“”，回复.S) #让换行符匹配到字符中#影片的片名finTitle=重新编译.*)/span)#影片的评分找到reating=re。compile(r span class= rating _ num property= v : average ).*)/span)#找到评价人数找到judge=re。编译(r span(\ d *)人评价/span)#找到概况查找inq=re。编译(r span class= inq ).*)/span)#找到影片的相关内容findBb=re.compile(rp class=“”.*?)/p ，re .S)#re .S忽视换行符第二部分：爬取网页。

　　def getData(baseurl):

　　数据列表=[]

　　对于范围(0,10):内的我

　　url=baseurl字符串(i*25)

　　html=askURL(url) #保存获取到的网页源码

　　#对网页进行解析

　　soup=BeautifulSoup(html， html.parser )

　　for item in soup.find_all(p ，class_=item): #查找符合要求的字符串形成列表

　　#打印（项目)#测试查看电影信息

　　数据=[]

　　item=str(项目)

　　link=re.findall(findLink，item)[0] #re库用来查找指定的字符串

　　数据.追加(链接)

　　imgSrc=re.findall(findImgSrc，item)[0]

　　data.append(imgSrc) #添加图片

　　titles=re.findall(finTitle，item) #

　　if (len(titles)==

　　2):

　　 ctitle = titles[0] #添加中文名

　　 data.append(ctitle)

　　 otitle = titles[1].replace("/", "") #replace("/", "")去掉无关的符号

　　 data.append(otitle) #添加英文名

　　 else:

　　 data.append(titles[0])

　　 data.append(' ')#外国名字留空

　　 rating = re.findall(findReating, item)[0] #添加评分

　　 data.append(rating)

　　 judgeNum = re.findall(findJudge,item) #评价人数

　　 data.append(judgeNum)

　　 inq = re.findall(findInq, item) #添加概述

　　 if len(inq) != 0:

　　 inq = inq[0].replace(".", "") #去掉句号

　　 data.append(inq)

　　 else:

　　 data.append(" ") #留空

　　 bd = re.findall(findBb,item)[0]

　　 bd = re.sub('<br(\s+)?/>(\s+)?',' ', bd) #去掉br 后面这个bd表示对bd进行操作

　　 bd = re.sub('/', ' ', bd) #替换/

　　 data.append(bd.strip()) #去掉前后的空格strip()

　　 datalist.append(data) #把处理好的一部电影放入datalist当中

　　 return datalist第三部分：得到一个指定的url信息。

#得到指定的一个url网页信息def askURL(url):
　　 head = {
　　 "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Mobile Safari/537.36"}
　　 request = urllib.request.Request(url,headers=head) # get请求不需要其他的的，而post请求需要 一个method方法
　　 html = ""
　　 try:
　　 response = urllib.request.urlopen(request)
　　 html = response.read().decode('utf-8')
　　 # print(html)
　　 except Exception as e:
　　 if hasattr(e,'code'):
　　 print(e.code)
　　 if hasattr(e,'reason'):
　　 print(e.reason)
　　 return html

第四部分：保存数据

# 3:保存数据def saveData(datalist,savepath):
　　 book = xlwt.Workbook(encoding="utf-8", style_compression=0)
　　 sheet = book.add_sheet('豆瓣电影Top250', cell_overwrite_ok=True)
　　 col = ('电影详情链接', '图片链接', '影片中文名', '影片外国名', '评分', '评价数', '概况', '相关信息')
　　 for i in range(0,8):
　　 sheet.write(0,i,col[i]) #列名
　　 for i in range(0,250):
　　 print("第%d条"%i)
　　 data = datalist[i]
　　 for j in range(0,8):
　　 sheet.write(i+1,j,data[j])
　　 book.save(savepath) #保存

这里大家看一下代码，关于代码的标注我写的还是挺清楚的。

　　其中关于学习这个爬虫，还需要学习一些基本的正则表达式，当然python基本的语法是不可少的希望对大家有帮助吧。

　　相关免费学习推荐：python教程（视频）以上就是介绍python爬取网页的详细内容，更多请关注盛行IT软件开发工作室其它相关文章！

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读