python爬取的数据存在哪里,python爬取的数据保存到表格中
昨天下班,突然想写个爬虫抓网页上的东西。我花了一个小时简单的学习了python的基本语法,然后参考网上的例子写了一个爬虫。(推荐学习:Python视频教程)
python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。
#编码=utf-8
导入urllib.request
进口re
导入操作系统
Urllib模块提供了读取网页数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。
Urlopen方法用于打开一个url。
read方法用于读取Url上的数据。
def getHtml(url):
page=URL lib . request . urlopen(URL);
html=page . read();
返回html
def getImg(html):
img list=re . find all( img src=(http。*?)“”,html)
返回imglist
html=get html( https://www . zhi Hu.com/question/34378366 )。解码( utf-8 );
image surl=getImg(html);
如果OS . path . exists( d :/imags )==false :
OS . mkdir( d :/imags );
count=0;
对于imagesUrl:中的url
打印(url)
if(url.find( . )) !=-1):
name=url[url.find( . ,len(URL)-5):];
bytes=URL lib . request . urlopen(URL);
f=open( d :/imags/ str(count)name, WB );
f . write(bytes . read());
f . flush();
f . close();
count=1;经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。
注意:以上程序基于python 3.5。python3和python2还是有一些区别的。刚开始看《基础语法》的时候,种了一些坑。以上是python数据从哪里爬下来保存的细节。更多信息请关注盛行IT软件开发工作室的其他相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。