python爬取的数据存在哪里,python爬取的数据保存到表格中

  python爬取的数据存在哪里,python爬取的数据保存到表格中

  昨天下班,突然想写个爬虫抓网页上的东西。我花了一个小时简单的学习了python的基本语法,然后参考网上的例子写了一个爬虫。(推荐学习:Python视频教程)

  python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。

  #编码=utf-8

  导入urllib.request

  进口re

  导入操作系统

  Urllib模块提供了读取网页数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。

  Urlopen方法用于打开一个url。

  read方法用于读取Url上的数据。

  def getHtml(url):

  page=URL lib . request . urlopen(URL);

  html=page . read();

  返回html

  def getImg(html):

  img list=re . find all( img src=(http。*?)“”,html)

  返回imglist

  html=get html( https://www . zhi Hu.com/question/34378366 )。解码( utf-8 );

  image surl=getImg(html);

  如果OS . path . exists( d :/imags )==false :

  OS . mkdir( d :/imags );

  count=0;

  对于imagesUrl:中的url

  打印(url)

  if(url.find( . )) !=-1):

  name=url[url.find( . ,len(URL)-5):];

  bytes=URL lib . request . urlopen(URL);

  f=open( d :/imags/ str(count)name, WB );

  f . write(bytes . read());

  f . flush();

  f . close();

  count=1;经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。

  注意:以上程序基于python 3.5。python3和python2还是有一些区别的。刚开始看《基础语法》的时候,种了一些坑。以上是python数据从哪里爬下来保存的细节。更多信息请关注盛行IT软件开发工作室的其他相关文章!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: