Python爬取动态网页,python爬取动态页面

  Python爬取动态网页,python爬取动态页面

  当我们抓取网页时,我们会使用一定的规则从返回的HTML数据中提取有效信息。但是如果网页包含JavaScript代码,我们就必须渲染它来获取原始数据。此时,如果我们仍然使用常规方法从中获取数据,那么我们将一无所获。那么,这个问题可以简单地通过Web kit来解决。Web工具包可以实现浏览器可以处理的任何事情。对于某些浏览器,Web kit是底层的网页呈现工具。Web kit是QT库的一部分,所以如果你已经安装了QT和PyQT4库,你可以直接运行它们。

  1.环境准备

  Linux:sudo apt-get安装python-qt4

  2.使用

  首先通过Web kit发送请求信息,然后等待网页完全加载,并将其赋给一个变量。接下来,我们使用lxml从HTML数据中提取有效信息。这个过程需要一点时间。

  从PyQt4导入syss。QtWebKit导入*

  来自PyQt4。QtGui导入*

  来自PyQt4。QtCore导入*

  类Render(QWebPage): #用于渲染一个网页,加载url中的所有信息,存储在一个新的框架中。

  def __init__(self,url):

  self . app=QA application(sys . argv)

  q网页。__init__(self)

  self.loadFinished.connect(self。_加载完成)

  self.mainFrame()。load(查询(Url))

  self . app . exec _()def _ load finished(self,result):

  self.frame=self.mainFrame()

  self.app.quit()

  URL= http://jandan . net/ooxx r=Render(URL)

  html=r . frame . tohtml()print(html)

  然后,接下来的工作就是解析HTML代码,这里就不解释了。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: