python javascript 爬虫,python抓取页面

  python javascript 爬虫,python抓取页面

  [Python][Javascript] Python抓爪哇岛描述语言產生的頁面(幻想曲)一向都是用计算机编程语言的美味的汤來从语法上分析網頁,現在出到第四版,更好用文件也好看多了从美丽的声音进口美丽的声音

  改成从bs4导入美丽的声音

  方法名称也有改,參考。不過這次遇到的是內容是爪哇岛描述语言產生的,如play.google.com,以前可能看一下射流研究…的代码,學他送超文本传送协议(Hyper Text Transport Protocol的缩写)请求出去就可抓回來,現在的射流研究…越來越複雜,不好搞。

  幸好有幻象這種東西(带有百度地图的无头WebKit),就可以很方便的用内核把網頁內容全開出來(跑完javascript)。既然是javascript,DOM的选择器就用框架吧(page.injectJs(jquery.min.js )。var page=require(网页)。create(),

  t,地址;

  if (phantom.args.length===0) {

  //console.log(用法:加载速度。js’);

  幻影。exit();

  }否则{

  地址=幻影。args[0];

  page.open(地址、功能(状态){

  如果(状态!==成功){

  //console.log(加载地址失败);

  }否则{

  如果(第页。注入js( jquery。量滴js ){

  //console.log(jQuery loaded . );

  var get _ data=page。evaluate(function(){

  定义变量数据={}

  data[ title ]=$( h1。doc-banner-title’).text();

  data[ content ]=$( # doc-original-text ).text();

  data[icon]=$( .文档-横幅-图标img’).attr( src );

  var img_list=[]

  $(.截图-轮播-内容-容器img’).each(function(){ img _ list。推($(这个).attr( src )});

  数据[图像]=img_list

  返回JSON.stringify(数据);

  控制台。log(get _ data);

  幻影。exit();

  命令行執行$ phantom js my _ scrapy。js my _ URL控制台。原木裡的資料就回跑出來了Python。com .裡用commands.getoutput,再json.loads把数据拆成迪克特,大改就這樣吧导入命令

  导入数据

  out=commands.getoutput(my_cmd)

  data=json.loads(out)

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: