亚马逊 数据采集,亚马逊产品采集

  亚马逊 数据采集,亚马逊产品采集

  前言

  亚马逊公司,是美国最大的一家网络电子商务公司,位于华盛顿州的西雅图

  是网络上最早开始经营电子商务的公司之一,亚马逊成立于1994年

  今天教大家用计算机编程语言批量采集亚马逊平台商品数据

  地址:https://www.amazon.cn/

  分析网站数据,找到全球资源定位器(统一资源定位器)地址

  1.按F12,打开开发者工具,并刷新网站

  2.点击搜索,输入数据关键词

  3.找到数据所在全球资源定位器(统一资源定位器)地址

  开始我们的代码1.发送请求标题={

  接受:文本/html,应用程序/xhtml xml,应用程序/xml .q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,应用/签约-交换;v=b3q=0.9 ,

  Accept-Encoding: gzip,deflate,br ,

  接受-语言: zh-CN,zh;q=0.9 ,

  Cache-Control: max-age=0 ,

  连接:保持活动,

  cookie : session-id=460-4132650-8765807;i18n-prefs=CNY;ubid-acbcn=457-7935785-7667244;session-token=la a3 g 6 hmbbpdaipywutqqqkxksisu 8 FB 2 jtr 0 jiczqkevisqn 2 eqj w4 n 0 baby my 8/s 1 b 3 klv db 9 imsbnbwqhu 6j g 8 etoefdoi 69 keal 1 f 6 exydxcsqff 0 HC 4 fkgafjlnyfvlvj 5 ewtvjp 1 pygl 4 jg 2 TJ M5 o 2 uk 7 u fil 9s 7 gvidama uj 1 qtbwCSM-hit=ADB:adblk _ no t:1645531896484 TB:s-vmq 97 yxpsc 1 mbactn 14j 1645531895768;session-id-time=2082729601l ,

  下行链路: 10 ,

  ect: 4g ,

  Host: www.amazon.cn ,

  "推荐人": https://www . Amazon . cn/b/ref=S9 _ acss _ bw _ CG _ pccateg _ 2 a1 _ w?node=106200071 pf _ rd _ m=a 1u 5 RC ovu 0 nyf 2 pf _ rd _ s=merchandised-search-2pf _ rd _ r=ke 929 JD VF 8 qrwdqcwc 0 pf _ rd _ t=101 pf _ rd _ p=CD 9a 0d-d7cf-4d a b-80d b-2b7d 63266973 pf _ rd _ I=42689071 ,

  rtt: 150 ,

  " sec-ch-ua ":" "不是;品牌;v=99 ,铬;v=98 ,谷歌chrome’;v=98 ,

  sec-ch-ua-mobile :?0,

  sec-ch-ua-platform : Windows ,

  Sec-Fetch-Dest: document ,

  Sec-Fetch-Mode:“”导航,

  Sec-Fetch-Site :同源,

  Sec-Fetch-User :?1,

  升级-不安全-请求: 1 ,

  用户代理: Mozilla/5.0(Windows NT 10.0;win 64x 64)apple WebKit/537.36(KHTML,像壁虎一样)Chrome/98。0 .4758 .102 Safari/537.36 ,

  }

  网址=https://www.amazon.cn/s?RH=n:106200071 fs=true ref=LP _ 106200071 _ sar

  response=requests.get(url=url,headers=headers .获取数据打印(响应)

  返回结果为回应[200]:请求成功

  把结果封装

  data_html=response.text3 .解析数据选择器=parsel .选择器(数据_html)

  divs=selector.css( .a区。a-间距-基数’)

  对于差异中的div:

  # *文本:提取到标签文本内容

  title=div.css( .a号底加。a色基。a-text-normal:text ).获取()

  price=div.css( .尺码基数。a-link-正常。s-下划线-文本。下划线链接文本。s-link风格。a-文本-正常.a价. a-离屏:text’).获取()

  img_url=div.css( .a区。ok-相对的。s-image-square-aspects-image:attr(src)).获取()

  link=div.css( .a-link-正常。s-no-outline:attr(href)).获取()

  打印(标题,价格,img_url,链接)4。保存数据带开(亚马逊. csv ,mode=a ,encoding=utf-8 ,newline= )作为女:

  csv_writer=csv.writer(f)

  CSV _ writer。writerow([标题,价格,img_url,链接])

  5.翻页对于范围内的页面(1,401):

  url=fhttps://www.amazon.cn/s?我=计算机RH=n:106200071 fs=true page={ page } qid=1645537294 ref=Sr _ pg _ 3

  这样完整的数据就采集出来了:完整源码这里还有计算机编程语言数据分析可视化项目案例教学:亚马逊平台用户订单数据分析

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: