亚马逊 数据采集,亚马逊产品采集
前言
亚马逊公司,是美国最大的一家网络电子商务公司,位于华盛顿州的西雅图
是网络上最早开始经营电子商务的公司之一,亚马逊成立于1994年
今天教大家用计算机编程语言批量采集亚马逊平台商品数据
地址:https://www.amazon.cn/
分析网站数据,找到全球资源定位器(统一资源定位器)地址
1.按F12,打开开发者工具,并刷新网站
2.点击搜索,输入数据关键词
3.找到数据所在全球资源定位器(统一资源定位器)地址
开始我们的代码1.发送请求标题={
接受:文本/html,应用程序/xhtml xml,应用程序/xml .q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,应用/签约-交换;v=b3q=0.9 ,
Accept-Encoding: gzip,deflate,br ,
接受-语言: zh-CN,zh;q=0.9 ,
Cache-Control: max-age=0 ,
连接:保持活动,
cookie : session-id=460-4132650-8765807;i18n-prefs=CNY;ubid-acbcn=457-7935785-7667244;session-token=la a3 g 6 hmbbpdaipywutqqqkxksisu 8 FB 2 jtr 0 jiczqkevisqn 2 eqj w4 n 0 baby my 8/s 1 b 3 klv db 9 imsbnbwqhu 6j g 8 etoefdoi 69 keal 1 f 6 exydxcsqff 0 HC 4 fkgafjlnyfvlvj 5 ewtvjp 1 pygl 4 jg 2 TJ M5 o 2 uk 7 u fil 9s 7 gvidama uj 1 qtbwCSM-hit=ADB:adblk _ no t:1645531896484 TB:s-vmq 97 yxpsc 1 mbactn 14j 1645531895768;session-id-time=2082729601l ,
下行链路: 10 ,
ect: 4g ,
Host: www.amazon.cn ,
"推荐人": https://www . Amazon . cn/b/ref=S9 _ acss _ bw _ CG _ pccateg _ 2 a1 _ w?node=106200071 pf _ rd _ m=a 1u 5 RC ovu 0 nyf 2 pf _ rd _ s=merchandised-search-2pf _ rd _ r=ke 929 JD VF 8 qrwdqcwc 0 pf _ rd _ t=101 pf _ rd _ p=CD 9a 0d-d7cf-4d a b-80d b-2b7d 63266973 pf _ rd _ I=42689071 ,
rtt: 150 ,
" sec-ch-ua ":" "不是;品牌;v=99 ,铬;v=98 ,谷歌chrome’;v=98 ,
sec-ch-ua-mobile :?0,
sec-ch-ua-platform : Windows ,
Sec-Fetch-Dest: document ,
Sec-Fetch-Mode:“”导航,
Sec-Fetch-Site :同源,
Sec-Fetch-User :?1,
升级-不安全-请求: 1 ,
用户代理: Mozilla/5.0(Windows NT 10.0;win 64x 64)apple WebKit/537.36(KHTML,像壁虎一样)Chrome/98。0 .4758 .102 Safari/537.36 ,
}
网址=https://www.amazon.cn/s?RH=n:106200071 fs=true ref=LP _ 106200071 _ sar
response=requests.get(url=url,headers=headers .获取数据打印(响应)
返回结果为回应[200]:请求成功
把结果封装
data_html=response.text3 .解析数据选择器=parsel .选择器(数据_html)
divs=selector.css( .a区。a-间距-基数’)
对于差异中的div:
# *文本:提取到标签文本内容
title=div.css( .a号底加。a色基。a-text-normal:text ).获取()
price=div.css( .尺码基数。a-link-正常。s-下划线-文本。下划线链接文本。s-link风格。a-文本-正常.a价. a-离屏:text’).获取()
img_url=div.css( .a区。ok-相对的。s-image-square-aspects-image:attr(src)).获取()
link=div.css( .a-link-正常。s-no-outline:attr(href)).获取()
打印(标题,价格,img_url,链接)4。保存数据带开(亚马逊. csv ,mode=a ,encoding=utf-8 ,newline= )作为女:
csv_writer=csv.writer(f)
CSV _ writer。writerow([标题,价格,img_url,链接])
5.翻页对于范围内的页面(1,401):
url=fhttps://www.amazon.cn/s?我=计算机RH=n:106200071 fs=true page={ page } qid=1645537294 ref=Sr _ pg _ 3
这样完整的数据就采集出来了:完整源码这里还有计算机编程语言数据分析可视化项目案例教学:亚马逊平台用户订单数据分析
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。