抖音获取无水印视频,python去水印
指尖生活
首先,环境使用Python 3.8
路径
谷歌浏览器
Google drive
第二,模块使用请求pip安装请求
是
数据
硒管安装硒==3.141.0
三、模块安装问题win R输入cmd输入安装命令pip安装模块名称(如果觉得安装速度慢,可以切换国产镜像源)
-安装python第三方模块:1。win R输入cmd,单击OK,输入安装命令pip安装模块名(pip安装请求)并按Enter。
2.在pycharm中单击终端,输入安装命令。
-安装失败原因:
-故障1: pip不是内部命令
解决方法:设置环境变量。
-故障二:出现大量红色信息(读取超时)。
解决方法:由于网络链接超时,需要切换图像源SSL。
https://pypi.tuna.tsinghua.edu.cn/simple,清华
阿里云:https://mirrors.aliyun.com/pypi/simple/
中国科学技术大学https://pypi.mirrors.ustc.edu.cn/simple/
华中科技大学:https://pypi.hustunique.com/
山东理工大学:https://pypi.sdutlinux.org/
豆瓣:https://pypi.douban.com/simple/
示例:pip 3 install-I https://pypi.doubanio.com/simple/模块名称
-故障三:cmd显示已经安装或安装成功,但在pycharm中仍然无法导入。
解决方案:可能安装了多个python版本(anaconda或python只能安装一个)。卸载一个就行了。
或者pycharm中的python解释器设置不正确。
4.如何在pycharm 1中配置python解释器?选择文件设置项目Python解释器。
2.点击齿轮并选择添加。
3.添加python安装路径
5.如何在pycharm 1中安装插件?选择文件设置插件。
2.点击Marketplace输入要安装的插件名称,例如:翻译插件输入翻译/中文插件输入中文。
3.选择相应的插件,然后单击安装。
4.安装成功后,会弹出重启pycharm的选项。点击确定,重启生效。
不及物动词爬虫的基本思想流程:一般(1)。数据源分析——你知道你首先想要数据在哪里吗?
-请求https://www.douyin.com/video/7081188549869063461获取服务器返回的响应数据
视频地址和视频标题。
-捕获分析-开发人员工具执行捕获分析。
1.打开用于数据包捕获分析的开发工具,并选择媒体以找到视频url地址。
2.在关键字搜索之后,找到的数据被编码——当获得数据时,它可以被解码。
(2)代码实现步骤1:发送请求,模拟浏览器发送对url地址的请求。
2、数据采集,获取服务器返回响应数据。
3.分析数据,提取我们想要的数据内容。
4.保存数据,我们希望视频内容保存在本地。
5.先采集一个视频内容,再做批量数据采集。
七。完成代码#导入数据请求模块
导入请求
#导入常规
进口re
#导入json
导入json
#导入打印格式模块
从pprint导入pprint
#导入时间模块
导入时间
使用selenium获取所有视频详细信息页面的url地址。
Selenium -由浏览器驱动-模拟浏览器的操作。
-谷歌浏览器
-Google Drive-版本基于浏览器版本,大版本和小版本一样,是最接近的。
下载后可以解压,
1.一个有你的代码的地方
2.在Python安装目录中
3.编写代码时指定路径。
硒版本3.141.0
模拟人类行为来操作浏览器。
从selenium导入web驱动程序
#打开浏览器
driver=webdriver。铬合金()
#访问网址
driver . get( https://www . dou yin . com/user/ms4 wljabaaaakzrroussm 4 z 1 ricsddumx _ asvx 0 jmopcqr 2 qts 3 petimbd 8 bomlrqvtiobkol 0 p )
def下拉列表():
对于范围(1,30,2)中的x:
时间.睡眠(1)
j=x/9
js= document . document element . scroll top=document . document element . scroll height * % f % j
驱动程序执行脚本(js)
下拉菜单()
#选择通过css-find标签定位元素
lis=driver . find _ elements _ by _ CSS _ selector(。ECMy _ Zdt’)
# for循环
李斯对李说:
尝试:
URL=Li . find _ element _ by _ CSS _ selector( a )。get_attribute(href )
1.发送请求,模拟浏览器对于全球资源定位器(统一资源定位器)地址发送请求
需要注意什么细节:
回应【200】表示是请求成功,但是不代表你得到数据
# 确定全球资源定位器(统一资源定位器)地址
# URL= https://www。窦寅。 com/video/7064550745437146383
# 模拟浏览器伪装大蟒代码设置请求头参数
标题={
# 无论是否有登陆都有甜饼干
曲奇:窦印。comTT wid=1 HJ 5s 1 edw 817 sdfa 5 u 5 hnifjpps-XPS 4 LV 7 VC 7d qnm 60 1652797030 21e 300 be 59 bef 00949 a7d 8 f 790 bee EB 4 db 77670205394 cc 7 CCE 9 DCD 0229 b 5 e 95;奥丁_ TT=fded 742 FD 6268 e 282962 a 1c 63d 4 f 62 e 37 e 3 BD 8950387213 e 5 A8 BF 5d 86 daef 284 ad 8 b 9 c 31 FB 69 e 43d 70253 ECA 40 fdb 3 FD 0 dad 5 ea 27 c 7288 DC 9 f 4910 ffcd 7 CCE 1;s _ v _ web _ id=verify _ l5 rpgfoe _ 2fbyep 85 _ x7NT _ 4 LNS _ 8 MMC _ nbhk 2 mpoabm;passport _ csrf _ token=512069 ECB 5 db 0 a 00d 52 DBE f 10 af 4d c 80;passport _ csrf _ token _ default=512069 ECB 5 db 0 a 00d 52 DBE f 10 af 4d c 80;strategyABtestKey=1659508208.59;download _ guide=" 1/20220803 ";THEME _ STAY _ TIME=" 299791 is _ HIDE _ THEME _ CHANGE=" 1 _ _ AC _ nonce=062 ea 61 cf 0015449 b 429 c;_ _ AC _ signature=_ 02 B4 z 6 wo 00 f 01 qbh 60 aaaidcicgmracbkcokgqe .AAMr-cutaxyuwecacumtmehp 6 mqidwv 2 ueaokf 6 bgwnkjhr-hyqgetr 3 ihhks 3 znrqmvrw 201.2 sfc huf 9 iyc 773 w 0 pl 8 pgdrzdjomuyxe 4;douyin.com;home _ can _ add _ dy _ 2 _ desktop=" 1tt _ scid=JJ6iYRr .zdt E5 je 0 Li 2 itvxgisufjnqjcwa 52 nak 039 muvi 2m 0 tfo aehxutbs 5 dr 4460;ms token=YBz-bw7m 8 hhfhpyqmrwof vkqhxmfcy 5 czz 5 cwtgwgaklgelheww 4wk 067 p 3 bi 2 iks uw 7 vbx 7 ukg 2 JB 1 niftisxpdv-vue 9 YY 6 lhxoikpqdg 9 ojveqs=;ms token=b 66 a2 vculfhy 3 ax _ Vf9 _ z5Lk-sm E5-nngqxkkpoajm 42 syqswlg 9 qu tm2 HR 6 xw 4 rzypkgho 7 yzt 92 wxl 4 NJ 3fu 2 ebimizuzuzujrvjww-6 iwdflwvfm 9 NP 7 OSW=,
用户代理: Mozilla/5.0(Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/101.0.0.0 Safari/537.36
}
# 发送请求左边全球资源定位器(统一资源定位器)是得到请求方法里面形式参数右边全球资源定位器(统一资源定位器)是我们自定义变量,传入进去参数
response=requests.get(url=url,headers=headers)
# 打印响应对象回应【200】
打印(响应)
# 2.获取数据打印(响应。文本)
3.解析数据-根据返回数据类型内容以及你想要数据内容选择最方便合适解析方法
是正则表示式直接可以对于字符串数据进行提取
除非说我们用是提取说出来之后,是数据数据格式,然后通过数据类型转换之后,再用字典取值
# 提取标题
title=re。find all( title data-react-helmet= true ).*?)/title ,response.text)[0]
#
html _ DATA=re。find all( script id= RENDER _ DATA type= application/JSON ).*?)/script ,response.text)[0]
# 解码-请求简单使用方法系统课程都教授了
# requests.utils.unquote解码requests.utils报价编码
html _ data=请求。utils。联合国报价(html _ data)
# 转换数据类型
json_data=json.loads(html_data)
# 字典取值字典取值,根据冒号左边的内容,提取冒号右边的内容
video _ URL= https: JSON _ data[ 75 ][ a weme ][ detail ][ video ][ bitRateList ][0][ playAddr ][0][ src ]
打印(标题)
打印(视频_网址)
# 保存数据
视频内容=请求。get(URL=video _ URL,headers=headers).内容
用打开( video\\ title .mp4 ,mode=wb )作为女:
f .写(视频内容)
例外情况为e:
打印(五)
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。