python反反爬虫,字体反爬虫
大家好,本文主要讲python Chace.com字体反抓取的例子。有兴趣的同学过来看看,如果对你有帮助记得收藏。
00-1010查看实战场景字体实战解码字体防爬编码时间
目录
这次收集的目标地点是刘升,测试地点如下图所示。
目标站点URL如下
www.chacewang.com/chanye/news?新闻类型=sbtz
这个网站的新闻信息很容易收集。通过开发者工具查了一下,没有加密和反爬。
但是字体抓取依然存在,案件搜索过程非常简单。你只需要开发者工具切换到网络,字体视图,然后预览字体文件。
你可以看到只有数字的顺序改变了。
下一步是实际的解码过程。可以通过FontCreator查看字体内容。
查策实战场景
下载一个随机的字体文件打开,就有事情发生了。字体文件的内容如下。
除了简单的数字,还有大量的汉字,即存在网页中部分汉字被替换的可能性。
让我们拿一个单词[类]来测试一下。
搜索结果页面,发现没变,通过计算样式,得到的字体是平方和?
可能网站升级后,只保留了字体的数字部分。
这样的话整体难度就降低了~
我们随机访问一个页面来获取它的源内容。
要访问公告信息,您需要提前登录并注册一个帐户。
导入请求
标题={
内容类型 : 应用程序/json ,
用户代理“:”Mozilla/5.0(Windows NT 10.0;Win64X64)您的UA信息,
referer : https://www . chace Wang.com/chanye/news?新闻类型=sbtz ,
cookie 3360 city info={ " city code " : " register area _ hbdq _河北_石家庄"," cityname" 3360 "石家庄" };您的COOKIES信息
}
RES=requests . get( https://www . chace Wang.com/news/detail?guid=kzwvlqpbbvge 5 AXB 67k 4 xqy 734 mng 6 ayo ,headers=headers)
打印(研究文本)
运行结果代码后,返回了一堆乱码。
橡皮擦以为有什么加密逻辑,结果发现放错地方了。这只是一个异步加载,真正的数据接口在下面。
web.chace-ai.com/api/gov/news/getDetailById/?id=kzwvlqpbbvge 5 AXB 67k 4 xqy 734 mng 6 ayo
一旦改变接口,就可以获得数据。
导入请求
标题={
内容类型 : 应用程序/json ,
用户代理“:”Mozilla/5.0(Windows NT 10.0;Win64x64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/101 . 0 . 4951 . 54 Safari/537.36 ,
referer : https://www . chace Wang.com/chanye/news?新闻类型=sbtz ,
授权 3360 无记名eyj 0 exaiijkv 1 qil cjh bgcioiijuzi 1 ni每次登录时都会切换该值
}
RES=requests . get( https://web . chace-ai.com/API/gov/news/getDetailById/?id=kzwvlqpbvge 5 AXB 67k 4 xqy 734 mng
6ayo, headers=headers)
print(res.text)
此时也发现了数据差异,接口返回和页面展现,差异如下所示。
此时字体反爬逻辑已经发现,但是字体文件还存在如下逻辑:
- 每次请求有 2 个字体文件,确定哪一个影响;
- 字体文件每次刷新都会产生变化;
- 字体文件名每次刷新都会产生变化。
解决第一个问题,确定目标字体文件,该操作很简单,只需要通过文件替换规则比对即可,例如下图中响应中的 0 被替换为 2。
解决第三个问题,如何获取字体文件名。
在网络视图页面,唤醒搜索框,搜索字体文件名,发现其在 2 个请求中出现。第一个是字体文件,第二个是我们上文请求的数据接口。
检索之后发现字体文件名在接口返回的 news_set
参数中,并且是部分字符串,稍后我们截取字符串即可。
字体反爬编码时间
下面我们编写获取字体文件的代码,如下所示,下述代码注意自行获取一下 UA 值和 authorization 值。
import requestsheaders = {
"content-type": "application/json",
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) ",
"Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz",
"authorization": "Bearer "
}
res = requests.get(https://web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo, headers=headers)
# 获取字体文件名
font_name = res.json()[data][news_set][:16]
res = requests.get(fhttps://web.chace-ai.com/media/fonts/{font_name}.woff, headers=headers)
# 保存字体文件
file_woff =f./fonts/{font_name}.woff
with open(file_woff, wb) as f:
f.write(res.content)
后续逻辑就变得简单了,本文仅展示字体呈现部分逻辑,其安装 fontTools
模块,并使用下述命令行导入相关功能。
from fontTools.ttLib import TTFont
字体文件读取代码如下所示。
# 读取文件with open(file_woff, rb) as font_file:
font = TTFont(io.BytesIO(font_file.read())) # 转换成字体对象
print(font)
# 获取 cmap
font_obj = font[cmap]
# 获取 cmap table
font_tables = font[cmap].tables
uni_list = font[cmap].tables[0].ttFont.getGlyphOrder()
print(uni_list[2:12])
查策,查策,就这么简单的解决了站点
到此这篇关于python超详细实现字体反爬流程的文章就介绍到这了,更多相关python字体反爬内容请搜索盛行IT软件开发工作室以前的文章或继续浏览下面的相关文章希望大家以后多多支持盛行IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。