利用python爬取简单网页数据步骤,python爬取网页数据库
python-html网络数据软件环境MAC 10。13 .1(17b 1003)Python 2。7 .10对代码1。18 .一摘要本文为练兵演示,主要使用美味的汤获取网络数据。
美味的汤介绍美味的汤提供了基于大蟒的简单功能,用于处理导航、搜索、分析树修改等。
美味的汤官方中文文档的特点很简单。这是一个工具箱,它通过为用户提供需要分析和捕获文档的数据好喝的汤,自动将输入文档转换为统一码编码,并将输出文档转换为utf-8编码美味的汤安装画中画(如有必要):sudo easy_install pip安装美丽的汤:sudopipinstall beautifulsoup第4组示例本示例请参考下图。
确定数据范围此示例是获取项目列表,打开铬调试栏,然后找到相应的位置。如下图所示。
importsysimportjsonimporturlli 2 ashttputlsimporturllibasurlutilsfrombs 4 importbeautiulsoup获取页面信息(分页)defgethtml)页面) : 获取指定页码的网页数据URL= https://box.XXX.com/project/list 值={ 类别:速率:数据=urlutils。urlencode(values)调试日志http handler=http utils。httphandler)debug level=1 https handler=http utils data)请求。get _ method=lambda: get try:response=http utils。URL打开(请求,超时=10,除了跃点代码):printerr。codeifhasattr)err, reason (3360 printerr。reasonreturnnone other:print ===http请求的URLdata:访问统一资源定位器时发送的数据超时:的超时时间http utils。build _ opener)http处理程序,http BeautifulSoup对象soup=beautifulsoup(html,创建“html。解析器”(html。解析器)以获取遍历对象项目数的是列表物品=汤。find(attrs={ class : ro object)所需参数项目列表=[ ]分析如果项目=,则为3360获取n :继续#所需数据标题=项目。find(attrs={ class ))字符串。条)获取projectid=item .)string.strip(项目类型=item.find ) attrs={ class 3360 投资. span。stringp erring state= open ifpercentisnone:#融资完成百分比= 100% 状态=已完成总金额=项目。查找(attrs={ CLI shed)总金额=项目。find)state= open decimal list=item。find(attrs={ class : decimal-wrap } .find _ all)attrs={ class 1 .stringinveststate=item。find(attrs={ class : invest-item-typ pind))。=无:州=投资州。stringprofitspan=item。find(attrs={ class 3360 invest-item-rate })Finn ng利润=利润1利润2 term=item。find(attrs={ class : invest-item-maturity })find)attrs={ class 项目id :项目id,”类型":项目类型,百分比 总金额:总金额,投入金额 3360
技巧对超文本标记语言代码的分析主要是使用美丽的声音的几大对象:Tag,NavigableString,BeautifulSoup
本文参考:https://www . crummy . com/software/beautiful汤/bs4/doc/index.zh.html 3358 www .建c 956111111
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。