python爬虫快速入门,python爬虫代码
1.说明数据挖掘往往需要抓取网页内容,有些工具通过分析url中的链接就可以抓取整个网站,也就是我们常说的爬虫工具。
有时候需要抓取交互网页的内容,比如在输入框中输入想要的内容,在服务器端实时计算结果,或者从数据库查询后返回结果。像整句翻译功能,查询食物的热量等等。下面是Python如何通过GET和POST来捕获实时内容。
2.GET方法GET方法把要查询的参数放在url地址里,非常简单。下面的例子使用Python程序来查询运单信息,编写如下:
导入urllib.request
url=http://cha.xxx.cn/?stype=kd q=123456
req=urllib.request.Request(url)
html=URL lib . request . urlopen(req)。阅读()
print(html . decode( utf8 ))GET way,带问号和等号“addr?Key=value”,要查询的内容以明文传输到服务器。此时,您可以打印出html网页的内容。所以python的网络工具真的很方便。
有时候需要查询一些中文信息,比如樱桃的热量,需要把文字改成汉字。您可以使用以下方法:
#-*-编码:utf-8 -*-
导入urllib.request
导入urllib.parse
URL= http://www . XXX . com/food/search
postdata=urllib . parse . urlencode({
关键词:樱桃
}).编码(“utf-8”)
req=urllib.request.Request(url,postdata)
html=URL lib . request . urlopen(req)。阅读()
打印(HTML。Decode (UTF8)) 3。Post方法POST方法比较复杂,常用来传递用户名、密码等不可见的参数。使用时的主要问题是:不知道程序定义的键是什么。一般可以查看页面源代码,看其表单的输入中是如何定义的,但有时候源代码中会调用其他程序来实现,直接看不到关键词。下面介绍如何使用浏览器提供的工具检查本地和服务器之间的交互信息来确定关键词。
在浏览器(最好是chrome或chromium)中打开翻译网站,按F12打开调试工具。选择网络选项卡。
在输入框中输入要翻译的内容“cherry”。点击“翻译”按钮,查看调试工具的核心步骤是检测当前语言“langdetect”并翻译“v2transapi”。点击此项查看请求的具体内容和返回值。以检测当前语言为例,其中请求内容包含其请求URL(http://fanyi.baidu.com/langdetect)和关键字(post参数查询)。用Python设置就行了。具体方法如下:
#编码:utf-8
导入请求
URL= http://fanyi . XXX . com/lang detect
D={query: cherry}
r=requests.post(url,data=d)
Print(r.text)此时返回json字符串,数据更少更容易解析。
版权归作者所有:原创作品来自博主xieyan0811,转载请联系作者获得授权,否则将追究法律责任。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。