python爬虫需要安装什么库,python爬虫需要安装什么扩展库
世界上80%的爬虫都是基于Python开发的。学好爬虫技能可以为后续的大数据分析、挖掘和机器学习提供重要的数据源。
python爬虫需要安装相关库:
python中涉及的库:
请求库、分析库、存储库、工具库
1.请求库:urlib/urllib/re/requests
(1) urllib/re默认是python自带的库,可以通过以下命令验证:
没有错误信息输出,表示环境正常。
(2)请求安装
2.1打开CMD并输入
3 pip3安装请求2.2等待安装,然后验证。
(3) selenium安装(驱动浏览器访问网站)
3.1打开CMD并输入
Pip3安装硒鼓3.2安装chromedriver
网站:https://npm.taobao.org/
解压下载的压缩包,把exe放到D:\Python3.6.0\Scripts\
只要在PATH变量中,这个路径就没问题。
3.3等待安装完成,并验证
回车,弹出chrome浏览器界面。
3.4安装其他浏览器
没有界面浏览器的幻想曲
下载网址:http://phantomjs.org/
下载后解压,将整个目录放在D:\Python3.6.0\Scripts\中,并将bin目录的路径添加到PATH变量中。
验证:
打开CMD
浏览器
console.log(phantomjs )
拷贝
大蟒
从selenium导入web驱动程序
driver=webdriver。幻象()
dirver.get(http://www.baidu.com )
Driver.page _ source2 .解析库:
2.1 lxml (XPATH)
打开CMD
3 pip3安装lxml或者从https://pypi.python.org下载,比如lxml-4 . 1 . 1-cp36-cp36m-win _ amd64 . whl(MD5),先下载whl文件。
3 pip3安装文件名。whl2.2 beautifulsoup
要打开CMD,需要先安装lxml。
3 pip安装美汤4验证
大蟒
从bs4导入BeautifulSoup
Soup=beautiful soup (html/html , lxml) 2.3pyQuery(类似于jquery语法)
打开CMD
3 pip3安装pyquery验证安装结果
大蟒
从pyquery导入PyQuery作为pq
doc=pq(htmlhi/html )
result=doc(html )。文本()
结果
3.仓库
3.1 pymysql(操作mysql,关系数据库)
安装:
3 pip3安装pymysql安装后测试:
3.2 pymongo(操作MongoDB,键值)
固定
3 pip3安装pymongo验证
大蟒
导入pymongo
client=pymongo。MongoClient(“本地主机”)
db=客户端[testdb]
db[表]。插入({name:bob})
db[表]。find_one({name:bob})
3.3 redis(分布式爬虫,维护爬行队列)
安装:
3 pip3安装redis验证:
4.工具库
4.1烧瓶(网络库)
pip3安装烧瓶
4.2 Django(分布式爬虫维护系统)
3 pip3安装django 4.3 jupyter(在网页上运行的记事本,支持markdown,可以在网页上运行代码)
3 pip3安装jupyter验证:
打开CMD
jupyter notebook之后可以直接在网页上创建记事本、代码块、Markdown块,支持打印。
[相关建议]
1.python爬虫库和相关工具
2.python爬虫入门教程以上是Python爬虫需要安装的细节。更多信息请关注热门IT软件开发工作室其他相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。