python爬虫需要安装什么库,python爬虫需要安装什么扩展库

　　世界上80%的爬虫都是基于Python开发的。学好爬虫技能可以为后续的大数据分析、挖掘和机器学习提供重要的数据源。

　　python爬虫需要安装相关库：

　　python中涉及的库：

　　请求库、分析库、存储库、工具库

　　1.请求库：urlib/urllib/re/requests

　　(1) urllib/re默认是python自带的库，可以通过以下命令验证：

　　没有错误信息输出，表示环境正常。

　　(2)请求安装

　　2.1打开CMD并输入

　　3 pip3安装请求2.2等待安装，然后验证。

　　(3) selenium安装(驱动浏览器访问网站)

　　3.1打开CMD并输入

　　Pip3安装硒鼓3.2安装chromedriver

　　网站：https://npm.taobao.org/

　　解压下载的压缩包，把exe放到D:\Python3.6.0\Scripts\

　　只要在PATH变量中，这个路径就没问题。

　　3.3等待安装完成，并验证

　　回车，弹出chrome浏览器界面。

　　3.4安装其他浏览器

　　没有界面浏览器的幻想曲

　　下载网址：http://phantomjs.org/

　　下载后解压，将整个目录放在D:\Python3.6.0\Scripts\中，并将bin目录的路径添加到PATH变量中。

　　验证：

　　打开CMD

　　浏览器

　　console.log(phantomjs )

　　拷贝

　　大蟒

　　从selenium导入web驱动程序

　　driver=webdriver。幻象()

　　dirver.get(http://www.baidu.com )

　　Driver.page _ source2 .解析库：

　　2.1 lxml (XPATH)

　　打开CMD

　　3 pip3安装lxml或者从https://pypi.python.org下载，比如lxml-4 . 1 . 1-cp36-cp36m-win _ amd64 . whl(MD5)，先下载whl文件。

　　3 pip3安装文件名。whl2.2 beautifulsoup

　　要打开CMD，需要先安装lxml。

　　3 pip安装美汤4验证

　　大蟒

　　从bs4导入BeautifulSoup

　　Soup=beautiful soup (html/html ， lxml) 2.3pyQuery(类似于jquery语法)

　　打开CMD

　　3 pip3安装pyquery验证安装结果

　　大蟒

　　从pyquery导入PyQuery作为pq

　　doc=pq(htmlhi/html )

　　result=doc(html )。文本()

　　结果

　　3.仓库

　　3.1 pymysql(操作mysql，关系数据库)

　　安装：

　　3 pip3安装pymysql安装后测试：

　　3.2 pymongo(操作MongoDB，键值)

　　固定

　　3 pip3安装pymongo验证

　　大蟒

　　导入pymongo

　　client=pymongo。MongoClient(“本地主机”)

　　db=客户端[testdb]

　　db[表]。插入({name:bob})

　　db[表]。find_one({name:bob})

　　3.3 redis(分布式爬虫，维护爬行队列)

　　安装：

　　3 pip3安装redis验证：

　　4.工具库

　　4.1烧瓶(网络库)

　　pip3安装烧瓶

　　4.2 Django(分布式爬虫维护系统)

　　3 pip3安装django 4.3 jupyter(在网页上运行的记事本，支持markdown，可以在网页上运行代码)

　　3 pip3安装jupyter验证：

　　打开CMD

　　jupyter notebook之后可以直接在网页上创建记事本、代码块、Markdown块，支持打印。

　　[相关建议]

　　1.python爬虫库和相关工具

　　2.python爬虫入门教程以上是Python爬虫需要安装的细节。更多信息请关注热门IT软件开发工作室其他相关文章！

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读