python爬虫需要安装什么库,python爬虫需要安装什么扩展库

  python爬虫需要安装什么库,python爬虫需要安装什么扩展库

  世界上80%的爬虫都是基于Python开发的。学好爬虫技能可以为后续的大数据分析、挖掘和机器学习提供重要的数据源。

  python爬虫需要安装相关库:

  python中涉及的库:

  请求库、分析库、存储库、工具库

  1.请求库:urlib/urllib/re/requests

  (1) urllib/re默认是python自带的库,可以通过以下命令验证:

  没有错误信息输出,表示环境正常。

  (2)请求安装

  2.1打开CMD并输入

  3 pip3安装请求2.2等待安装,然后验证。

  (3) selenium安装(驱动浏览器访问网站)

  3.1打开CMD并输入

  Pip3安装硒鼓3.2安装chromedriver

  网站:https://npm.taobao.org/

  解压下载的压缩包,把exe放到D:\Python3.6.0\Scripts\

  只要在PATH变量中,这个路径就没问题。

  3.3等待安装完成,并验证

  回车,弹出chrome浏览器界面。

  3.4安装其他浏览器

  没有界面浏览器的幻想曲

  下载网址:http://phantomjs.org/

  下载后解压,将整个目录放在D:\Python3.6.0\Scripts\中,并将bin目录的路径添加到PATH变量中。

  验证:

  打开CMD

  浏览器

  console.log(phantomjs )

  拷贝

  大蟒

  从selenium导入web驱动程序

  driver=webdriver。幻象()

  dirver.get(http://www.baidu.com )

  Driver.page _ source2 .解析库:

  2.1 lxml (XPATH)

  打开CMD

  3 pip3安装lxml或者从https://pypi.python.org下载,比如lxml-4 . 1 . 1-cp36-cp36m-win _ amd64 . whl(MD5),先下载whl文件。

  3 pip3安装文件名。whl2.2 beautifulsoup

  要打开CMD,需要先安装lxml。

  3 pip安装美汤4验证

  大蟒

  从bs4导入BeautifulSoup

  Soup=beautiful soup (html/html , lxml) 2.3pyQuery(类似于jquery语法)

  打开CMD

  3 pip3安装pyquery验证安装结果

  大蟒

  从pyquery导入PyQuery作为pq

  doc=pq(htmlhi/html )

  result=doc(html )。文本()

  结果

  3.仓库

  3.1 pymysql(操作mysql,关系数据库)

  安装:

  3 pip3安装pymysql安装后测试:

  3.2 pymongo(操作MongoDB,键值)

  固定

  3 pip3安装pymongo验证

  大蟒

  导入pymongo

  client=pymongo。MongoClient(“本地主机”)

  db=客户端[testdb]

  db[表]。插入({name:bob})

  db[表]。find_one({name:bob})

  3.3 redis(分布式爬虫,维护爬行队列)

  安装:

  3 pip3安装redis验证:

  4.工具库

  4.1烧瓶(网络库)

  pip3安装烧瓶

  4.2 Django(分布式爬虫维护系统)

  3 pip3安装django 4.3 jupyter(在网页上运行的记事本,支持markdown,可以在网页上运行代码)

  3 pip3安装jupyter验证:

  打开CMD

  jupyter notebook之后可以直接在网页上创建记事本、代码块、Markdown块,支持打印。

  [相关建议]

  1.python爬虫库和相关工具

  2.python爬虫入门教程以上是Python爬虫需要安装的细节。更多信息请关注热门IT软件开发工作室其他相关文章!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: