python爬取中国大学排名,Python爬虫爬取中国大学排名

　　本文主要介绍Python爬虫对国外桥牌排行榜的获取。文章通过PyQuery解析框架展开全文细节，需要的朋友可以参考一下。

　　00-1010目标站点分析编码时间前言：

　　这个例子开始学习PyQuery解析框架，对于从前端转Python的朋友来说非常友好，因为它模拟了JQuery操作。

　　在开始之前，将pyquery安装到本地开发环境中。命令如下：pip安装pyquery，我用的版本是1.4.3。

　　用法基本如下。理解了，就能掌握50%。就这么简单。

　　从pyquery导入PyQuery作为pq

　　s= py query html title eraser/title/html的课堂

　　doc=pq(s)

　　打印(文档(标题))

　　输出如下内容：

　　PyQuery标题橡皮擦/标题教室

　　也可以直接把要解析的URL的URL传递给pyquery对象代码如下所示：.

　　从pyquery导入PyQuery作为pq

　　url=https://www.bilibili.com/

　　doc=pq(url=url，编码=utf-8 )

　　打印(doc( title )# titlecheers ~-哔哩哔哩/title

　　同理，也可以通过文件初始化pyquery对象，只需将参数改为filename即可。

　　基础打好之后，就可以进入实操环节了。下面是这次要捕捉的目标案例分析。

目标站点分析

　　正式编码前，先拿第一页进行练手：

　　从pyquery导入PyQuery作为pq

　　URL= http://www . highest bridges.com/wiki/index . PHP？ title=List _ of _ Highest _ International _ Bridges/Page _ 1

　　doc=pq(url=ur

　　l, encoding=utf-8)

　　print(doc(title))

　　def remove(str):

　　 return str.replace("

　　", "").replace("\n", "")

　　# 获取所有数据所在的行，下面使用的是 css 选择器，称作 jquery 选择器也没啥问题

　　items = doc.find(table.wikitable.sortable tr).items()

　　for item in items:

　　 td_list = item.find(td)

　　 rank = td_list.eq(1).find("span.sorttext").text()

　　 name = td_list.eq(2).find("a").text()

　　 height = remove(td_list.eq(3).text())

　　 length = remove(td_list.eq(4).text())

　　 completed = td_list.eq(5).text()

　　 location = td_list.eq(6).text()

　　 country = td_list.eq(7).text()

　　 print(rank, name, height, length, completed, location, country)

　　代码整体写下来，发现依旧是对于选择器的依赖比较大，也就是需要熟练的操作选择器，选中目标元素，方便获取最终的数据。

　　将上述代码扩大到全部数据，修改成迭代采集：

from pyquery import PyQuery as pq
　　import time
　　def remove(str):
　　 return str.replace("
　　", "").replace("\n", "").replace(",", "，")
　　def get_data(page):
　　 url = "http://www.highestbridges.com/wiki/index.php?title=List_of_Highest_International_Bridges/Page_{}".format(
　　 page)
　　 print(url)
　　 doc = pq(url=url, encoding=utf-8)
　　 print(doc(title))
　　 # 获取所有数据所在的行，下面使用的是 css 选择器，称作 jquery 选择器也没啥问题
　　 items = doc.find(table.wikitable.sortable tr).items()
　　 for item in items:
　　 td_list = item.find(td)
　　 rank = td_list.eq(1).find("span.sorttext").text()
　　 name = remove(td_list.eq(2).find("a").text())
　　 height = remove(td_list.eq(3).text())
　　 length = remove(td_list.eq(4).text())
　　 completed = remove(td_list.eq(5).text())
　　 location = remove(td_list.eq(6).text())
　　 country = remove(td_list.eq(7).text())
　　 data_tuple = (rank, name, height, length, completed, location, country)
　　 save(data_tuple)
　　def save(data_tuple):
　　 try:
　　 my_str = ",".join(data_tuple) + "\n"
　　 # print(my_str)
　　 with open(f"./data.csv", "a+", encoding="utf-8") as f:
　　 f.write(my_str)
　　 print("写入完毕")
　　 except Exception as e:
　　 pass
　　if __name__ == __main__:
　　 for page in range(1, 14):
　　 get_data(page)
　　 time.sleep(3)