python爬虫存入数据库,python 爬取网页内容并保存到数据库
用爬虫爬取数据总是涉及到数据持久化,也就是数据存储的问题。下面这篇文章主要介绍一个关于Python爬虫获取数据并保存在数据库中的超详细教程。通过示例代码非常详细的介绍,有需要的朋友可以参考一下。
目录
1.导言2。通过Xpath 3访问页面信息。xpath爬虫练习3-1。访问XPath完整代码显示:摘要
1.简介介绍
-Web crawler(在FOAF社区中也称为web spider、web robot,更多情况下称为web chaser)是一种按照一定规则自动抓取万维网信息的程序或脚本。其他不常用的名称有蚂蚁、自动索引、模拟器或蠕虫。
-一般可以在浏览器上获取,也可以通过爬虫获取。常见的爬虫语言有PHP,JAVA,C#,C,python。为什么我们经常听说Python爬虫?这是因为Python爬虫相对简单,功能相对齐全。
2.Xpath获取页面信息
通过Xpath爬行是在获取页面的html后,通过路径的表达式选择标签节点,选择数据沿着路径爬行。
Xpath常用表达式:
表达式/从根节点(子节点)选择//选择当前节点,选择文档中的节点。选择当前节点。…选择当前节点的父节点。@ Select attribute *表示任何内容(通配符)运算符可以选择多个路径Xpath常用函数:.
函数用法说明开头为()XPath (//div [starts-with (@ id," celent")]) # Select div节点contains()XPath(//div[contains(@ id," celent))])# Select div节点和()XPath,其ID值包含celent (//div [contains (@ id," ce lent "),包含(@ id," in))])# Select div节点text () _。XPath(.
#案例1
#//从当前html中选择一个节点;[@class=c1text1]获取具有类c1text1的所有节点;/h1[1]是所选节点下的第一个h1节点。如果没有[1],则获取所有节点,通过循环可以获取数据。
etreehtml . XPath(//*[@ class= C1 text 1 ]/h1[1]/text())
#案例2
#//从当前html中选择一个节点;[@class=c1text1]获取具有类c1text1的所有节点;/a获取当前节点下的所有A标签节点,获取ObjectList获取for循环中每个标签的数据。/@src是获取当前节点的src属性值。
etreehtml 2=etreehtml . XPath(//*[@ class= C1 text 1 ]/a )
for _ in etreeHtml2:
etreeHtml.xpath(
./@src)
3.通过Xpath爬虫实操
本次实例以爬取我的CSDN文章列表信息保存到数据库为案列
3-1.获取xpath
通过F12打开开发者模式,点击左上角图标可参考下图,选择需要爬取数据的容器,在右边选择复制选择xpath就可以得到xpath路径了(//*[@id=userSkin]/div[2]/div/div[2]/div[1]/div[2]/div/div);
完整代码展示:
# 导入需要的库import requests
from lxml import etree
import pymysql
# 文章详情信息类
class articleData():
def __init__(self, title, abstract, path,date):
self.title = title #文章名称
self.abstract = abstract #文章摘要
self.path = path #文章路径
self.date = date #发布时间
def to_string(self):
print("文章名称:"+self.title
+";文章摘要:"+self.abstract
+";文章路径:"+self.path
+";发布时间:"+self.date)
#保存狗狗详情数据
#保存数据
def saveData(DataObject):
count = pymysql.connect(
host=xx.xx.xx.xx, # 数据库地址
port=3306, # 数据库端口
user=xxxxx, # 数据库账号
password=xxxxxx, # 数据库密码
db=xxxxxxx # 数据库名
)
# 创建数据库对象
db = count.cursor()
# 写入sql
# print("写入数据:"+DataObject.to_string())
sql = f"insert into article_detail(title,abstract,alias,path,date) " \
f"values ({DataObject.title},{DataObject.abstract},{DataObject.path},{DataObject.date})"
# 执行sql
print(sql)
db.execute(sql)
# 保存修改内容
count.commit()
db.close()
# 爬取数据的方向
def getWebData():
# 网站页面路径
url = "https://blog.csdn.net/BadBoyxiaolin?spm=1000.2115.3001.5343"
# 请求头,模拟浏览器请求
header = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"
}
# 获取页面所有节点代码
html = requests.get(url=url, headers=header)
# 打印页面代码查看
# print(html.text)
# 如果乱码可以设置编码格式
# html.encoding = gb2312
# 通过xpath获取数据对应节点
etreeHtml = etree.HTML(html.text)
dataHtml = etreeHtml.xpath(//*[@class="mainContent"]/div/div/div)
# 循环获取数据
for _ in dataHtml:
# .join()是将内容转换为字符串可以后面接replace数据进行处理
title = .join(_.xpath(./article/a/div[1]/h4/text()))#文章标题
abstract = .join(_.xpath(./article/a/div[2]/text()))#文章摘要
path = .join(_.xpath(./article/a/@href))#文章路径
date = .join(_.xpath(./article/a/div[3]/div/div[2]/text())).replace( ,).replace(·,).replace(发布博客,)#发布时间
#初始化文章类数据
article_data = articleData(title,abstract,path,date)
article_data.to_string() #打印数据看看是否对
#保存数据到数据库
# saveData(article_data)
if __name__ == "__main__":
getWebData()
总结
到此这篇关于Python爬虫获取数据保存到数据库中的文章就介绍到这了,更多相关Python爬虫数据保存到数据库内容请搜索盛行IT软件开发工作室以前的文章或继续浏览下面的相关文章希望大家以后多多支持盛行IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。