python爬取基金数据,python爬虫数据存储
本文主要介绍python爬虫的资金信息存储。我们之前讲了很多关于数据存储的内容,最后在上一篇文章中完成了数据库的设置。本文将完成数据存储操作的介绍,有需要的可以参考。
00-1010 1前言2信息存储2.1基金基本信息存储2.2基金变动信息获取3有待改进的领域3.1基金类型3.2基金更新顺序4摘要
目录
我们之前讲了很多二级数据存储,最后在上一篇文章中完成了数据库的设计。在本文中,我们开始了数据存储操作。在这部分数据存储中,我们会存储之前抓取的基金列表、基金基本信息、基金变动信息、ETF信息。
1 前言
2 信息存储
这里获取资金信息包括两部分,一部分是场外资金,另一部分是场外资金信息。在上一篇文章中,我们已经完成了OTC基金和ETF基金的代码,所以我们只需要在这里存储数据库。那么就有一个问题,资金的信息是随时变化或者更新的。保存时需要判断资金编码是否已经存在,存在就更新,不存在就添加。但是,这有点低效。此时将使用之前的文章内容,在一个sql中可以使用关于重复键更新的语句。
举例如下所示:
插入` tb _ fund _ list` (`code `,` name `,` fund _ type `)值( 00363 ,国泰聚鑫价值优势混合C ,混合灵活)
on duplicate key update ` code `= 00363 ,` name`=国泰聚鑫价值优势混合C ,` fund_type`=混合灵活;
如果000363基金存在,我们会更新。如果它不存在那么久,我们将插入数据。
具体实现的代码如下图所示:
2.1 基金基本信息存储
无论是场内基金还是场外基金,获取资金变动信息的方式都是一样的。这里可以用一般的逻辑进行处理,也就是之前捕捉资金的变动信息和价格信息的方式。
2.2 基金变动信息获取
3 需要改进的地方
目前基金基本信息中的基金类型仍为中文,存储时不符合常用编码标准。之前没有处理是因为我们还不知道基金的种类有多少,现在已经全部拿到了。这时候我们需要查询所有的基金类型,然后设置一个枚举来表示不同的基金类型。
#获取所有基金类型信息
从tb_fund_list中选择不同的fund _ type
根据查询出来的基金类型,最终定义的基金类型如下图所示:
fund_type_dic={
QDII: 1 :
商品(不含QDII): 2 ,
股票类型 3360 3 :
指数股票 : 4 :
混合部分债务 : 51 :
混合型-偏股 3360 52 ,
混合平衡 : 53 ,
混合动力-灵活 : 61 ,
债券类型-短期和中期债务 : 62 :
债券-可转换债券 : 63 :
债券混合债券 3360 64 :
债券-长期债券 : 65
}
根据经验,债券基金相对较多。如果你对债券基金感兴趣
数据可以不时更新。在随后的操作中,以非债券基金为主分析。数据总量比较小,批量更新时间比较短。
3.1 基金类型
在之前的基金获取过程中,一般来说,获取顺序比较混乱,在存储最终数据结果时,需要对获取的信息基金进行拼接和组装。最终的更新数据序列是:
1更新场外基金列表(新增或更新)2更新ETF信息列表(新增或更新)3查询基金基本信息进行更新操作4查询基金阶段性变动信息进行更新。
3.2 基金的更新顺序
已成功获取并保存基金信息。在下一章中,我们将介绍如何建立一个线性模型来评估基金的得分,并对投资基金进行定量分析。
关于python爬虫的资金信息存储的这篇文章到此为止。关于python信息存储的更多信息,请搜索热门IT软件开发工作室之前的文章或者继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。