Python数据分析处理,基于python的数据处理案例
本文主要介绍python数据处理的细节。文章通过一个json文件的数据表详细讲解了这个主题,有一定参考价值的朋友可以使用。
00-1010 I,前言II,python模块2.1,添加非索引字表2.2,顺序读取2.3,lambda函数III,运行3.1,保存在文件中。
目录
现在我们有一个非常大的数据集。这是一个json文件,其中存储了近10万个数据。现在是清理数据的时候了。
一,前言
导入json
进口洁霸
我们需要用json模块来处理json文件,用jieba库来分析词性,这些都可以满足我们的要求。
二,python模块
停止词汇。txt,并保存停用词。原因是:我们的目标分析json中有一些标点符号。
open (stoplist.txt ,encoding= UTF-8 )中的行的Stopwords=[line.strip()。readlines ()]
基本如图所示:
Str (b) c这是文件名,a b c=。/json/poem.song.0.jsonb递增实现动态取值。
用open(a str(b) c, r ,encoding=utf8 )作为fp:
因为有将近500个json文件。每个文件中有成千上万组数据。我现在正在尽力优化代码。现在,提取所需数据并将其存储在文件中大约需要五分钟。
2.1,增加停用词表
定义一个空字符串,将json对象转换为python对象。定义一个空列表来存储诗句。对其中的每个元素循环json_data i。添加到list_paragraphs列表中的新循环j是其中的每个句子。代码如图所示:
用街霸库分析str内容的词性【注意名字,动词。】巧合的是排名输出是两个字,没有字数限制。
words=jieba.lcut(str_s)
现在words就是分析出来的词性列表,遍历。
排除特殊符号
对于word中的words:
如果词不在停用词中:
if len(word)==1:
继续
else:
计数[word]=计数. get(word,0) 1
出现的频率增加一。
2.2,顺序读取
使用lambda函数,快速排序并遍历输出频率的前50个词类。
items . sort(key=lambda x : x[1],reverse=True)
然后分配单词,计数。
word,count=items[i]
打印( {:10}{:7} )。格式(字数、字数)
2.3,lambda函数
三,运行
f=打开( towa.txt , a ,编码=gb18030 )
f . writelines( Topic : text XXX)
f.writelines(word_ping)
这就是这篇关于python数据处理细节的文章。有关python数据处理的更多信息,请搜索热门IT软件开发工作室之前的文章或继续浏览下面的相关文章。希望你以后能支持风行IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。