用python做回归分析案例,Python文本分析
数据来源于天池竞赛题:零基点入门数据分析——学术前沿趋势分析。
地址:天池3359号。一个liyun.com/competition/entrance/531866/information
1.原理介绍社会网络分析是图关系挖掘的一个分支,通常以图的形式展现人际关系网络。在人员关系图中,节点代表人员,节点之间的连接表明这些人员之间存在关系。网络中节点越多,社会网络越大;联系越多,联系越紧密。此外,线条的粗细也可以用来表示社交关系的轻重,即关系的亲密程度。
这里,通过绘制关系图来研究论文中的作者关系。
二、代码实现# packageimport seaborn as sns #导入所需的用于绘制from bs4 import beautiful soup # arxiv数据的导入re #正则表达式,与string一致的模式导入我们的数据是json格式导入熊猫as pd #数据处理。分析数据导入matplotlib.pyplot作为plt #绘图工具导入警告。过滤器警告( ignore 的含义)数据defreadarxivififiore authors , title , comments , journal-ref , doi , report-no , categories , Lili ties authon count=none]:" "表示列计数的读取行数,必须在用于读取文件的函数路径的文件路径列中选择。" " Data=[] withopen在线枚举(f):if idx==count:break=JSON . loads)line)d={ col:d[col]Colincolumns } Data . Data=PD . Data frame(Data)返回数据Data=readarxivfile)(f:/Data/arxiv-metadata-OAI-2019。JSON),()200000)导入networkx为nx #绘制无向图g=NX.graph(#此处选择作者关系图为rowindata.iloc [:15]。ITER元组)的前15篇论文)作者=[ 。Join [x [:-1]] ForxinAuthors] #第一作者为forauthorinauthors [133333
从上图可以看出,关系图的中间网状部分节点最多,也就是说在这个子社交网络上合作最多的人最多,称为最大连通子图。为了得到更完整的作者关系,接下来,我们选择画最大连通子图,以线图作为子图的节点度值。
degree _ sequence=sorted([d forn,ding。Degree(],reverse=True)dmax=max)Degree _ sequence)PLT . log log marker= o )PLT . title(degreerankplot))PLT . ylabel))gcc=g . subgraph(sorted(NX . connected _ components)g),key=len,reverse=True(0))pos=NX . spring _ n
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。