Python 读取数据,python集合操作 读取
citeseer数据集的读取和处理惊了,论文里面citeseer数据集的节点数是3327,然而找了一圈,节点数都是3312。因为节点的缺失,程序还出现了不少错误。
文档分类数据集包含3312种科学出版物,分为六类之一。引用网络由4732个链接组成。数据集中的每个出版物都用0/1值的词向量描述,该词向量指示字典中是否存在相应的词。该词典包含3703个独特的单词。数据集中的自述文件文件提供了更多详细信息下载链接:https://linqs-data . SOE . ucsc . edu/public/lbc/citeser . tgz这些论文分为以下六类之一:AgentsAIDBIRMLHCI import numpy as NP import pandas as PD cs _ content=PD。read _ CSV( ./data/citeseer/citeseer。 content ,sep=\t ,header=None)cs _ content。shape(3312,3705) cs_cite=pd.read_csv( ./data/citeseer/citeseer.cites ,sep=\t ,header=None)cs_cite.shape (4732,2)CT _ idx=list(cs _ content。index)paper _ id=list(cs _ content。iloc[:0])paper _ id=[str(I)for I in paper _ id]#论文编号全部转换为字符串,纸张编号不都是整数值,惊了!mp=dict(zip(paper_id,CT _ idx))MP[ zamir 99 grouper ]1005 label=cs _ content。iloc[:-1]label=PD。get _ dummies(标签)标签。shape(3312,6) feature=cs_content.iloc[:1:-1]feature.shape (3312,3703)mlen=cs _ content。shape[0]adj=NP。I,j in的零((mlen,mlen))数据集有问题!在引用中有未出现过的paper _ id x=MP[str(I)]y=MP[str(j)]adj[x][y]=adj[y][x]=1 adj数组([[1。 0. 0. 0. 0. 0.], [0. 0. 0. 0. 0. 0.], [0. 0. 0. 0. 0. 0.], [0. 0. 0. 0. 0. 0.], [0. 0. 0. 0. 0. 0.], [0. 0. 0. 0. 0. 0.]特征=NP。数组(特征)标签=NP。数组(标签)adj=NP。阵列(调整)
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。