Python 读取数据,python集合操作读取

　　citeseer数据集的读取和处理惊了，论文里面citeseer数据集的节点数是3327,然而找了一圈，节点数都是3312。因为节点的缺失，程序还出现了不少错误。

　　文档分类数据集包含3312种科学出版物，分为六类之一。引用网络由4732个链接组成。数据集中的每个出版物都用0/1值的词向量描述，该词向量指示字典中是否存在相应的词。该词典包含3703个独特的单词。数据集中的自述文件文件提供了更多详细信息下载链接：https://linqs-data . SOE . ucsc . edu/public/lbc/citeser . tgz这些论文分为以下六类之一：AgentsAIDBIRMLHCI import numpy as NP import pandas as PD cs _ content=PD。read _ CSV( ./data/citeseer/citeseer。 content ，sep=\t ，header=None)cs _ content。shape(3312，3705) cs_cite=pd.read_csv( ./data/citeseer/citeseer.cites ，sep=\t ，header=None)cs_cite.shape (4732，2)CT _ idx=list(cs _ content。index)paper _ id=list(cs _ content。iloc[:0])paper _ id=[str(I)for I in paper _ id]#论文编号全部转换为字符串，纸张编号不都是整数值，惊了！mp=dict(zip(paper_id，CT _ idx))MP[ zamir 99 grouper ]1005 label=cs _ content。iloc[:-1]label=PD。get _ dummies(标签)标签。shape(3312，6) feature=cs_content.iloc[:1:-1]feature.shape (3312，3703)mlen=cs _ content。shape[0]adj=NP。I，j in的零((mlen，mlen))数据集有问题！在引用中有未出现过的paper _ id x=MP[str(I)]y=MP[str(j)]adj[x][y]=adj[y][x]=1 adj数组([[1。 0. 0. 0. 0. 0.], [0. 0. 0. 0. 0. 0.], [0. 0. 0. 0. 0. 0.], [0. 0. 0. 0. 0. 0.], [0. 0. 0. 0. 0. 0.], [0. 0. 0. 0. 0. 0.]特征=NP。数组(特征)标签=NP。数组(标签)adj=NP。阵列(调整)

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读