python中写入文件如何换行,python中把列变成行
要求
最近在作文本上分类,收到的数据很混乱。要进入下一步,即使分词是tfidf,也要先对数据进行分类。大蟒
元数据
有三万条。在一个excel中,每行有三列:id,内容(title_content),相对品种),每篇文章。全球信息技术
目标
按类别做子目录,按类别配置子目录中的文章,将每篇文章写入一个txt文件,以txt文件的标题作为文章idgithub。
自述文件
虽然用熊猫来导入excel,但是熊猫的逐行读取功能很好用。功能
虽然有些在线教程用xlrd,但是感觉有点复杂。此外,xlrd似乎有文件大小限制。熊猫体型相对不限,我的体感速度也很快。编码
路径操作采用Python标准库操作系统。网
也可以用同样的方法读取txt写入excel,读取csv写入excel。换个熊猫的文件读取功能就好了。Exel
熊猫真的很好用,代码
@版本:python3.6
@作者:chenyaooo
@ conc act:sunchingyo @ I cloud.com
进口熊猫作为PD
导入操作系统
Efcreatcatesdir(数据,目标):
创建类别目录
#去重后得到分类列表。
cates=list(数据[相对品种]。唯一() )
Cates,打印(类别)
对于cates中的cate:
连接子目录路径
最终路径=目标类别
尝试:
创建OS.mkdir(final_path) #目录
例外情况为e:
打印(字符串)
Excel 2 txt(数据,目标):
#创建一个类别目录
Creatcatesdir(数据,目标))。
逐个获取excel的内容。
对于索引,data.iterrows()中的行:
#文章内容
内容=行[标题内容]
#文件名-文章id
filename=row[id]
子目录-类别
cate=row[相对品种]
#连接文件路径
txt_path=target cate os.sep
#将文章内容写入txt
withopen(txt_pathstr(文件名))。txt)、(wt))表示为f:
F.write(内容)
defmain(:)
用熊猫导入excel
data=PD.read _ excel(。/data/processed/article _ breedies 20k _ TC . xls).
#必须预先创建主目录
目标文件=。/article/
Excel2txt(数据,目标文件))。
if __name__==__main__ :
Master())
python默认编码utf-8blog用于上述所有编码。
如果有更好的办法,请留言告诉我。学习课程
所有的数据组织都是为了下面的文本分类,建议用好的文本分类课程。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。