正则提取文本,正则表达式提取txt数据

  正则提取文本,正则表达式提取txt数据

  批量读取某个文件夹中的txt文件,找出网址。

  import re import OS path=r g:\ python code \ Zhengze #此文件目录存储要提取的txt文件file _ path=[]for Filename in OS . listdir(path):#获取path file _ path下所有文件的路径. append ((os.path.join (path,Filename)))print (file_path)#调用正则函数过滤每个文本,过滤后的数据存储在file _ path中的数组final for address:file _ object=open(adress, Rb )lines=file _ object . readlines()#将文本的内容赋给lines file _ object . close()new _ lines=[]for x in lines:new _ x=x . split()#注意:splitlines是将传入的字符串中的 \n 去掉,然后以数组的形式发出,而不是new_x:try中I的字符串形式:使用# Try是因为捕获的txt文件会有utf-8无法解析的字符,所以需要跳过data=I; data=data . decode( utf-8 )match _ obj=re . search(r https://。*,data)if match _ obj:new _ lines . append(match _ obj . group())except:continue final=new _ lines file _ 2=open(r g:\ python code \ Wang zhi 1 . txt ,W )#创建一个新的txt文本来存储提取的URL for x in final:for k in range(len(x)):if(x[k]== ):# URL两端可能存在,需要处理掉。x=x[:k]break;file _ 2 . write(x)file _ 2 . write( \ n )file _ 2 . close()

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: