Python创建一个文本文件,python提取p标签的文本

  Python创建一个文本文件,python提取p标签的文本

  这是《python基础教程第三版》的节目记录。这个博客的目的相信很多人都看到了下面这个问题。作为一个python初学者,很难理解实现过程。虽然网上有代码,但是有些细节还是让我很困惑,所以我就分享一下我的学习过程,希望能帮助到遇到同样问题的初学者。问题我就不多解释了,主要是代码。

  1.问题描述您想要为纯文本文件添加格式。假设你想用一个文件做网页,但是给你文档的人嫌麻烦,不愿意用HTML格式写。你不想手动添加所有你需要的标签,但是你想写一个程序来自动地做这件事。

  2.总体思路要在文本中插入标签,先把文本分成文本块,生成一组文本块。

  3.准备工作一个纯文本文档(test_input.txt)

  欢迎来到全球垃圾邮件公司。

  这些是全球垃圾邮件公司的公司网页。我们希望您在这里过得愉快,并尝试我们的许多产品。

  公司的简短历史

  全球垃圾邮件始于2000年夏天。其商业理念是借助网络浪潮,通过群发电子邮件和在线销售肉类罐头来赚钱。

  在收到一些客户对他们的大量电子邮件不满意的投诉后,全球垃圾邮件改变了他们的资料,将注意力100%集中在罐头食品上。如今,他们是世界上第13,892家在线垃圾邮件供应商。

  目的地

  从这个页面,您可以访问我们几个有趣的网页:

  什么是垃圾邮件?(http://wwspam.fu/whatisspam)他们是怎么做的?(http://wwspam.fu/howtomakeit)为什么要吃?(http://wwspam.fu/whyeatit)

  如何与我们联系

  您可以通过多种方式与我们联系:电话(555-1234)、电子邮件(wwspam @ wwspam.fu)或访问我们的客户反馈页面(http://wwspam.fu/feedback)。找出文本块首先要做的一件事就是将文本分成段落,即文本块一个文本块生成器(util.py)(注意理解,这句话是说这段代码是要将文本变成很多文本块)

  Def lines (file):对于文件中的行:yield line yield \ n #在末尾加一个空行,判断文本结束。def blocks(file): block=[] #一个空列表,用于保存行中行的读取字符(file): ifline.strip (): #去掉字符两端的空格和新的行块。Append (line) elifblock: yield“”。加入(区块)。Strip () #将列表中的字符连接成字符串block=[]。作为新手(主要是笨~),这段代码真的让

  逐步解释:

  第一,def lines(file):输出的都是单个字符,通过block.append(line)追加到列表中,然后通过yield 连接成一个字符串。加入(区块)。strip(),它是一个文本块。然后,列表被清除并再次循环,这样每次调用blocks时,都可以得到一个‘干净’的字符串,两端没有换行符和空格。

  其次,if line.strip():这里的判断条件,如果line是字符,则追加,如果line是新行或空格,则产生 。加入(区块)。strip(),同时确定这是这个文本块的结尾,这也解释了def lines(file):yield \n ,必须是

  先写到这里。

  历史提交的图片或压缩文件

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: