python提取网页文本,python抓取页面内容

  python提取网页文本,python抓取页面内容

  我正试图解析网页中的文本,从这一页开始。此页面有一个指向最终页面的链接(您也可以手动将其移动到文本文件中;这可以避免编码中的额外工作)。最后一页的左边有一页索引。每个页面都有一个页面索引。索引位于每页的顶部。我只需要从这个项目列表中提取一行以“配置”、“配置示例”或“示例”开头的内容。在

  当手动执行时,这个任务看起来非常简单,但是它令人生畏并且难以跟踪。如果这些信息可以从任何工具中提取出来,那么这些工具就可以按层次顺序爬行和记录项目。可能是一些简单的格式,包括超链接,或者至少是普通制表符分隔的文本文件。在

  网页上的信息是公开的,可以下载。如果很难通过网络提取,也许我也可以尝试下载那些,线下试试。在

  我正在尝试对这个需求做一些研究,看看LinksGrabber、WebParser、beauthoulsoup或者使用regex解析文本是否可以做一些调整。但是我还远远没有实现这个想法。在

  这是我在Python中试图实现的吗?或者说,这是一个现实的方法。在

  附:我知道这是网络爬虫,但我这么做只是出于个人教育的目的。它没有任何商业价值或任何联系。在

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: