python是用java开发的,python和java做网站
今天整理了一下我以前用perl语言写的网络爬虫,但是很头疼,调试起来很困难。不想再调试了。我觉得java还不算酷,速度一定没有java快,所以在网上搜了一些开源项目的网络爬虫,以备将来使用。
网络爬虫
Heritrix是一个开源和可扩展的网络爬虫项目。Heritrix旨在严格遵循Robots.txt文件中的排除说明和meta-robots标签。
WebSPHINX WebSPHINX是一个用于Java类包和网络爬虫的交互式开发环境。网络爬虫(又称机器人和蜘蛛)是一种能够自动浏览和处理网页的程序。WebSPHINX由两部分组成:爬虫平台和WebSPHINX类软件包。
WebLech WebLech是一个下载和镜像网站的强大工具。根据功能需求下载网站,尽可能模仿标准网页浏览器的行为。WebLech有一个多线程操作的功能控制台。
Arale Arale主要是为个人使用而设计的,不像其他爬虫那样重视页面索引。Arale可以从全网或者网站下载一些资源。Arale还可以将动态页面映射到静态页面。
J-Spider J-Spider:这是一个完全可配置和定制的网络蜘蛛引擎。用它来检查站点错误(比如内部服务器错误),检查站点内外的链接,分析站点结构,创建站点地图,下载整个站点,编写JSpider插件。
Spindle spindle是一个基于Lucene Toolkit的Web索引/搜索工具。这包括用于创建索引的HTTP spider和用于搜索这些索引的search类。Spindle project提供了一组JSP标记库,使得基于JSP的站点无需开发Java类就可以添加搜索功能。
是一个基于Java的网络蜘蛛框架,允许简单的HTML解析器分析包含HTML内容的输入流。通过实现Arachnid的子类,我们可以开发简单的网络蜘蛛,并在分析网站的每个页面后添加几行代码调用。Arachnid下载包包含两个示例spider应用程序,演示了如何使用该框架。
LARM LARM为用户提供了一个纯粹的Java搜索解决方案的Jakarta Lucene搜索引擎框架。包含文件,如何索引数据库表,以及可以索引网站的爬网程序。
JoBo JoBo是一个下载整个网站的简单工具。这本质上是一个网络浏览器。与其他下载工具相比,主要优点是可以自动输入表单(比如自动登录)和使用cookies处理会话。of web还通过灵活的下载规则(如网页的URL、大小和MIME类型)提供限制下载的规则。
snoics-爬虫SnO ics-爬虫由纯Java开发,是一款镜像网站的工具。您可以使用配置文件中提供的URL门户网站、网页或图像、flash、mp3、ZP3。只要把抓取的网站放到Apache等web服务器上,就可以实现完整的网站镜像。
下载到:
snoics-reptile2.0.part1.rar
snoics-reptile2.0.part2.rar
snoics-reptile2.0-doc.rar
WE-Harvest Web-Harvest是一款Java开源Web数据提取工具。收集指定的网页,并从这些网页中提取有用的数据。Web-Harvest主要利用XSLT、XQuery、正则表达式等技术实现对text/xml的操作。
script type= text/JavaScript /scriptsrc= http://page ad2。谷歌syndication.com/page广告/show _ ads.js
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。