python是用java开发的,python和java做网站

　　今天整理了一下我以前用perl语言写的网络爬虫，但是很头疼，调试起来很困难。不想再调试了。我觉得java还不算酷，速度一定没有java快，所以在网上搜了一些开源项目的网络爬虫，以备将来使用。

　　网络爬虫

　　Heritrix是一个开源和可扩展的网络爬虫项目。Heritrix旨在严格遵循Robots.txt文件中的排除说明和meta-robots标签。

　　WebSPHINX WebSPHINX是一个用于Java类包和网络爬虫的交互式开发环境。网络爬虫(又称机器人和蜘蛛)是一种能够自动浏览和处理网页的程序。WebSPHINX由两部分组成：爬虫平台和WebSPHINX类软件包。

　　WebLech WebLech是一个下载和镜像网站的强大工具。根据功能需求下载网站，尽可能模仿标准网页浏览器的行为。WebLech有一个多线程操作的功能控制台。

　　Arale Arale主要是为个人使用而设计的，不像其他爬虫那样重视页面索引。Arale可以从全网或者网站下载一些资源。Arale还可以将动态页面映射到静态页面。

　　J-Spider J-Spider:这是一个完全可配置和定制的网络蜘蛛引擎。用它来检查站点错误(比如内部服务器错误)，检查站点内外的链接，分析站点结构，创建站点地图，下载整个站点，编写JSpider插件。

　　Spindle spindle是一个基于Lucene Toolkit的Web索引/搜索工具。这包括用于创建索引的HTTP spider和用于搜索这些索引的search类。Spindle project提供了一组JSP标记库，使得基于JSP的站点无需开发Java类就可以添加搜索功能。

　　是一个基于Java的网络蜘蛛框架，允许简单的HTML解析器分析包含HTML内容的输入流。通过实现Arachnid的子类，我们可以开发简单的网络蜘蛛，并在分析网站的每个页面后添加几行代码调用。Arachnid下载包包含两个示例spider应用程序，演示了如何使用该框架。

　　LARM LARM为用户提供了一个纯粹的Java搜索解决方案的Jakarta Lucene搜索引擎框架。包含文件，如何索引数据库表，以及可以索引网站的爬网程序。

　　JoBo JoBo是一个下载整个网站的简单工具。这本质上是一个网络浏览器。与其他下载工具相比，主要优点是可以自动输入表单(比如自动登录)和使用cookies处理会话。of web还通过灵活的下载规则(如网页的URL、大小和MIME类型)提供限制下载的规则。

　　snoics-爬虫SnO ics-爬虫由纯Java开发，是一款镜像网站的工具。您可以使用配置文件中提供的URL门户网站、网页或图像、flash、mp3、ZP3。只要把抓取的网站放到Apache等web服务器上，就可以实现完整的网站镜像。

　　下载到：

　　snoics-reptile2.0.part1.rar

　　snoics-reptile2.0.part2.rar

　　snoics-reptile2.0-doc.rar

　　WE-Harvest Web-Harvest是一款Java开源Web数据提取工具。收集指定的网页，并从这些网页中提取有用的数据。Web-Harvest主要利用XSLT、XQuery、正则表达式等技术实现对text/xml的操作。

　　script type= text/JavaScript /scriptsrc= http://page ad2。谷歌syndication.com/page广告/show _ ads.js

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。