转载

Web 爬虫 Apache Nutch 1.15 发布,支持 Java 10

Apache Nutch 1.15 已发布。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。

此版本包含100多项 bug 修复和改进,完整的更改列表可 查阅发布说明 。其中值得注意的包括:

  • NUTCH-1480 具有不同配置的多索引 writer 实例现在可以将文档索引到多个 Solr 或 Elasticsearch 实例中

  • NUTCH-2375 使用新的 MapReduce API

  • NUTCH-2583 更新依赖库,这也使得 Nutch 可在 Java 9 和 10 上运行和编译

  • NUTCH-2549 对 protocol-http 插件进行修复和改进

  • NUTCH-2576 一个基于 okhttp 库的新 HTTP 协议实现,如果与 Java 9 或更高版本一起使用,则支持 HTTP / 2

  • NUTCH-1129 一个基于 Any23 项目的新插件,用于提取链接数据

下载地址:

  • http://nutch.apache.org/downloads.html

原文  https://www.oschina.net/news/98937/nutch-1-15-released
正文到此结束
Loading...