オープンソースのWeb検索エンジン構築ソフト「Apache Nutch 2.0」が公開されました(リリースノート、マイコミジャーナル)。
恥ずかしながら、Apache Nutch に関して全く知識がありませんでしたが、検索エンジンやWebクローラーを組み合わせた結構複雑なソフトのようです。
Apache Nutchは、Javaで開発されているハイスケラーブルなWeb検索フレームワーク。Apache Solr、Apache Tika、Apache Hadoop、Apache GoraといったApacheプロジェクトで構築されており、Webクローリング機能やリンクグラフデータベース、HTML解析といった機能を備えている。
2010年の記事ですが、Apache Nutch の概要を知るには以下のリンクが有用かと。