Web上のリンクを辿りドキュメントや画像、PDFなどさまざまな情報を収集するプログラム「クローラー」。Googleのような巨大な検索エンジンもクローラー(ボット)が地道に収集した情報によって構築されています。
今回紹介する「Awesome-crawler」は、このWebクローラーに関する情報を集めたawesomeリンク集です。さまざまなプログラム言語で作られたクローラーフレームワークに関する情報が1カ所にまとめられています。
サイトには現在Python、Java、C#、JavaScript、PHP、C++、C、Ruby、R、Erlang、Perl、Go、Scalaで作られたクローラーフレームワークが含まれています。
やはり人気の高いプログラミング言語ほどクローラーの数も多く、世界トップクラスの人気を誇るスクリプト言語Pythonでは、多機能で有名なScrapyを初めとして以下のような多くのクローラーが作られていることがわかります。
Webクローラーを使ってみたい方、あるいは自作クローラーを作成したい方ならばブックマークしておいて損はないリンク集だと思います。