Webサイトから自動でデータを収集する技術は「スクレイピング」と呼ばれます。
Webサーバー側では、プログラムと人間を区別するために、ユーザーエージェント文字列が使用される事があり、この情報を知っておくことはプログラムの開発者にとって重要となります。
本日紹介する「useragents.me」は、最新のユーザーエージェント文字列を一覧表示するWebサービスです。
データは、Webサービスを作成した開発者が運営する別のサイトから集められたものとのことで、正確性は不明ですが、週1回更新され、今人気のユーザーエージェント文字列をざっくりと知りたい場合に役立ちそうです。
▲人気のユーザーエージェント文字列トップ50が確認できます。
また、プログラムから利用しやすいようにAPIや、Pythonからランダムなユーザーエージェント文字列を使用する場合のサンプルスクリプトも公開されています。
ユーザーエージェント文字列は時代遅れで、今後削減される方向にあるようですが、当面役に立てることができそうです。
[via Hacker News]