ウェブサイトから情報を抽出するコンピュータソフトウェア技術「Webスクレイピング」。膨大な情報がWebで公開されている現在、適切に利用すればインターネット上からさまざまな情報を取得することができます。
このスクレイピングする際に重要となるHTTPヘッダーをまとめた情報「The most important HTTP headers for scraping」が、Go言語用のスクレイピングフレームワークCollyのサイトで公開されています。
スクレイピングに重要なHTTPヘッダーは、Collyに限らず他のフレームワークでも共通して重要です。スクレイピング興味のある開発者の方ならば参考になるのではないでしょうか。
以下のような情報がまとめられています。
目次
リクエストヘッダー
まずはクライアントからサーバーに送られるHTTPリクエストに含まれる重要なヘッダーから。
Cookie | サーバーからクライアントに送信される小さなデータ"Cookie"を送り返す |
---|---|
User-Agent | OSやソフトウェアベンダー、アプリケーションを識別する文字列 |
Host | サーバーのドメイン名 |
X-Requested-With | 主にAJAXリクエストで使用される |
Accept-Language | クライアント側が理解する言語 |
レスポンスヘッダー
次はサーバーからクライアントに送り返されるHTTPレスポンスに含まれる重要なヘッダーです。
Content-Type | リソースのMIME type |
---|---|
Content-Length | レスポンスボディのサイズ |
Set-Cookie | サーバーからクライアントに"Cookie"を送信 |
まとめ
Webスクレイピングではリクエストに適切なHTTPヘッダーを設定すること、およびレスポンスのHTTPヘッダーを正しく取り扱うことが重要となります。スクレイピングに興味のある方は参照してみてはいかがでしょうか。