Webスクレイピングとは、Webサイトから情報を抽出するソフトウェア技術のこと。通常サイトごとにちまちまとプログラムをつくる必要がありますが、現在ベータ中のサービス「kimono」は凄い。ブラウザを使ってクリックするだけで、WebサイトからJSON/CSV形式でデータを抽出する事ができます。
紹介動画ではイマイチなにをしているのか分からなかったので、実際に試してみました。
サインアップとブックマークレットの準備
アカウントを登録してログインするとこの画面が表示されます「kimonify」をブックマークバーにドロップして使えるようにしておきます。
スターウォーズの登場人物の名前と誕生日を抽出
実際にデータを抽出してみましょう。公式ブログ「Never write a web scraper againで使われているスターウォーズのサンプルが分かりやすいです。
まずブックマークレット「kimonify」をクリック。次にテーブルヘッダーの「Character」をクリック。するとその列のデータが反転するので、データの横のチェックマークをクリックします。
すると画面の上の方に23が表示され、1列目が完成しました。さらにデータを抽出したい場合、その横のプラスマークをクリックします。「Birthdate」をクリックして同じように操作します。
完了したら、画面右上の「Data Model View」アイコンをクリック。
抽出列のタイトルをつけることができます。
「CSV / JSON View」アイコンをクリックすると、実際に抽出できるデータが表示されます。スターウォーズのキャラクターと誕生日がJSON形式で表示されていますね。
全部完了したら「Done」ボタンをクリック。外部から利用できるAPIエンドポイントを設定することができます。APIのURLから、例えばcurlなどを使ってデータをゲットすることができます。スクレイピングの頻度なども設定することができます。
まとめ
ということで、かなり凄い「kimono」ですが、本格的に使用する場合はお金がかかります。ベータ期間中は無料で使える機能が増えているようなので、気になっている方はこの期間中に試してみると良いでしょう。
スクレイピング先のWebサイトが、スクレイピングを許しているかどうか注意が必要ですけれども、プログラムをつくることなくデータを抽出できるサービスは画期的だと思いました。