現在世界中でPDF(Portable Document Format)形式のファイルが広く使われています。
PDFファイルは、紙に印刷するのと同じような状態のまま閲覧や編集が可能という長所がある反面、ファイルのフォーマットがプレーンテキスト形式ではないため、grepのようなテキストユーティリティを使うことができないという短所を持っています。
本日紹介する「pdfgrep」は、この不便さを解消することができるユーティリティです。テキストに対するgrepのように、PDFファイルの中から文字列を素早く検索することができます。
以下のような特徴を持っています。
- grepとの互換性: GNU grepとの互換性を持つように作成されている。
- 複数のPDFファイルを検索: キーワードを含むPDFファイルをまとめて検索できる。
- カラーハイライト: grepの-colorオプションがサポートされていてデフォルトで有効。
- 正規表現: POSIXだけでなくPerl互換正規表現(PCRE)にも対応。
- フリーソフトウェア: GNU version 2以降のライセンスを採用。
以下使用方法を説明します。
目次
pdfgrepの使用方法
macOSの場合、HomebrewもしくはMacPortsを使用してインストールすることができます。
brew install pdfgrep sudo port install pdfgrep
ソースコードからビルドすることができます。以下のコマンドを実行します。
./configure make sudo make install
基本的な使い方はシンプルです。pdfgrep 検索文字列 PDFファイル
を実行します。例えば「表示確認用サンプル PDF」という文字列を含むPDFを「サンプル」という文字列で検索してみます。
$ pdfgrep サンプル sample.pdf 表示確認用サンプル PDF
一致する行が見つかった場合は結果が表示されます(一致箇所はハイライトされます)。詳しい使い方はpdfgrep --help
で確認可能です。
まとめ
pdfgrepはPDFファイル用のgrepユーティリティです。普段ターミナルを使って作業している方にとっては特に便利だと思います。