
GNUのテキスト処理ツールGawk(GNU Awk)の最新バージョン「Gawk 5.4」が公開されました。最新版には正規表現エンジンの刷新やファイル読み込み速度の向上など、実用面での改善が多く含まれています。
Gawk 5.4ではまず、新しい正規表現エンジン「MinRX」が標準の正規表現マッチャーとして採用されました。開発者はGNU grepの作者Mike Haertel氏で、完全なPOSIX準拠を実現し、既存のGNU独自マッチャーの課題を解消しています。旧来のregex/DFAエンジンも引き続き利用可能となっています。
ファイル読み込み速度の改善も行われています。通常のディスクファイル読み込み時にタイムアウトチェックを行わない仕様に変更され、大規模ファイルでの処理が約9%高速化されました。
Windowsに関係した改善では、MinGW版でUTF-8非ASCII文字の扱いが改善され、Cygwin版は完全なUTF-8対応が成し遂げられています。
その他改善点は次の通りです。
-
永続メモリの扱いを変更。
-
ordchr拡張でマルチバイト文字をサポート。 -
POSIX 2024仕様への対応。
-
Cコードのアサーションを有効化。
-
BSDサポートの改善。
-
--enable-o3による-O3最適化ビルドが可能に。 -
初のアラビア語翻訳を同梱。
-
ドキュメントに、メーリングリストでの個人攻撃の禁止や、プロプライエタリソフトウェアに関する議論を控えるよう明記。
-
OpenVMSサポートの改善。
まとめ: Gawk 5.4 は「堅実な高速化」と「標準準拠の強化」が魅力
今回のGawk 5.4は、派手な新機能こそ少ないものの、正規表現エンジンの刷新や、ファイル処理の高速化、UTF-8対応の強化といった、日常的にAwkを使うユーザーにとって嬉しい改善が詰まったアップデートです。
特にPOSIX準拠の強化は、スクリプトの移植性や信頼性を高める重要なポイントとなりそうです。
[via Phoronix]
