イーロン・マスク氏が設立したxAIは3月17日(現地時間)、大規模言語モデル「Grok-1」のベースモデルのウェイトとネットワークアーキテクチャをオープンソースとして公開しました(Open Release of Grok-1)。
Grok-1は3,140億のパラメータを持つMixture-of-Expertsモデルで、xAIによってゼロからトレーニングされました。2023年10月に終了したGrok-1プレトレーニングフェーズの生のベースモデルチェックポイントで、対話のような特定のアプリケーション向けに微調整されたモデルではないとのことです。
公開されたGitHubリポジトリには、「Grok-1 open-weights model」をロードして実行するためのJAXサンプルコードが含まれています。
テストするためには、チェックポイントをダウンロードし、ckpt-0ディレクトリをcheckpointsに置いて、以下を実行します。
pip install -r requirements.txt python run.py
スクリプトはチェックポイントをロードし、テスト入力にモデルからサンプルをロードします。
モデルのサイズが大きいため、サンプルコードでモデルをテストするには十分なGPUメモリを持つマシンが必要となります。モデルのスペックなど詳細はGitHubで確認可能です。