Stability AIは11月24(現地時間)、AI画像生成ツール「Stable Diffusion」のメジャーバージョンアップ版「Stable Diffusion 2.0」をリリースしました。Stable Diffusion 2.0は、オリジナルのV1リリースと比較して、多数の改善や新機能の追加が行われています。
Stable Diffusion 2.0にはまず、新しいText-to-Imageモデルが搭載されています。Stability AIのサポートのもとLAION社が開発した全く新しいテキストエンコーダー(OpenCLIP)を使用して学習させた堅牢なモデルを搭載し、V1と比較して生成画像の品質を大幅に向上させることに成功しています。
デフォルトの解像度として512x512ピクセルと768x768ピクセルの画像を生成することができるのに加え、画像の解像度を4倍に向上させるUpscaler Diffusionモデルも含まれています。モデルを組み合わせることで、2048x2048またはそれ以上の解像度の画像を生成することができます。
Depth2imgと呼ばれる新しいモデルも追加され、入力画像の深度を推測し、テキストと深度情報の両方を使用して新しい画像を生成することができるようになりました。
また、新しいtext-guided inpaintingモデルを搭載し、Stable Diffusion 2.0ベースのtext-to-imageへの微調整を行い、画像の一部をインテリジェントかつ迅速に切り替えることが簡単に実現可能となっています。
Stable Diffusion 2.0のモデルは数日以内に、Stability AI API(platform.stability.ai)とDreamStudioに公開され、これには価格の更新を含む、開発者やパートナー向けの情報が含まれる予定です。