「Stable Diffusion」は、画像生成分野のゲームチェンジャー。凄いです！

こんにちは。今日は「Stable Diffusion」と呼ばれる新しい画像生成モデルを紹介したいと思います。上の画像は「Stable Diffusion」で作成したものです。素晴らしいですね！このような美しい画像を非常に簡単に作成できるので、私はこれをとても気に入っています。このモデルはオープンソースソフトウェアなので、ライセンス料を支払うことなく、ダウンロードするだけで無料で使用できます。画像生成に興味のある方ならぜひ一度試してみて下さい。とにかく凄いです。

1.これらの画像は素晴らしいです！

以下の画像は一つの文章をモデルに入力することから得られます。それぞれの画像の背景を見ると、女の子がどこにいるかわかるかもしれません。はい、「カフェ」です。これは「彼女がカフェにいる」ことを記述する文章をモデルへ入力しているからです。ご存じのとおり、このモデルは「テキストから画像への生成モデル」です。つまりモデルにいくつかの単語/テキストを入力する必要があり、モデルはこの指示に基づいて画像を生成します。このモデルで画像を作成していると、コンピューターと会話しているような気分になります。面白いですね。

2.「オープンソースソフトウェア」です

いくら高性能なモデルでも、使用するために多額のお金を払わなければならないとしたら、それができる人はほとんどいないので、世の中へのインパクトは限定的です。幸いなことに、「Stable Diffusion」はオープンソースソフトウェアなので、誰でも無料で使用できます。このソフトウェアを自身で改良・更新したい場合は、オープンソースソフトウェアであるため、それを行うことができます。「Stable Diffusion」を自分の製品に統合したい場合もそれは可能で問題ありません。だから近い将来、いろんな製品が「Stable Diffusion」を基盤として市場に現れると思っています。みなさんもいかがでしょうか？「Stable Diffusion」に興味がある方は、Stability AI の創始者である Emad Mostaque のインタビューに関する YouTube ビデオをご覧になることをお勧めします (1)。この会社は「Stable Diffusion」を作成した会社です。リリース情報の詳細は、こちら (2) に記載されています。ソフトウェアのライセンス条項も併せてご確認ください。

Computer visionの未来を変える

Stability AIのブログには、「このリリースは、人類の視覚情報を数ギガバイトに圧縮する単一のファイルを作成するための、長きにわたる共同作業の集大成です。」とあります。「Stable Diffusion」によって何が達成できるかを正確に予測することはまだできません。しかし、これまで不可能だった多くのことが、このソフトウェアによって可能になると言えます。それは、「Stable Diffusion」によって、まだ見ていない新たな製品やサービス、芸術を誰もが創造できることを意味します。まさに「AIの民主化」ですね。近い将来、どんな製品やサービスが出てくるのかワクワクします！

1] The Man behind Stable Diffusion https://www.youtube.com/watch?v=YQ2QtKcK2dA&t=942s

2) Stable Diffusion Public Release https://stability.ai/blog/stable-diffusion-public-release