皆様、明けましておめでとうございます。本年もよろしくお願い致します。昨年、私は「Stable Diffusion」と呼ばれる新しい画像生成モデルを見つけました。 それ以来、このモデルが高品質の画像を簡単に作成できるため、多くの AI 研究者、アーティスト、イラストレーターがそれに夢中になっています。私も実際に使ってみました。上の画像も「Stable Diffusion」で作成したものです。凄いですね!
1. 「Stable Diffusion」でいろいろな画像を作ってみました。それらは素晴らしいクオリティでした!
これらの画像は、昨年の「Stable Diffusion」による実験で作成したものです。実写風画像から架空の空間まで、さまざまな種類の画像を生成する優れた機能を備えていることがわかりました。また、「プロンプト・エンジニアリング」による生成画像制御により、モデルはより効果的に画像を生成できることがわかりました。ではこの「プロンプト・エンジニアリング」を少し詳しく見ていきましう。
2. 「プロンプト・エンジニアリング」がうまく機能します
希望する画像をうまく生成するには、適切な「プロンプト」をモデルに入力する必要があります。これは、適切な単語/テキストをモデルに入力することを意味します。先ほど申し上げたように、私たちはそれを「プロンプト・エンジニアリング」と呼んでいます。
画像を生成するのが初めての方は、“an apple on the table”(テーブルの上のリンゴ)などの短いプロンプトからはじめると良いでしょう。油絵のような画像が欲しいときは、“oil painting of an apple on the table”(テーブルの上のリンゴの油絵)のように追加するだけです。
各プロンプトを 3 つのカテゴリに分けてみましょう
- スタイル
- 物理的なオブジェト
- 物理オブジェクトの表示方法 (照明など)
したがって、私たちは「プロンプトの各カテゴリ」が何が良いかを検討し、それをモデルに入力するだけです。たとえば、“oil painting of an apple on the table,volumetric light”(テーブルの上のリンゴの油絵、ボリューメトリック ライト)を試してみます。その結果が以下の画像です。早速ご自身で試してみて下さい。このデモ環境(1)で簡単に実行できます。
3. こんな綺麗な画像が生成できるなら、これを訓練データとして使えるかも?
コンピュータービジョンの研究者の中には、「これだけ質の高い画像が生成できれば、これを訓練データにして現実世界を説明する画像認識モデルを構築できるのでは?」と考える人もいます。彼らの研究論文(2)によると、実験はうまくゆき、モデルの精度は本物の画像を使ったモデルと大差はなかったそうです。今後、多くのユースケースでさらに研究が必要だと思いますが、応用技術の発展に期待できそうですね。
今年も、テクノロジーがどのように進むのかをレポートしていこうと思います。乞うご期待!
1) Hugging Face, Stable Diffusion 2.1 Demo
2) Fake it till you make it: Learning(s) from a synthetic ImageNet clone,Mert Bulent, Sariyildiz,Karteek Alahari, Diane Larlus, Yannis Kalantidis,2022年12月16日、https://arxiv.org/abs/2212.08420