最近コンピュータによる画像生成技術が目覚ましく発展しています。この画像はもちろん実在せず、コンピュータが(勝手に)生成したものです。私がinputしたものは、下絵になるバラの画像と、”orange rose”と”ice”のキーワードのみです。特にわずか2つの言葉からそれらをうまくミックスした画像を生成できるのは「凄い」ですね。私に同じことをやれと言われても、正直出来ません。コンピュータの技術はすでに私の能力を上回ってます。
詳細な技術論はさておき、この生成手法は、画像を精緻に生成するモデルであるVQ-GAN と、大量のデータを学習し言語と画像を結びつけるCLIPというシステムの組み合わせにより実現されています。この手法を考案した方々はネット上にアルゴリズムをnotebook(1)として公開しており、どなたでも試してみることができます。興味がある方はぜひどうぞ。その後もいろんな手法が考案されており、どこまで発展し続けるのかわかりません。楽しみですね。
自分でやってみるとわかりますが、プログラムを自分で組むわけではなく、単に好きなキーワードを入力していくだけで、いろんな画像を生成してくれます。あたかもコンピュータと会話している雰囲気になります。ほんとに不思議です。いま生成されている画像が、なぜそういう形で生成されるかは、今のところ明確な説明はちょっと難しそうです。しばらくは「出たとこ勝負」といったところでしょうか。
画像生成モデルの基礎となったGANが世に出たのが2014年6月です。それ以降さまざまな改良が進み、解像度も相当高くなり、人間の目では判別が難しいレベルまで来ています。応用もいろいろ考えられますが、私はモデル構築のための訓練データが大量に得られない場合、画像生成技術により人工的に増やすことができれば良いなと思います。良質のデータが得られないためにモデルの精度が上がらないケースはよくあるので、コンピュータを用いた画像生成によって、いままで機械学習や深層学習が適用できなかった領域に踏み込めるかも知れません。
画像生成の技術はそのまま、自然言語や音声の分野にも応用が効く可能性が高いと考えています。コンピュータの計算能力の向上と相まって、今後どんな新技術があらわれるのか楽しみですね。
(1) Generates images from text prompts with VQGAN and CLIP (z+quantizemethod)., By Katherine Crowson