DeepSeek-R1の衝撃と今後の生成AIの行方

こんにちは、1月20日にリリースされたDeepSeek-R1(1)は世界中のAI関係者や投資家を熱狂の渦に巻き込みました。ChatGPT出現以来のインパクトだったと思います。ここで何故こんなに世界の注目を集めたのか考えて見たいと思います。

 

1.何が新しかったのか?
DeepSeek-R1の性能は素晴らしいものです。推論モデルの先輩格であるOpenAI o1モデルと肩を並べています。以下は各種ベンチマークでの成績比較ですが、o1モデルと拮抗してます。新興勢力のモデルがいきなり生成AIのフロントランナーであるOpenAIと並んだ訳ですから、世界が驚くのも無理はないですね。

画像
      各種ベンチマークでの成績比較

突然彗星のようにあらわれたDeepSeek-R1ですが、いくつかの技術的ブレークスルーがありました。その中でも最も大きいものは「GRPO」と呼ばれる訓練手法です。DeepSeek-R1は数学やコーディングなどの高度な推論能力を獲得するために、強化学習を用いてます。ここまでは既存の生成AIと同じです。強化学習はいわゆる「正解データ」が要らない強力な訓練手法ですが、複雑でコンピュータのリソースを多く必要とする難易度の高い手法です。そこでDeepSeekは通常2つ必要なモデルを1つで済ませる方法を採用しました。これが「GRPO」です。以下がその概要で、上段のPPOは既存モデルで採用されているケースが多い手法、下段がGRPOで新しい手法です。

画像
            PPO vs GRPO

比べるとPPOにあるValue modelがGRPOには無く、Policy modelだけになっています。つまりモデルが2つではなく1つで済むわけです。ここでのモデルとは超巨大な生成AIを指しますので、モデル1つで訓練が完了できるのであれば、リソースの節約に多大なインパクトがあります。半導体の米国輸出規制のため最新GPUを使えない中国企業が開発したDeepSeek-R1が、今回素晴らしい成果を出せたのも、このあたりに鍵があるのではないかと思います。技術論全般はリサーチ・ペーパー(2)をご参照下さい。また、GRPOが初めて公開されたのはこちらのリサーチ・ペーパー(3)です。

 

2.何故、世界の注目を集めたのか?
DeepSeek-R1はオープンウエイト・モデルとして、誰でもダウンロードして使える形で公開されました。また、GRPOを含めた訓練手法全体もリサーチ・ペーパー上で詳細に公開されました。今までの生成AIは一部を除き、API経由で利用できでも、ダウンロードは出来ません。また、どのように訓練したのかもほとんど公開されていない、ブラックボックスでした。このような中で最先端モデルであるDeepSeek-R1は、世界中のAI研究者に使える形で公開されたので、そのインパクトは絶大なものとなりました。凄いモデルと言われても中身がわからなければ、批評もできないし、改善案も提示できません。DeepSeek-R1により、オープンソース・コミュニティも生成AIの最先端モデル開発に初めて関与できるようになったと感じます。

 

3.今後の生成AIはどうなっていくのか?
世界中のAI開発者の間で、最先端モデルの開発でGRPOなどの手法を採用することが既に始まってます。莫大なコストを掛けなくてもそれは可能であることを、DeepSeek-R1が証明してくれたからです。今、私が注目しているのは「Open-R1」と呼ばれる公開プロジェクト(4)で、DeepSeek-R1では公開されなかった訓練データやそのコードまで明らかすると言った内容で、革新的なものだと思います。

画像
             Open-R1

もちろん、これに留まらず世界中でこうしたプロジェクトが始まるものと期待されます。楽しみですね。

 

いかがでしたでしょうか? 生成AI周りの風景が一瞬で変わってしまいましたね。今後も続々と新型生成AIが生まれてきます。ほんとに目が離せません。また続報をお届けしたいと思います。ご期待ください。

 

1) DeepSeek-R1 Release, Jan 22, 2025
2) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,  DeepSeek-AI,  Jan 22, 2025
3) DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, DeepSeek-AI,  Apr 27,2025
4)  Open-R1: a fully open reproduction of DeepSeek-R1,  Hugging Face, Jan 28, 2025

 

Notice:  I do not accept any responsibility or liability for loss or damage occasioned to any person or property through using materials, instructions, methods, algorithms or ideas contained herein, or acting or refraining from acting as a result of such use.  I expressly disclaim all implied warranties, including merchantability or fitness for any particular purpose. There will be no duty on me to correct any errors or defects in the codes and the software.

PAGE TOP