その性能をリーダーボードで確認しました(2)。今回リリースされたのはパラメータ数が70Bと8Bの2種。特に大きい方の700億パラメータ・モデルの性能は、確かにGPT-4、Claude3-OpusそしてGemini 1.5 Proといったproprietary modelと互角に戦えそうですね。凄いです!
そこで、私がいつもやっている銀行の顧客クレームの分類タスクでLlama3がどの程度の性能が出るのか試してみることにしました。それでは早速始めましょう。
1.6カテゴリの顧客クレームを訓練無しでどこまで判別可能なのか?
今回は70Bモデルを箱から出して、特にfine tuningは行わず、そのまま使ってどの程度精度が出せるのかを確認しました。使ったデータは米国の銀行における顧客クレームデータです。今回は以下の6商品カテゴリとしました。
住宅ローン
当座預金口座または普通預金口座
学生ローン
送金、仮想通貨、または送金サービス
銀行口座またはサービス
消費者ローン
以下が実際のクレームの例です。全て英語です。
今回は500サンプルほどランダムに抽出して実験しました。以下のように一つのサンプルデータに一つの商品カテゴリが付与されるようにpromptで指示しました。
結果は88.6%の正解率と予想以上の素晴らしさでした。90%に近い精度が出たのは初めての経験でした。Llama3の潜在能力の高さが伺えます。
2.日本語のデータでどこまで精度を維持できるのか?
日本でLlama3を使う場合は、ほとんど日本語データになると思います。そこで先程の英文データをgoogle翻訳で和訳して、日本語に変換してから分類タスクを実行しました。以下がサンプル例です。今回は全て日本語です。
こちらも82.8%の正解率と素晴らしいものでした。Llama3は米国製のモデルなので、訓練データの95%が英語とのことです。日本語への対応力がやや心配でしたが、大幅に劣化することはなさそうです。マルチリンガル・モデルが得意なMetaですから、多言語対応モデルの登場も期待できるかも知れませんね。
3.まとめ
オープンソースでありながら、トップクラスの性能を誇るという話は本当でした。この素晴らしいモデルを無料で公開してくれたMeta社に感謝するとともに、Googleなどからも良いオープンソース・モデルが出てくることを期待したいところです。次回は小型の8Bモデルの精度とその計算速度について実験してみたいと思います。 お楽しみに。
Stay tuned!
1) meta website https://llama.meta.com/llama3/
2) LMSYS Chatbot Arena Leaderboard https://chat.lmsys.org/?leaderboard
Copyright © 2024 Toshifumi Kuga. All right reserved
Notice: I do not accept any responsibility or liability for loss or damage occasioned to any person or property through using materials, instructions, methods, algorithms or ideas contained herein, or acting or refraining from acting as a result of such use. I expressly disclaim all implied warranties, including merchantability or fitness for any particular purpose. There will be no duty on me to correct any errors or defects in the codes and the software.