ChatGPT、Gemini、Claudeと様々なLLM、生成AIモデルが速いペースでリリースされ、いわゆる開発競争の状態になってますが、たまにプロジェクト依頼いただいているお客様と雑談的に話していると日本国内の企業で開発された国産LLMモデルはどうなのかと言う話になります。
正直なところ、データサイエンス、AIを日頃やっている人間(特に自然言語処理に関わっている人)の感覚では、国内で太刀打ちすることは不可能という見解だと思います。少なくとも自分はそうです。
GPT系のモデルが流行る前、BERTが主流だった時代は海外のモデルは日本語の理解力にまだまだ改善点があったので、日本語に特化させたモデルを国内で作れば、国内だけでは利用価値があるモデルが作れるという空気感だったと思いますが、GPT-3.5を瞬間に、海外のモデルの日本語の理解力があまりにも高く、もはやモデル開発において日本人の役目はなくなったと感じた人が大半なのではないでしょうか?
自然言語モデルの内部では自然言語の文章を数値的なベクトルデータとして処理するので、日本語でも英語でも一度人の言葉を正しく認識してベクトルに変換できてしまえば、あとはどれだけ文章に対応するベクトルを処理できるかなので、日本語なのか英語なのかの差はなくなってしまうんですよね。
これに加えて、各モデルは数十億から数百億のコストをかけて開発され、さらに毎日1億円近いコストで運用されていると言われているわけで、そんな体力がある日本のIT企業はないですよね。そんなことしたら最大手のIT企業でもあっという間に赤字に転落です(OpenAI社も恐ろしい赤字額ですが)。
というわけで、国産LLMには触らずとも期待しないというのがAI、データサイエンス業界にいる人間の共通認識だと思います。
ただ、生成AIの登場でAIに興味をもったユーザーの方からすると、日本での利用には国産AIが適しているのでは?と思いますよね。ただ、自分は期待されてしまうと面倒という気持ちで仕事で「国産LLMは?」と聞かれたとき、即答で「検討する必要はないです」と言ってしまいます。
実際使ったことない国産LLMを使いもしないで、エアプで真っ向から否定するのは、ちょっとお金をもらって働いている人間の姿勢として誠実ではないなと感じてしまいました。
というわけで、Azure OpenAI Serviceで使えるNTTデータ社が開発した国産LLM Tsuzumi をめちゃめちゃ簡単な検証で試してみました。
センター試験やSPIから13問出題
適当に選んだ13問の質問をAzure OpenAI ServiceでデプロイできるTsuzumi 7B、GPT-3.5 turbo、GPT-4.0、GPT-4oにして、予め用意した観点で正解なら1点、惜しかったら0.5点、不正解なら0点で何割回答できるか試しました(13問中、13問正解で100%正解)。
問題は私の完全に独断で選んで知識問題(経済や法律)4問、センター試験の数学3問、SPIの読解問題6問です。
GPT-3.5 turboではきついな、GPT 4oだったら正解できるかなくらいの難易度の問題を選びました。
例えば数学なら
ある劇団の人数は、昨年より40%減って今年は480人になった。男女別では、女性が25%、男性は62.5%昨年より減った。今年の女性の人数を求めよ。ただし必要に応じて、小数点第一位以下を四捨五入すること。
みたいな計算問題です。ちなみにこの答えは360人ですね。
読解問題はセンター試験とかでもよくある、文中で抜けている接続詞を四択から選ぶみたいな問題や、4つの文から読解対象の文章と矛盾しない文を選ぶみたいな普通の国語の問題です。
TsuzumiはGPT-3.5 turboよりも正解率が悪かった
結果はGPT-4oが77%正解、GPT-4.0が53%正解、GPT-3.5 turboが12%、そしてTsuzumiが4%ということでTsuzumiはGPT-3.5 turbo以下の性能ということになりました。
Tsuzumiが正解できたのは、知識問題2つで1問だけでそれも不完全な回答だったので0.5点でした。
さらに、読解問題に関しては設問の指示を理解してないこともありちょっと実用には厳しいなという印象でした。
入力プロンプトが増えれば増えるほど挙動が怪しくなるので、RAGのような大量文章を入れるのはやめたほうがいいなという感じです。そもそもTsuzumiを試した理由がRAGシステムにTsuzumi組み込めるか検討したいというものだったので、やっぱりTsuzumiを使うことはなさそうですね。
大量の文章といっても千字程度なので、1万字の文章を読んでも1文1文をちゃんと理解するGPT-4oと比較するとかなり少ないと感じます。
モデルの規模を考えたら順当な結果
正直LLMの性能は学習に使ったデータセットの量とモデルの内部のパラメーターの数が大きく関係してきます。
パラメーターの数は生成AIモデルの神経細胞であるノードの数に比例していますし、データセットを勉強したもの量なので、単純にパラメーターの多いモデルに大量のデータセットを学習すれば賢くなるに決まってますよね。
もちろん、学習方法やモデルの設計も重要ですが、海外の主要モデルは全世界から数千万円の給料で集められた強強でめちゃコワなエンジニアが作ってるわけなので、そちらも申し分ないと勝手に思ってます。
データセット作成にも莫大な費用がかかりますが、パラメーター量に対して指数関数的に学習にかかる計算量も増えるので、モデルの開発費用もどんどん高額になっていくわけです。
Tsuzumiは70億パラメーターと1兆パラメーターを軒並み超える最近のモデルと比較するとかなりパラメーター数を絞って開発されていますが、それは札束で殴り合う戦いから一歩引いた立場で開発すすめるしかなかったというのが本音だと思います。逆に70億パラメーターならばかなり性能は高いのではないでしょうか?GPT-3.5 turboですら数百億パラメーターと言われてますし。
パラメーター数からするとむしろ性能がいいのかもしませんが、ただ利用できるユースケースはなさそうというのが今回使ってみた印象です。
ここからは余談ですが、数年以上遅れをとっている日本のITにおいて、海外と張り合おうと考える必要まったくないと思います。もちろん、Tsuzumiを始めとした、国産AIも別に戦う気はなく、海外から知見をえたり、マーケティング的な材料にするのが狙いだと思っています。
自分をIT人材と認識している人にとってはみんな思っていることだと思いますが、ユーザーの方は違う認識の人が多いのかなと思います。
最先端を行く必要はなく、落ち着いて海外の技術や事例を見ながら、やるべきことがわかった上で、海外の先人が四苦八苦しながら通った道を整備されたところだけ着実に歩めばいいわけです。
もう何周遅れにもなっているわけなので、今更追いつこうと思うことはないと思います。今いる地点から自分のペースで前進していくだけです。
ただ、IT側の人間もセールストークで最先端とか、最新とか調子のいい言葉を使ってしまうのも悪いですよね。Tsuzumiに関する巷の文章を見ていると、その最たる例だなと感じました。
海外の優秀な人が多大な労力を払って開発した技術や手法を日本のIT業界はありがたく使わせていただいているという謙虚な姿勢が大切だと思います。
ただ、Tsuzumiの開発に関わった人の気持ちを考えると複雑ですね。負け確の戦いの中で予算内でマシに見える結果を何とか出すという不毛な戦いだったのではないでしょうか?(それか完全に技術的に好奇心にモチベーションを振り切って開発していたか)
業界外の人はおろか、IT関係者すら理解してもらえないですが、AIプロジェクトには何が真実でどこに意味があるのかわからない理不尽をたたきつけられながらそれでも前に進まないといけない仕事が多すぎます(もはや精神修行でしかない)。どういった体制で開発したかも全く分かりませんがTsuzumiの開発現場ではどんな空気が流れていたのでしょうか?
それでは。