最近、第4次AIブームという言葉を少しづつですが、聞くようになりましあ。
2022年年末、ChatGPTが注目されましたが、2012年にILSVRCで深層学習モデルImageNetが圧勝して第3次AIブームが始まったように、ChatGPTの登場は第4次AIブームの始まりを意味しているのでは議論がSNSでされているところを目にしたんですよね。
第4次AIブームって気が早すぎじゃない?というか、第3次AIブームってもう終わったの?って思いつつ、最初に聞いたときは気にしてなかったのですが、だんだん考えているうちに本当に第4次AIブームが始まったのかもしれない・・・という気になってきました。
AI業界に身を置いているものとしては、だったら第4次AIブームはどんなものになるのか、データサイエンティストとしてAI案件を進めている自分には不安と期待を感じつつ、今後の動きを考えてしまいます。それから第4次AIブームのAIは一体のどのようなものかあれやこれたと想像していました。
みなさんも、そう言われる第4次AIブームのことが気になってきませんか?
ということで、第4次AIブームはいったいどんな特徴があるのか予測したいと思います。
データに始まりデータに終わるのが第3次AIブーム
第4次AIブームのことを考える前に、これまでのAIブームの歴史について振り返ります。
第1次AIブームは1950年代に始まります。初めて人工知能という概念が人々に広まり、いくつかのプログラムが作成しました。ただ、当時の技術では簡単な問題(トイ・プロブレム)しかプログラムに解かせることができなかったので実用化の可能性はないとして終焉してしまいます。
1980年代に始まった第2次AIブームでは人工知能は複雑な判断ロジックを持ち、トイ・プロブレムだけではなく、難しい問題(人でも解くのに時間がかかったり、業務として行うような問題)も瞬時に解くことができるようになりました。ただ、判断ロジックの実装は人が実施する必要があり、実用的な人工知能を構築するのにあまりにも労力がかかりすぎるので、AI は一部のシステムに限定的に導入することしかできず終焉してしましました。
そして、第3次AIブームでは、AIの学習方法の進化、学習に必要な計算リソースの確保によって人が判断ロジックをAIに実装しなくても、問題と正解のデータのセットからAI自ら判断ロジックを習得できるようになりました。
これにより、データさえあれば人が手を動かさくても(調整する必要はあるが)AIが自動的に学習して業務を手伝ってくれるようになったので、第3次AIブームでは爆発的にAIの普及が進みました。
ただ、これでめでたし、めでたしとはならないんですよね。第3次AIブームのおかげでGAFAが提供するサービスを中心にAIの恩恵は世界中の人々に届いた反面、第3次AIブームの当初に期待された人の業務時間が劇的に減ったり、人々の生活が180度変わるみたいなことはおこっていません。
AIのおかげでものすごい利益が生み出されたのは確かですが、どちらかというとデータを大量に持ち使いこなす一部のIT企業だけがその恩恵を独占していると感じます。
じゃぁ、なんで第3次AIブームではAIは”あまねく”世界の人々を救うことができなかったというと、第3次AIブームのAIはデータがあれば何でもできますが、データが無ければなんにもできないからなんです。
先程書いたように、第3次AIブームのAIは、問題と正解のセットを学習して判断ロジックを習得します。例えばAIに何かを文章を分類させたいならこれまで分類してきた文章と人が判断した分類結果のセットを大量に用意する必要があります。
世界中から大量のデータを収集してきた巨大IT企業ならデータを用意することは簡単ですが、一般の会社や個人はそんなに大量のデータを持ってませんし、そもそも蓄積してなかったりするわけで、そうなるとスタートラインに立つために、何年もかけてデータを収集する必要があります。
「データがないとなんにもできない」これが第3次AIブームのAI限界で、もし第3次AIブームが終わるなら人々がデータを用意することを諦めてしまった時だと思います(もしかしたらもうすでに諦めてしまった人が多いのかもしれません)。
第4次AIブームではAI活用にデータは必要なくなる
第3次AIブームのAI導入の現場では、
「うちもAI導入して業務効率化したいです!」
「蓄積したデータがないと無理ですね。データを集めてください」
「それじゃぁ、データを集めるという業務が逆に増えちゃうじゃん・・・」
という会話が幾度もなく繰り返されてきました。
もちろん、DX、データ活用の視点から考えると、データに基づいた業務判断は必要不可欠で、今までデータを見ずに勘や経験で判断してたのがおかしいのだから今すぐデータを貯めるべきとなってしまいますが、現場が求めているのはそういう長期計画的な改善ではなく今すぐこの現状を打破するための一手なわけです。
となると、第4次AIブームでは、
「データがないと無理」ではなく、「データなくてもとりあえず、業務削減できるよー」である必要があります。
もちろん、更に精度を上げるためにデータを追加で供給することはあると思いますが、データが無くてもとりあえず動くAIが必要とされると思います。
雑な例えをすると、第3次AIブームのAIは新卒の新人社員みたいなものです。業務マニュアルや教育カリキュラムを用意して数年の時間をかけないと戦力になりません。
それに対して、第4次AIブームのAIは競合他社からやってきた中途入社の社員、もしくは経験豊富な派遣社員のようなものだと思います。
ある日突然やってきても、必要なことは全部できます。
もちろん、第4次AIブームのAIはも学習は必要です。ただ、汎用的な学習をすでにしていることによってすぐにタスクに対応することができる必要があります。
すでに、転移学習やファイチューニングといった。それっぽい画像やそれっぽい文章を学習させた汎用的なモデルに更にタスク独自のデータを学習させるという手法はよく実施されていますが、第4次AIブームのAIでは、データではなく、文章や設定ファイルからタスクを理解して実施する必要があります(最近はタスクに必要な情報を事項毎にAIモデルに入力するRAGが流行ってますよね)。
データを用意するのは本当に大変なんですよね。データサイエンティストはAIに食べさせるデータを用意する職業ですが、自分はデータサイエンティストを一言で言ってしまえばデータの奴隷だと思っています(必ずAIを使うわけではありませんが、AIを使わなくてもデータを用意する必要はある)。
ちょっとでもデータが必要なAIにはデータが無いと仕事を任せられませんが、データがいらないならばかなりAIに頼める仕事が増えます。だから、このデータから開放が4次AIブームが起こす上で重要なポイントになるんですね。
AIをインターネットに開放する
自分はよくAIとデータの関係を説明する際にAIは牢獄に閉じ込められた知識が0歳児レベルの囚人だと例えます。
自分は大学院時代は脳神経科学の研究室にいましたが、AIと人間の思考能力や処理能力はたいして変わらないと思っています。ただ、情報収集能力に関しては圧倒的に違います。AIはプログラムの世界に閉じ込められて、情報(データ)が与えられないと外の世界知ることができません。そして、データに記されたこと以外は知るよしもないんです。
だから、AIはPCという牢獄に閉じ込められた0歳児みたいなもので、データを与えなければ永遠に何もわからないままです。
一方、人間は0歳児から様々な情報に触れて24時間寝ている時間も学習を行っています。それがAIと人間の大きな違いなんです。
逆にいいデータをインプットしてあげればAIの性能を引き出すことができます。逆に質の悪い情報をAIに与えてもAIはそれを信じるしかないのでAIは一向に成長しません。
ただ、もしAIがネットから自分で情報を収集できるようになればAIを牢獄から解き放つことができます。
自分は2020年に社会人になったので入社当初から会社に行くことがままならず、E-leaningやwebでの研修を受けて社会人になりました。いまも出社することはほとんどありません。
最初は在宅でもしわからないことがあったらどうしよう・・・と思っていましたが、ネットから情報を集めるスキルが身につけば問題ないことがわかりました。
人に教えてもらいたければ、Udemyのような教材もありますし、Youtubeの教育コンテンツもかなり充実してますよね。例えばデータサイエンティストの必須スキルであるPandasやSQLはだいたいYoutubeの動画で学びました。
なら、AIが業務をこなす上で必要な情報をネットにあるということです。メール書き方や資料の作成といった汎用な的な知識だったら十分にネットにありますし、その会社独自の情報も今はテレワークに対応するために社内のネットワーク整理されているはずです。
お金を払えば、電子書籍からだって情報が手に入ります。
ただ、問題はAIにとって有益な情報なのか、信用できる情報なのかは現状人間が判断するしかないということです。これは人間にとってもかなり難しいので、ここを解決できるかが4次AIブームが起こるための鍵になりそうです。
ChatGPTは第4次AIブームのAIなのか?
ここまで話してきた第4次AIブームの条件である「タスクに対応するデータなくてもタスクがこなせるAI」というのはChatGPTにすでに当てはまってる気がします。
ChatGPTは文章でタスクを定義すれば、シンプルかつPCで完結するタスクはできます。しかもそれがプログラミング言語やymlやjsonといった設定ファイルではなく、チャットという人間が慣れ親しんだ方法定義できるのがすごいです。
ちょっとしたプログラム作成もできるので、タスクを実行するためのプログラムをChatGPTに生成してもうこともできますし、プログラムのデバッグもやってくれます。おそらくですが、IT技術分野に知識が偏っているので、ChatGPTの恩恵を一番受けられるのはエンジニアかもしれません。
自分も顧客から受けた、「運用中のAIモデルに精度を継続するために、業務のなかで学習データ収集と再学習をどのように実施したらいいのか」というまさに第3次AIブームのAIの課題についての質問をChatGPT聞いてみたことがありました。
自分では3回くらい回答案を書いてどれもしっくりこなかったのでChatGPTを使ったのんですが、複数の業務パターンに分けて体系的に整理された答えが帰ってきて感動したということがありました。
おそらくですが、ChatGPTには大量のAIの論文やGitHubといった技術者コミュニティーでのQ&Aが学習されているので、ツヨツヨのエンジニアの方のそれっぽい記述を要約した文章が返ってきたのだと思います
このデータは別に僕が用意したわけではなく、事前にネットから学習した情報のわけなので、データを用意しないと動かなかった第3次AIブームのAIとは一線を画していると思います。
といいつつ、OpenAIの発表を見る限り、学習に用いいたものは勝手にプログラムがネットから拾ってきたデータはなく、人間が選びながら収取したもののようなので、タスクの実行に必要な情報をネットから収集したとは言い難いですね。
ということで、ChatGPTは第4次AIブームのAIではないということにしておきましょう。
まとめると、第4次AIブームのAIの特徴は
- タスクに対応したデータがなくても、文章で定義すればタスクが実行できる。
- 自分でインターネットから必要な情報を収集して学習する
だと思います。
シンギュラリティーは来るのか?みたいな論争が第3次AIブームでは巻き起こっていましたが、実際はAIは地道な進化を続けながら実社会に貢献しています。
別に第4次AIブームが到来したからといって劇的に何かが変わるというわけではありませんが、確実に人の生活に目に見える恩恵をもたらすのではないでしょか?(例えば世界中の人の平均労働時間が一日一時間減る的な)
そのために、進化するAIを人間が上手く使うことが大事だと思っています。また一つ敷居が下がったAIをもっと多くの人が自然に活用できるといいですね。
それでは。
[追記]この記事を書いて1年余りRAGを使った生成AIシステムを中心に社内外のChatGPTを始めとするLLMの導入を進めてきましたが、RAGに必要な参照文書の整理や業務知識のプロンプトへの落とし込みなどデータの整備の必要性は依然としてなくなっていないと感じています。
本当に求められているのは、手間暇をかけずにそれなりに現場で役立ってくれるAIですが、あらゆる手を尽くしてやっと使い物になるというのは2025年のAI現状だと思います。
最近はそもそも、AIを主体にシステムやアプリケーションを考えるのでは、AIはあくまでもシステムの中のいちプログラムやいちモジュールとして小さなタスクを実施させ、ちゃんと動かないユースケースがあったとしても別のAIを使わないコードでガッチリ書かれたプログラムで補うくらい考え方でいいのではないかと思うようになりました。