2020年7月4日G検定を受験して1週間経とうとしていますが、当日のことを忘れてしまわないうちにまとめておこうと思います。
[2020 11月追記]合格してから振り返ってみると、高得点を取ることはかなり難しいテストですが、合格することはそれほど難易度が高くないと感じました。8割とるとなるとかなり膨大な範囲を勉強する必要がありますが、5割得点するだけ合格の可能性はあると思うので、戦略としては解く分野だけ勉強してその分野の問題は確実に正答し、残りは当日頑張って検索するのがいいと思います。
正直、検定の結果に自信はないです(この記事は今回落ちて再受験になった際の備忘録的な意味合いで書いてます←受かりました)。
苦戦した原因ははっきりしていて、本番の内容と実際に出題された内容(範囲や詳しさ)があってませんでした。
検定終了直後に、公式本や問題集(黒本)をやり込んで試験に臨んだ人が、当日の問題が全然違っていて全く解けなかったことを、訓練誤差は高くて汎化誤差は低い状態になぞらえて自分は過学習をしていたツイートしていて、思わず笑ってしまいました。
で、笑っている僕も例にもれず、黒本中心に勉強したことがあだとなりましたね。
完全に忘れていましたけど、G検定はディープラーニングの検定です(あと、法律の検定)。だから、歴史や統計をやる前にまずは深層学習(特にCNN)とそれに付随する、画像検出や自動運転関連の法律を勉強したほうがいいです(出題の7割以上をカバーできる)。
実際に出題された問題は倫理・法律問題が4割だった
最近のG検定では法律問題がかなりの割合で出題されるということは聞いていましたが、1問目から時事問題が来て、著作権、プライバシーを含めると200問中70問目から80問目までは、モデルや学習とは直接関係ないAIを取り巻く社会的な事情が出題されて驚きました。
さらに、出題される事例や法律がかなり新しくて、2019年以降に改正された法律や事例が多かったので、出版されて年月が経ってしまった書籍の知識は役に立たず、ニュース記事や行政のサイトを読み漁ることに・・・。
そもそも、書籍では出版されて読者が購入し、試験を受けるまでにタイムラグがあるのでAI関連のニュースを日ごろ見てまとめておく、足りない知識は当日検索で補完しないと対応できなかったのかもしれません。
例えば昨年の5月の改定された道路運送車両法で定められているレベル3の自動運転の実用化に向けた規則が出題されていたのですが、
「レベル3の自動運転では運転手はハンドルを手放してもよい?」
とか、
「自動運転中にスマホを使用してよい条件は?」
とか、
「車両への取り付けが義務付けられた装置は何?」
的な、レベル別の自動運転の機能を覚えているだけじゃ答えられない問題が出題されました。
で、わからないので検索するのですが、一般人向けにかかれたニュースサイトではそこまで詳しい情報は書いていなくて、逆に公的な文章だと回りくどくて何が書いてあるのかわからず時間ばばかり過ぎていくということが多かったです。
あと、長い文章を読むと問題文に答えが書いてあることもありました。問題文で無理と思っても国語の問題だと思って根気強く読んだ方がいいかもしれないです(疲れるので捨てるのもアリです)。
法律・倫理関連で出題された問題のキーワードを思い出せる範囲で書くと、
道路運送車両法
GDPR(EU一般データ保護規則)
透明性レポート
ELSIL
AWS
情報銀行
XAI(Explainable AI)
ってとこですかね。
CNNもくどいくらい出た
G検定を受けるのは初めてですが、かなりメッセージ性の強い試験だなと感じました。
今回のテーマは「自動運転が実用化されるから、エンジニアレベル、ユーザーレベルで社会の変化に備えてね」って感じだったと思います(過去の問題は知らんので毎回自動運転がテーマの可能性がある)。
なので、交通周りの法律やCNNの画像認識が全体を通してかなりの分量で出題されたのだと思います(僕が勝手にそう思っているだけです)。
CNNの問題は法律問題が終わるとすぐ何問か出題されて、話が強化学習に移ったらその後また出題され、RNNの話を挟んで最後も出題されるくらいに何度も何度も出題されました(それはさすがに盛りました)。
さらに、これも先人の方々がいろんなところに書いていましたが、本番の問題を解くのに必要な知識が、公式本、黒本、kindle本、web模試のどの問題よりも細かかったです。
これをAIの問題にじゃなくてIT全般の問題に例えると、
黒本やネット上に出回っている問題が
Q. 「マイクロソフト社から発売されている、VBAと呼ばれるマクロ言語も使用できる表計算ソフトに当てはまるものはどれか?」
1)Messenger 2)Excel 3)Photoshop 4)mysql
A. 2)Excel
みたいな、表計算ソフトがなんななのか知っていれば、それぞれの選択肢の特徴を理解していなくても答えれらる問題になっているのに対して、
実際に出題される問題は、
Q.「デスクトップ環境からはブラウザからの接続のみが可能で、10万人規模のライブ配信機能の実装が予定されているwebテレビ会議サービスに当てはまるものはどれか?」
1)Skype 2)LINE 3)Google Meet 4)Zoom
A. 3)Google Meet
のような、webテレビ会議サービスがどんなものかわかってもそれぞれのサービスの違いを体系的に理解できていないと答えられない問題が出題されます。
具体的には
セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーション、一般物体検知の違い
画像検出用のCNNのモデルであるYOLOv3、R-CNN、U-Net、SSDLiteの違いを説明する問題が出題されました。
YOLOに関しては実際に使ったことがあるのですが、他のモデルに関してはYOLOみたいなやつとしか理解していなかったので面喰いました(セグメンテーションの種類に関しては聞いたことがなかったのでお手上げでした)。
しかもセグメンテーションやCNNのモデルに関しては1題ではなくそれぞれ2,3題出題されていたのでこの違いを理解していないと大量失点につながる感じでしたね。
CNN関連で出題された思い出せる問題のキーワードを書くと、
CNN
マックスプーリングとアベレージプーリングの逆伝播の仕方
FCN
MAML
OCR
セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーション、一般物体検知の違い
YOLO、R-CNN、U-Net、SSDLite
ILSVRC歴代優勝モデルの原理や構造(Inceptionモジュールなど)
って感じです。MAMLやFCNあたりはサッパリで歯が立たなかったのですが、出題量が多いのでCNNの知識は次までにこれくらいの粒度でがっつり勉強したいと思います。
残りは強化学習1割、RNN一割で、統計手法や歴史、人物はほとんどでなかった
黒本の問題の出題配分は、歴史(人物)2割、統計手法2割、強化学習1割、CNN2割、RNN1割、法律2割で順番もこんな感じでした(他の模試も大体こんなん)。
学生時代に課題図書のゼロから作るシリーズやMLPの深層学習を読んだことがあったので、機械学習のモデルよりも歴史や人物名、定理、統計手法を黒本や公式本を真剣に勉強していました(正直、CNNに関しては課題図書のレベルすら超えてた)。
歴史問題はおそらく出題されらのは、第2次AIブームのエキスパートシステムだけで、2012年にILSVRCで優勝したAlexNet以前のモデルの話はほとんど出ませんでした。
人物名もヒントンとあと誰かの2人だけ出ましたが、特に回答には関係なかったと思います。
定理系も確かノーフリーランチの定理が一問だけ出たくらいでほとんど勉強する必要はありませんでした。
不安な人はこの記事をザっと目を通して本番前にブラウザで開いておけば問題なしです。
統計手法の話も、k-means法とランダムフォレスト(バギングとアンサンブル学習)がちょろっと出ただけでした。正直下の記事にまとめた以上の知識はなくても答えられます。
むしろ数学は逆伝播やプーリング、ソフトマックスなどの機械学習に関する計算だ必要でした。そこんところはゼロから作るDeep Leaningでコーディングしながら覚えるのが最短で理解する方法だと思います。
G検定はディープラーニングの検定
ちなみに、Kindle本では半分くらいのページをNN(ニューラルネットワーク)に割いていたので、なんでこんなに機械学習について書いてあるんだろうと不思議に思いました(それも実際の出題レベルよりはだいぶ優しい)。
ただ、今になって考えてみるとG検定は日本ディープラーニング協会が主催するディープラーニングの検定なので、複数層を有しているNNの学習方法の話が中心になるのは当たり前なんですよね。
じゃぁ、なんで公式本と黒本であんなにNNのモデル以外の話をするのかというと、いまの深層学習はそれまでのAIの発展形でディープラーニングを勉強する前に、その背景の知識を勉強してほしいのだと思います。
それと、昔の記事を見ていると最初のころはそういう問題もいくらか出されていたみたいです。
でも、今からG検定を受けるならそんな遠回りはせずに、準伝播、逆伝播、畳み込みを勉強したら、CNN、RNN、強化学習のモデルについてがっつり勉強して、時間が余ったら歴史や統計をやるという流れで勉強したほうがいいと思います。
で、法律は最新の法律がまとまっている書籍などはないのでネット上の記事や業界の人のブログから日常的に情報を収集しておいて、足りないところは本番で頑張って検索するというのが一番効率的ではないでしょうか。
SNSを利用する人はTwitterなどで人工知能界隈で偉い人(例えばTJOさんとか、自分もこれは重要と思うことはリツイートするかもです。)
個人的に役立ったのはGoogle DiscoverにAI関連に興味があると登録しておいて、勝手に今バズっているAI関連の記事をリコメンドしてもらうことです。
最新の情報が手に入るので、Google Discover経由で知った知識で回答できた時事問題が結構ありました(AIの勉強にはAIを使えってことでしょうか?)。
そんなこんなでG検定の感想でした。まとめるとG検定の問題は参考書じゃ対応できないし、近年はAIを取り巻く法律、CNNに関するモデルや学習則がかなり出る(半分以上)ので対策必須。
でも、この傾向がいつまで続くのかはしれません。ただ、僕の予想通り自動運転の実用化が関係しているのならしばらく(1、2年)は続くと思います。合格率が高いからといって舐めてかからないほうがいいです。きっと業界でガチでディープラーニングやデータサイエンスやっている人は勉強するまでもないですが、自分みたいに大学で機械学習勉強していたとか、これからAI関連の仕事をするという人はなめてかかると痛い目を見ると思います。
それでは。