データサイエンス検定リテラシーレベル合格に向けて必要な単語知識をまとめました。テスト前の知識の確認、受験前の出題範囲の確認にお使いください。
あくまで、DS検定に合格するために必要な単語のまとめです。出題範囲でも概念や理論は省いています。もう一点、既に知っている単語を思い出すためにまとめているので、このページだけで初めて知った単語の意味を理解するのは不可能だと思います。わからないことは適宜調べてください。
参考文献として以下の内容からテストに出そうな事項をまとめたものになっています。
- スキルアップAI DS検定リテラシーレベル対応 データサイエンティスト基礎講座 小縣 信也
- データサイエンス スキルチェックリスト
- 数理・データサイエンス・AI(リテラシーレベル)モデルカリキュラム
- 最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック
前章・データサイエンス界隈で起きてる変化と社会との関係
データサイエンス・AI界隈で起きている変化
2000年代に入ってから起きたデータサイエンス・AIの普及させた3つの環境変化
- PCの性能が上がった。半導体工学の進歩によってCPU、GPU、SSDといったPCパーツの性能が向上しPCの計算能力が近年飛躍的に向上した
- ネット回線・モバイル回線が普及しあらゆるものがインターネットに接続しデータが蓄積されるようになった→IoT
- デジタルデータのデータ量が増加した。2020年には世界全体の総データ数は40ゼタバイトに達する→巨大なデータ(ビックデータ)の活用が普及する
データサイエンスやAIにまつわる技術の進歩は徐々に進化する連続的進化ではなく、あるきっかけにより革命的に技術が進歩する非連続的進化(イノベーション)によるもの。
AIとビックデータの関係
AIを学習するには多くのデータが必要になる。さらにAIはデータを入力として何らかの結果を出力する。データとAIと社会には「社会からデータが収取される→データをもとにAIから何らかの結果が出力される→AIの出力が社会にフィードバックされる」という関係性がある。
日本政府が推進するSociety 5.0
現在日本社会は情報(データ)と実社会がインターネットやアプリケーションを通して間接的な関係性を持つSociety 4.0に分類される。今後は情報と実社会を融合し経済的価値を生み出すことで、データ駆動型社会であるSociety 5.0を目指す。
無理やりイメージすると、決済情報から特定の個人の食生活のデータを取得してその変化から病気の兆候を事前に検出する。スマートフォンから取得した人々の行動データから、公共交通機関のダイヤを自動的に調節して交雑をなくすといった感じ。
ドイツ政府が目指すインダストリー4.0
インダストリー4.0、日本語に訳すと第四次産業革命になる。AIによるオートメーション化により産業をより効率化、高度化することで生産性を最大化するという考え方。
市場の消費者動向をSNSのデータ解析より分析し、分析結果に適合するデザインをAIによって生成、同時に3Dプリンターで試作品の作成をおこなうといったイメージ。
ただ、アディダスがインダストリー4.0の考え方をもとにアメリカで建設していたスニーカー工場「スマートファクトリー」は2020年に閉鎖されてしまった。
データの特性
- データ・・・データの中身
- メタデータ・・・データの属性を表すデータ
書籍は本文がデータで、発刊日、出版社、著者情報はメタデータ。
- 構造化データ・・・行と列を持つ表の形を持ったデータ(配列、エクセル表)
- 半構造化データ・・・並んでいるが、並び順に規則がない表にならないデータ(Json、NoSQL)
- 非構造化データ・・・画像、文章、音声など。構造を持たない
半構造化データは加工して扱いやすい形にする必要がある。非構造データを扱うには専用のツール、AIモデルが必要。
- 一次データ・・・自分で集めたデータ
- 二次データ・・・すでに他社によって集められたデータを利用
二次データでだれでも無料で利用可能なものはオープンデータと呼ばれる(手書き文字のMNISTなど)。
データサイエンス・AIの活用領域
- 仮説検証・・・経験則で得られた理論が本当に現実に即しているかデータをもとに検証する
- 知識発見・・・複雑な関係性を持つデータに対して、データどうしの関係性や規則性を発見する
- 原因究明・・・ある現象に対してその因果関係をデータから探求する
- 計画策定・判断支援・・・目的を達成するためにベストな方法をデータによって模索する
- 活動代替・・・既存の業務やプロセスをAIを用いてより効果的なものに置き換える
- 新規生成・・・既存のデータからAIによって全く新しい架空のデータ(画像、音声)を生成する
1章・データサイエンス
数学知識
以下の項目を計算するという問題がありますが、四択なので実際に計算しなくても消去法で答えが分かります。
事象、順列、組み合わせ、条件付き確率、平均、中央値、最頻値、分散、標準偏差、微分、偏微分、ベクトル(固有ベクトル、固有値)、行列(逆行列)
久しく数学に触れてなく計算方法をが多い出せない方は復習しておいた方がいいかもしれません。
データの種類
量的データ・・・数、距離、重さなどの連続的で数値字体に意味があり、足引き出来るデータ。
比例尺度・・・量的データのうち、絶対的な0点をもち、数値的に2倍になると実際の量も2倍になる。リンゴの数はリンゴがない場合は0で、2個のリンゴが2倍になれば4個のリンゴになる。
間隔尺度・・・量的データのうち、ある感覚で並べられた尺度で絶対的な尺度を持たない。例えば、摂氏20℃の気温が2倍になったからって40℃になったりしない。ただ、熱量や熱量を熱容量で割ったケルビンは比例尺度といる。
質的データ・・・分類や種類の区別を意味するデータで非連続量です。
順序尺度・・・質的データのうち、等級や区分です。例えば1級とか一段とかです。順序はあるので一段より二段の方が優れているのはわかりますが、一段の人より二段の人の方が2倍強いということはいえない。
名義尺度・・・質的データのうち、順序の無いデータに勝手に順番をつけて並べたもの。例えば青信号を1、黄色信号を2、赤信号は3と決めてしまってラベルを付けする。AIは数字を認識するのは得意ですが、文字列を認識するのは得意ではないので名義尺度を用いることになる。
統計知識
母集団・・・調査対象全体。「日本人の米派とパン派の割合調査」だったら日本人全員。
標本・・・母集団を調査するために抽出したデータ(集団)。
不偏分散・・・標本分散(標本の分散)は母分散(母集団の分散)より小さくなることを補正するために標本分散にn/(n-1)を掛けた値。
標準正規分布・・・正規分布を平均0、分散1になるように標準化したもの。
相関関係・・・一方が大きくなるなると、一方は大きくなる(小さくなる)といった複数のデータの変化傾向の関連性。
因果関係・・・一方が原因でそれによって他方も変化するもの。相関関係だけではどちらかが原因でどちらが結果かわからない。
相関係数・・・2つの量データの相関関係を一次元的に評価するための指標。相関係数が1なら正の相関(一歩が増えたら他方も増える)、0なら相関なし、-1なら負の相関があると言える。例えば、ある集団においてフルマラソンのタイムが速いほど、50メートル走のタイムが速いのか(正の相関)、遅いのか(負の相関)を評価することができる。
相関比・・・量的データと名義尺度(質的データ)の関連性を比較する指標。名義尺度に対する量的データの分散をそれぞれ計算し、名義尺度ごとの量的データの分布の傾向の違いがあるかどうかを確かめることができる。1に近いほど関連性が高く、0は関連性なし。たとえば、各県(名義尺度)に対するゴキの体長(量的尺度)の関係性を見るときに使える(おそらく沖縄のゴキブリが一番デカいですよね)。
連関係数・・・質的データと質的データの関連性を比較する指標。1に近いほど関連性が高く、0は関連性なし。例えば都道府県(質的データ)に対する、各スポーツ(質的データ)の競技人口の関連性を比較するときに使う(おそらく野球が優勢の地域とサッカーが優勢の地域に分かれます)。計算の仕方はいろいろある。
確率
共起頻度・・・Aという事象とBという事象が同時に起きる頻度。例えば、一回の注文でアイスカフェラテとパウンドケーキが同時に注文させる回数。パウンドケーキ食べたい。
信頼度・・・Aという事象が生きた条件下でBという事象が起きる割合。例えば、地震が起きた際に停電が起きる割合。
支持度・・・全体の中でAとBが同時に起きる(共起する)割合。
リフト値・・・Aが起きた際にBが起きる信頼率をBが全体から起きる確率で割った値。
条件付き確率・・・Aの事象が起きた中でBが起きる確率は、全体からAとBが同時に起きる確率から、全体からAが起きる確率を割ったものになる。例えば、路線Aに乗った人が、路線Bに乗り換える確率。
ベイズの定理・・・ひとことでまとめるのは無理(というか、よくわからない)。DS検定では一つの知識を深く出題されることはないので、条件付き確率を応用して既知の事象の確率から未知の事象の確立を推定することができる定義ぐらいに覚えておけば検定自体は対応できそう。これを機にちゃんと勉強したい。
確率密度関数・・・ある因子に対する確率の分布を表した関数。適当な区間で積分することでその区間値が入る確率を求めることができる。
確率分布
離散確率分布
離散一様分布・・・すべての事象が同じ確率で出る確率分布。例、さいころの目が出る確率はどの目も1/6。
ベルヌーイ分布・・・二つの事象があって、それぞれが出る確率は同じじゃない分布。表と裏の面積が違うコインを投げた時の表裏の分布。
二項分布・・・ベルヌーイ試行を繰り返し行ったときにあらわれる分布。先ほどのコインを複数か投げて、表が出た回数は二項分布で表される。
ポアソン分布・・・平均λ回起こる事象がk回起こる確率。例えば、1年に平均5回しか雨が降らないアリゾナ州で同じ年に10回も雨が降る確率を求められる。2項分布の試行回数がめちゃめちゃ多くなるとポアソン分布になる。
混同行列
[不正解]偽陽性・・・偽の陽性。つまり、本当は陽性じゃないのに陽性と予測されてしまったデータ。
[不正解]偽陰性・・・偽の陰性。本当は院生じゃないのに陰性と予測されてしまったデータ。
[正解]真陽性・・・予測も実際も陽性。
[正解]真陰性・・・予測も実際も陰性。
Accuracy(正確さ)・・・全体の中で正しく予測できた(正解だった)割合。全体にしめる真陽性と真陰性の割合。
Precision(精度・適合率)・・・陽性と判断したデータのうち本当に要請だった割合。例えば、麻薬の検査でPrecisionが0.5の検査があったとしたら、陽性と出て100人の人が刑務所送りになってしまった場合、50人の人は無実ということ。ヤバい。
Recall(再現性・真陽性率)・・・実際に陽性のデータの中で陽性と予測できた割合。Recallが0.5のがん検診を100人のがん患者が受けたら50人は取り逃してお亡くなりなるとこと。ヤバい。
f値・・・PrecisionとRecallの調和平均。両方同時に評価したいときに使用する。
可視化の際に気を付けること
- 縦軸は0始まりにする
- 3次元グラフを使わない
- 軸の選び方は関係性が分かりやすいものを選ぶ
- 間隔は均等に
- 大きさを比較するときは円グラフは使わない
- 累積グラフ
平行座標プロット・・・複数次元のデータを次元を横軸に並べて線グラフを描いたもの。例えば、学生一人のデータには算数、国語、英語、理科、社会の点数が保存されていた場合、各教科を横軸にとって点数を線グラフで表したもの。
散布図行列・・・複数次元のデータに対して、各次元を縦軸、横軸にとる行列を作成する。行列のそれぞれの要素は、対応する縦軸、横軸の項目を軸にとる散布図を描く。
ヒートマップ・・・行列や座標上の値が高い部分と低い部分で色を分けて表示するマップ。
箱ひげ図・・・平均値は外れ値に引きずられるので平均値だけではデータの分布が見えにくい。箱ひげ図では、中央値(第二四分位)、25%点(第一四分位)、75%(第三四分位)、外れ値の分布を一目で理解することができる。
実験計画法
ある仮説を検証するために新規にデータを取る際、効率よくデータを取り、正確に解析するための手法。データの傾向が誤差によりものか、因子によるものか検証する分散分析やデータを取る各因子のパターンを削減する直交表などを利用する。
分散分析・・・結果に影響を与える因子を評価するために、因子の影響によるデータの分散とデータそのもの分散の大きさを比較する分析
直交表・・・因子の結果に与える影響を評価する際に、すべてのパターンを試さずに、全部の因子を同じ回数変化させて少ないパターンで影響を調べることができる。例えば、3つの因子の組み合わせが8パターンあった場合、4パターンデータを取るだけで因子の影響を評価できる。
検定
帰無仮説・・・証明したいこととは反対の成り立たないことを証明したい仮説
対立仮説・・・証明したい仮説
帰無仮説が正しくないことを証明(帰無仮説を棄却)できればその対立仮説である証明したい仮説が正しいということになる。帰無仮説を棄却するには標本データから母集団においても帰無仮説が成り立たないことを検証する必要がある。検証の際にはp値という指標を計算してあらかじめ決めておいた閾値(優位水準)より小さけれが帰無仮説を棄却して、対立仮説が正しいことを証明できる。
画像データの前処理
リサイズ・・・画像データの大きさを縮小拡大すること。アスペクト比を固定して行う場合と固定しない場合がある。
トリミング・・・画像のいらない端の部分を切り取って削除すること。
パディング・・・画像の欠けた部分を埋めること。
標本化(サンプリング)・・・アナログの画像や音声をデジタルデータにするために、座標や時間で適当な区間に区切ること。
量子化・・・評価した区間を光の強度や音の大きさによって、何段階かに分類すること。画像の場合は256段階(8ビット)に分けられることが多い。
言語データ前処理
形態素解析・・・文章を最小の言葉の単位(形態素)に分解すること。例えば「夕ご飯を食べる」は「夕」「ご飯」「を」「食べる」に分解する。
ベクトル化・・・形態素解析によって分解された形態素をベクトル値に変換する。
時系列データの解析
移動平均・・・ある一定期間の平均値を連続的に計算し、長期的なデータの変化を分析すること。
周期性・・・週間や年間といった期間で規則的にデータに現れる傾向。
機械学習
機械学習の基本的なアルゴリズムを覚える。ここはG検定と内容が被っているので以下の記事を参照。
機械学習で解決可能な課題
- 分類問題
- 予測問題
- クラスタリング
- 異常検知
過学習(オーバーフィッティング)・・・学習データに対する学習が進行しすぎて、学習データ以外のデータに対して予測ができなくなる現象。例えば道路標識を認識するAIモデルを構築するためにモデルに300枚の道路標識の画像を学習させた際に、過学習が起こると学習データの画像にある標識は100%の精度に認識できるのに、未知の画像に移っている道路標識は少しでも学習データの道路標識と異なると(例えば角度が違う、光の反射が違う)道路標識として認識できなくなる。
アノテーション・・・教師学習ではアノテーションにより正解ラベル(タグ)データにつける必要性があり、データに一対一対応で正解ラベルを付けることをアノテーションと呼ぶ。
データバイアス・・・データの偏りによってAIモデルの判定に偏りが出てしまうこと。顔認識AIは白人男性の認識精度が一番高いという話が有名。
アルゴリズムバイアス・・・偏りのないデータを学習させても、アルゴリズムの特性によって結果に偏りが出てしまうこともある。
ROC曲線・・・陽性、陰性二つのカテゴリーに分類する際に、どこを基準に分けるか(閾値)でTPR(陽性と判断したものの中で本当に陽性だった割合)とFPR(陰性と判断されたものの中で本当に陰性だった割合)が変化するが、TPRとFPRの関係性をグラフで表したものをROC曲線という。
AUC・・・ROC曲線がとグラフの軸で囲まれる面積。AUCが高いほど、はっきりと分類できていることがわかる。
2章・データエンジニアリング
オープンデータ・・・インターネットで公開されており、誰もが無料で利用可能。以下の特徴がある。
- 営利奥的、非営利目的問わず誰もが二次利用可能なルールが定められる
- プログラムから利用可能
- 無料
クローラー・・・webページを巡回して情報を習得するプログラム。googleは世の中のすべてのwebページを循環して検索結果を最新のものにしている。webページからwebページに移動する方法には、今閲覧しているwebページのリンクを踏むという方法がある。
スクレイピングツール・・・webページを指定して、そのwebページにある目的の情報をプログラムによって得るツール。情報の提供者がスクレイピングを拒否している情報を取得してはいけない。最近では動的ページもスクレイピングできるようになっている。
インフラ
拡張性(スケーラビリティ)・・・サーバーを増やすことで時間当たりの処理能力を向上させる(スケールアウト)。
高可用性・・・一部のサーバーが故障によって使用できなくなっても他のサーバーをによってシステム全体での故障率を下げることで可用性の高いシステムを構築できる。
機密性・・・適切なユーザーだけがデータにアクセスできる。
完全性・・・データが改ざんされておらず、正確であること。
サンプリング処理
単純無作為サンプリング・・・母集団の中からランダムにサンプルを抽出する。
系統サンプリング・・・3つおき、5つおきというように一定間隔でサンプリングする。
層別サンプリング・・・母集団をいくつかのグループに分けてそれぞれのグループからサンプリングする。
集落サンプリング・・・場集団をいくつかのグループに分け、ランダムに選んだグループすべてをサンプリングする。
多段サンプリング・・・場集団をいくつかのグループに分け、ランダムに選んだグループのなからさらにランダムにサンプリングする。
SQL例
データ解析でよく使われるSQLをまとめる。
SELECT・・・データベースからレコードの指定した項目を取得する。FROMでテーブル名を指定する。*はすべて取得という意味。FROMでデータを取得する表(テーブル名)を指定できる。
SELECT *
FROM employee
WHERE・・・条件を指定し、条件に該当したデータのみを取得する。指定方法を以下の演算子を利用する。
AND・・・複数の条件式をandでまとめる。()で囲むことで評価の順序を操作できる。ORも同様に使える。
SELECT *
FROM employee
WHERE age = 20 AND age = 40
条件式には=、<、<=、<>(等しくない)などが使える。
IN・・・()で囲んだ値に含まれているものを抽出する、複数戦tなくする場合は,(カンマ)で区切る。含まれない場合はNOT IN。
SELECT *
FROM employee
WHERE age IN (20,25,30)
IS NULL・・・NULLじゃないか判断。= nullは使えないので注意。
BETWEEM・・・ある値から値までを抽出。
SELECT *
FROM employee
WHERE age BETWEEN 20 AND 30
LIKE・・・正規表現で一致するレコードだけを抽出。
ORDER BY・・・ある値で並び替え。
SELECT *
FROM employee
ORDER BY age DESC
昇順→ASC(デフォ)、 降順→DESC。
DISTINCT・・・重複した結果は一つを残して除去して出力。
SELECT DISTINCT name
FROM employee
LIMIT・・・表示数を絞れる LIMIT10なら先頭から10行表示。
GROUP BY・・・ある値で集計。下の場合は年齢で修正し、年齢ごとの人数を表示。
SELECT COUNT(*) AS 年齢別該当人数
FROM employee
GROUP BY age
COUNT関数・・・該当項目の数を算出、MAX関数・・・最大値、MIN関数・・・最小値、SUM関数・・・合計値、AVERAGE関数・・・平均値を算出、VAR.P関数・・・分散を算出、STDEV.P関数・・・標準偏差を算出、MEDIAN関数・・・中央値を算出、MODE関数・・・最頻値を算出。
TO_DATE関数・・・文字列を日付型に変換する。Oracle、PostgreSQLで使用可能。mysqlだとSTR_TO_DATE関数を使う。
実装
API・・・人とシステムのインターフェースであるUIに対してアプリケーションどうしのインターフェース。いろいろな形式があるが、インターネットを通してHTTPメソッドを使って情報をやり取りできるREST APIが有名。SOAP APIもあるが最近は使われることが減ったので出題されないと思われる。REST APIはwebアプリケーションとして分析基盤を使用するときに使うほか、オープンデータのダウンロードなどにも利用できる。情報は主にJSON形式でやり取りされる。
BIツール
分析結果が複数のファイルに散らばっていると使い勝手がわるいので、一枚のページに必要な分析結果を集約するためのツール。MSのPower BIが有名。GoogleアナリティクスなどのgoogleのサービスやGCPと結合できるGoogleデータポータルも検索で出てくる。
(Googleアナリティクスもダッシュボードを自分でつくれるので広い意味ではBIなのではと思う)
レポーティング・・・分析結果をグラフや表にまとめてダッシュボードにまとめて表示する。
OLAP分析・・・蓄積したデータを様々な角度から分析して問題を洗い出す。
データマイニング・・・過去のデータを分析して、ビジネス的に価値のあるデータや知見を得る。
プランニング・・・過去のデータから未来の予測を行う。
エンタープライズBI・・・データサイエンティストやエンジニア構築する必要のあるBI。
セルフBI・・・ユーザーが自らダッシュボードを構築できるBI。
ダイス・・・集計するために軸を変えること。
第3章・ビジネス
データドリブン・・・ビジネスの課題に対し、データを取り入れた意思決定や判断をすること。
- ビジネスに関わるステークホルダーの利害関係や目的を把握していること
- プロジェクトを進めるにあたって、論理が分析目的を達成するためのものになっている
- 論理を実証するために必要なデータを用意できる
- 分析結果をもとに意思決定できる
KPI・・・重要業績評価指標。
KGI・・重要目的評価指標。
コンプライアンス
個人情報・・・生存する個人の情報。個人を特定できるもの(氏名、住所、顔写真)、個人識別符号(会員ID、免許証番号、マイナンバー)など。
要配慮個人情報・・・個人情報のうち、人種、信条、病歴、犯罪歴などさらにセンシティブな内容。
仮名加工情報・・・個人情報を他の情報と参照しない限り特定できないように加工した情報。
匿名加工情報・・・個人情報を個人特定不可な情報に加工したもの。
上記以外の個人情報・・・IPアドレスなど。
GDPR・・・欧州の厳しい個人情報に関する法律。欧州からのアクセスが可能な場合、日本で展開しているサービスであっても従う必要がある。
個人情報保護法・・・日本の個人情報保護するための法律。2022年に改正されてデータの利用ルールの厳格化やペナルティの強化が行われる。