【G検定・ITパス】混同行列とは?TP・FP・FN・TNを一瞬で完全理解する図解2枚!

モデルの評価と過学習

「G検定やデータサイエンス系の試験勉強をしていて、TP、FP、FN、TNの区別がごちゃごちゃになって諦めそう…」 「全体の正解率だけじゃダメなの?なぜわざわざこんなマニアックな表を使うの?」

AIや機械学習モデルの性能を測るテストで、絶対に避けて通れない最重要テーマが「混同行列(Confusion Matrix)」です。

アルファベット2文字の組み合わせが呪文のように見えて拒絶反応が出る方も多いですが、実は「ある裏ワザ」を使えば、丸暗記なしで一瞬で読み解けるようになります!

今回は、5大データサイエンス資格を制覇した筆者が、直感イメージと理論の2枚の図解だけを使って、どこよりもスッキリ解説します!

1.【直感編】混同行列とは?「合格・不合格のクセ」を見抜く表

混同行列を一言でいうと、「AIの予測結果と本当の結果を2×2のマスに整理して、AIの『見落とし』や『空回り』のクセをあぶり出す表」です。

まずは、こちらの「直感図解」で全体のイメージを掴みましょう!

ただ「何問当たったか(正解率)」を見るだけでは、AIの本当の実力は分かりません。 例えば、試験の合否を予測するAIがあったとき、エラーには以下の2つのパターン(クセ)が存在します。

  • オオカミ少年状態(偽陽性:FP): 「いける!」と太鼓判を押したのに、本番で落ちてしまった大ハズレ
  • 嬉しい誤算状態(偽陰性:FN): 「無理…」と諦めていたのに、本番で見事に合格した大ハズレ

このように、「AIがどういう間違え方をしたのか」の質を細かく分析できるのが、混同行列最大のメリットです。

2.【理論編】TP / FP / FN / TNを一瞬で読み解く「逆方向読み」の裏ワザ

試験で受験生を最も苦しめるのが、「TP・FP・FN・TN」というアルファベットの呪文です。 これを表の縦横と照らし合わせて丸暗記しようとすると、本番の緊張で必ず混乱します。

そこで、「後ろの単語から逆方向に読む」という最強の裏ワザを使いましょう!理論図解で仕組みを解説します。

核心は、「後半の単語はAIのオピニオン(予測)、前半の単語はその結果(事実)」を表しているという点です。

例えば、「FP(False Positive)」という文字を見たら、後ろから前に向かって以下のように脳内で翻訳します。

  1. P(Positive=陽性): まず、AIが「合格(陽性)だ!」と予測した。
  2. F(False=不正解): でも、その予測は「ハズレ(False)」だった。
  3. 結論: つまり「不合格なのに、AIが合格と誤予測した(偽陽性)」という意味!

これさえ分かれば、他の3つもパズル感覚で一瞬で導き出せます。

  • TP(True Positive): 陽性と予測して(P)、当たった(T)➔ 真陽性(大正解)
  • TN(True Negative): 陰性と予測して(N)、当たった(T)➔ 真陰性(大正解)
  • FN(False Negative): 陰性と予測して(N)、ハズレた(F)➔ 偽陰性(見落とし)

もう、ややこしいマスの位置を丸暗記する必要はありません!

3. 試験での狙われ方!なぜ「正解率」だけではダメなのか?

資格試験では、「なぜ正解率(Accuracy)だけではなく、混同行列を使って適合率や再現率を計算する必要があるのか?」という理由が非常によく問われます。

結論から言うと、「データのバランスが極端に偏っているとき、正解率は完全に役に立たなくなるから」です。

🚨「正解率99%の偽物AI」の罠

例えば、「100人中1人しか罹らない珍しい病気」を診断するAIを作るとします。 このとき、中身は何も考えておらず、全員に対して一律で「あなたは健康(陰性)です」としか言わない単純なAIがあったとしましょう。

このAIの正解率はどうなるでしょうか? 100人中99人は本当に健康なので、なんと「正解率99%」という超優秀そうな数字が叩き出されてしまいます。

しかし、本当に見つけ出さなければならない「1人の重症患者」を完全に見落として(FN)いますよね。医療現場なら大惨事です。

だからこそ、混同行列を使って、

  • 適合率(Precision): AIが病気と予測した中で、本当に病気だった確率は?(空回りの少なさ)
  • 再現率(Recall): 本物の病気の人を、どれだけ漏らさず見つけられたか?(見落としの少なさ)

を個別に計算し、AIの真の実力を厳密に評価する必要があるのです。

まとめ:全員の知恵を結集させて応用力を測ろう!

混同行列の英語の省略形(TP/FP/FN/TN)は、「後ろから逆方向に読む」。これだけ覚えておけば、G検定やITパスポートの計算問題は一気に得点源に変わります!

今回のポイントを復習しましょう。

  • 混同行列は、AIの予測の「クセ(間違え方の質)」をあぶり出す表
  • 後半の単語は「AIの予測」、前半の単語は「その成否(的中かハズレか)」
  • データの偏りがあるときは、正解率だけでなく適合率・再現率での評価が必須

ここから派生する「適合率」や「再現率」の具体的な計算式については、次回以降の記事で効率的な勉強法と一緒に詳しく解説しています!

楽天

コメント

タイトルとURLをコピーしました