〜Accuracy・Precision・Recall・F1スコアを理解する〜
機械学習(ML)モデルの性能を評価する際、「正解率が高い=良いモデル」とは限りません。
ISTQB AI Tester認定試験でも重要視されているのが、混同行列(Confusion Matrix)と、そこから導き出される性能評価指標です。
本記事では、
-
混同行列とは何か
-
True / False、Positive / Negative の意味
-
Accuracy・Precision・Recall・F1スコアの計算方法
-
実務や試験での考え方
を、具体例つきでわかりやすく解説します。
第5章:ML Functional Performance Metrics とは?
ISTQB AI Tester 第5章では、**機械学習モデルの「性能をどう測るか」**がテーマになります。
主なトピックは以下です。
-
混同行列(Confusion Matrix)
-
分類・回帰・クラスタリングにおける性能指標
-
ML性能指標の限界
-
適切な評価指標の選択
-
MLテストスイートにおけるベンチマーク設定
今回は、その中でも**最も基礎となる「混同行列」**にフォーカスします。
混同行列(Confusion Matrix)とは?
なぜ「Confusion(混乱)」という名前なのか?
混同行列とは、MLモデルがどこで「勘違い(混乱)」しているかを可視化するための表です。
分類問題では、モデルが常に正しい予測をするとは限りません。
そのズレを整理して示すのが混同行列です。
混同行列の基本構造
混同行列は、以下の 2つの軸 で構成されます。
-
Predicted(予測結果):モデルが出した答え
-
Actual(実際の結果):正解データ(教師データ)
それぞれに
-
Positive(肯定)
-
Negative(否定)
があり、合計 4つの結果 が生まれます。
混同行列の4つの要素
|
実際 / 予測 |
Positive(肯定) |
Negative(否定) |
|---|---|---|
|
Positive |
True Positive(TP) |
False Negative(FN) |
|
Negative |
False Positive(FP) |
True Negative(TN) |
各用語の意味
-
True Positive(TP)
→ 正しい「陽性」予測(予測も実際もPositive)
-
False Positive(FP)
→ 誤った「陽性」予測(予測はPositiveだが実際はNegative)
-
False Negative(FN)
→ 見逃し(予測はNegativeだが実際はPositive)
-
True Negative(TN)
→ 正しい「陰性」予測(予測も実際もNegative)
👉 FP と FN が多いほど、モデルは混乱していると判断できます。
具体例:スパムメール判定
-
Positive:スパムメール
-
Negative:通常メール
|
状況 |
判定 |
|---|---|
|
スパムをスパムと判定 |
True Positive |
|
通常メールをスパムと誤判定 |
False Positive |
|
スパムを見逃す |
False Negative |
|
通常メールを正しく判定 |
True Negative |
👉 どのミスが致命的かはユースケース次第です。
混同行列から導かれる主要な性能指標
混同行列を元に、次の指標が計算されます。
-
Accuracy(正解率)
-
Precision(適合率)
-
Recall(再現率)
-
F1スコア
Accuracy(正解率)
計算式
Accuracy = (TP + TN) / (TP + TN + FP + FN) × 100
意味
-
全体のうち、どれだけ正しく分類できたか
⚠️ ただし、**データの偏り(不均衡データ)**があると、Accuracyだけでは不十分。
Precision(適合率)
計算式
Precision = TP / (TP + FP) × 100
意味
-
「Positive」と判定したもののうち、どれだけ本当に正しかったか
-
誤検知(False Positive)を減らしたい場合に重要
Recall(再現率 / Sensitivity)
計算式
Recall = TP / (TP + FN) × 100
意味
-
実際にPositiveなものを、どれだけ取りこぼさず検出できたか
-
見逃し(False Negative)を減らしたい場合に重要
Precision と Recall のトレードオフ
-
Precision を上げる → 厳しく判定 → 見逃し増加
-
Recall を上げる → 甘く判定 → 誤検知増加
👉 このバランスを取る指標が F1スコア です。
F1スコア(最重要)
計算式
F1 Score = 2 × (Precision × Recall) / (Precision + Recall)
特徴
-
Precision と Recall の調和平均
-
値は 0〜1
-
1に近い → 非常に良いモデル
-
0に近い → 性能が低いモデル
-
ISTQB試験でのポイント
-
F1スコアが低い=モデル改善が必要
-
Accuracy だけで評価しない理由を説明できることが重要
ISTQB AI Tester視点でのまとめ
-
混同行列は MLモデルの「混乱」を見える化するツール
-
FP / FN が多い理由を分析するのがテスト担当者の役割
-
F1スコアは 分類モデル評価の基本
-
ユースケースに応じて指標を選択することが重要
👉 **「どの指標を、なぜ使うのか」**を説明できるようにしておきましょう。

コメント