【ISTQB /JSTQB AI Tester 解説】ISTQB AI Tester|混同行列(Confusion Matrix)とML性能評価指標を徹底解説

JSTQB AI Tester

〜Accuracy・Precision・Recall・F1スコアを理解する〜

機械学習(ML)モデルの性能を評価する際、「正解率が高い=良いモデル」とは限りません。

ISTQB AI Tester認定試験でも重要視されているのが、混同行列(Confusion Matrix)と、そこから導き出される性能評価指標です。

本記事では、

  • 混同行列とは何か

  • True / False、Positive / Negative の意味

  • Accuracy・Precision・Recall・F1スコアの計算方法

  • 実務や試験での考え方

を、具体例つきでわかりやすく解説します。


第5章:ML Functional Performance Metrics とは?

ISTQB AI Tester 第5章では、**機械学習モデルの「性能をどう測るか」**がテーマになります。

主なトピックは以下です。

  • 混同行列(Confusion Matrix)

  • 分類・回帰・クラスタリングにおける性能指標

  • ML性能指標の限界

  • 適切な評価指標の選択

  • MLテストスイートにおけるベンチマーク設定

今回は、その中でも**最も基礎となる「混同行列」**にフォーカスします。


混同行列(Confusion Matrix)とは?

なぜ「Confusion(混乱)」という名前なのか?

混同行列とは、MLモデルがどこで「勘違い(混乱)」しているかを可視化するための表です。

分類問題では、モデルが常に正しい予測をするとは限りません。

そのズレを整理して示すのが混同行列です。


混同行列の基本構造

混同行列は、以下の 2つの軸 で構成されます。

  • Predicted(予測結果):モデルが出した答え

  • Actual(実際の結果):正解データ(教師データ)

それぞれに

  • Positive(肯定)

  • Negative(否定)

があり、合計 4つの結果 が生まれます。


混同行列の4つの要素

実際 / 予測

Positive(肯定)

Negative(否定)

Positive

True Positive(TP)

False Negative(FN)

Negative

False Positive(FP)

True Negative(TN)

各用語の意味

  • True Positive(TP)

    → 正しい「陽性」予測(予測も実際もPositive)

  • False Positive(FP)

    → 誤った「陽性」予測(予測はPositiveだが実際はNegative)

  • False Negative(FN)

    → 見逃し(予測はNegativeだが実際はPositive)

  • True Negative(TN)

    → 正しい「陰性」予測(予測も実際もNegative)

👉 FP と FN が多いほど、モデルは混乱していると判断できます。


具体例:スパムメール判定

  • Positive:スパムメール

  • Negative:通常メール

状況

判定

スパムをスパムと判定

True Positive

通常メールをスパムと誤判定

False Positive

スパムを見逃す

False Negative

通常メールを正しく判定

True Negative

👉 どのミスが致命的かはユースケース次第です。


混同行列から導かれる主要な性能指標

混同行列を元に、次の指標が計算されます。

  • Accuracy(正解率)

  • Precision(適合率)

  • Recall(再現率)

  • F1スコア


Accuracy(正解率)

計算式

Accuracy = (TP + TN) / (TP + TN + FP + FN) × 100

意味

  • 全体のうち、どれだけ正しく分類できたか

⚠️ ただし、**データの偏り(不均衡データ)**があると、Accuracyだけでは不十分。


Precision(適合率)

計算式

Precision = TP / (TP + FP) × 100

意味

  • 「Positive」と判定したもののうち、どれだけ本当に正しかったか

  • 誤検知(False Positive)を減らしたい場合に重要


Recall(再現率 / Sensitivity)

計算式

Recall = TP / (TP + FN) × 100

意味

  • 実際にPositiveなものを、どれだけ取りこぼさず検出できたか

  • 見逃し(False Negative)を減らしたい場合に重要


Precision と Recall のトレードオフ

  • Precision を上げる → 厳しく判定 → 見逃し増加

  • Recall を上げる → 甘く判定 → 誤検知増加

👉 このバランスを取る指標が F1スコア です。


F1スコア(最重要)

計算式

F1 Score = 2 × (Precision × Recall) / (Precision + Recall)

特徴

  • Precision と Recall の調和平均

  • 値は 0〜1

    • 1に近い → 非常に良いモデル

    • 0に近い → 性能が低いモデル

ISTQB試験でのポイント

  • F1スコアが低い=モデル改善が必要

  • Accuracy だけで評価しない理由を説明できることが重要


ISTQB AI Tester視点でのまとめ

  • 混同行列は MLモデルの「混乱」を見える化するツール

  • FP / FN が多い理由を分析するのがテスト担当者の役割

  • F1スコアは 分類モデル評価の基本

  • ユースケースに応じて指標を選択することが重要

👉 **「どの指標を、なぜ使うのか」**を説明できるようにしておきましょう。

コメント

タイトルとURLをコピーしました