【ISTQB /JSTQB AI Tester 解説】ISTQB AI Tester｜混同行列（Confusion Matrix）とML性能評価指標を徹底解説

〜Accuracy・Precision・Recall・F1スコアを理解する〜

機械学習（ML）モデルの性能を評価する際、「正解率が高い＝良いモデル」とは限りません。

ISTQB AI Tester認定試験でも重要視されているのが、混同行列（Confusion Matrix）と、そこから導き出される性能評価指標です。

本記事では、

混同行列とは何か
True / False、Positive / Negative の意味
Accuracy・Precision・Recall・F1スコアの計算方法
実務や試験での考え方

を、具体例つきでわかりやすく解説します。

第5章：ML Functional Performance Metrics とは？

ISTQB AI Tester 第5章では、**機械学習モデルの「性能をどう測るか」**がテーマになります。

主なトピックは以下です。

混同行列（Confusion Matrix）
分類・回帰・クラスタリングにおける性能指標
ML性能指標の限界
適切な評価指標の選択
MLテストスイートにおけるベンチマーク設定

今回は、その中でも**最も基礎となる「混同行列」**にフォーカスします。

混同行列（Confusion Matrix）とは？

なぜ「Confusion（混乱）」という名前なのか？

混同行列とは、MLモデルがどこで「勘違い（混乱）」しているかを可視化するための表です。

分類問題では、モデルが常に正しい予測をするとは限りません。

そのズレを整理して示すのが混同行列です。

混同行列の基本構造

混同行列は、以下の 2つの軸 で構成されます。

Predicted（予測結果）：モデルが出した答え
Actual（実際の結果）：正解データ（教師データ）

それぞれに

Positive（肯定）
Negative（否定）

があり、合計 4つの結果 が生まれます。

混同行列の4つの要素

実際 / 予測	Positive（肯定）	Negative（否定）
Positive	True Positive（TP）	False Negative（FN）
Negative	False Positive（FP）	True Negative（TN）

各用語の意味

True Positive（TP）

→ 正しい「陽性」予測（予測も実際もPositive）
False Positive（FP）

→ 誤った「陽性」予測（予測はPositiveだが実際はNegative）
False Negative（FN）

→ 見逃し（予測はNegativeだが実際はPositive）
True Negative（TN）

→ 正しい「陰性」予測（予測も実際もNegative）

👉 FP と FN が多いほど、モデルは混乱していると判断できます。

具体例：スパムメール判定

Positive：スパムメール
Negative：通常メール

状況	判定
スパムをスパムと判定	True Positive
通常メールをスパムと誤判定	False Positive
スパムを見逃す	False Negative
通常メールを正しく判定	True Negative

👉 どのミスが致命的かはユースケース次第です。

混同行列から導かれる主要な性能指標

混同行列を元に、次の指標が計算されます。

Accuracy（正解率）
Precision（適合率）
Recall（再現率）
F1スコア

Accuracy（正解率）

計算式

Accuracy = (TP + TN) / (TP + TN + FP + FN) × 100

意味

全体のうち、どれだけ正しく分類できたか

⚠️ ただし、**データの偏り（不均衡データ）**があると、Accuracyだけでは不十分。

Precision（適合率）

計算式

Precision = TP / (TP + FP) × 100

意味

「Positive」と判定したもののうち、どれだけ本当に正しかったか
誤検知（False Positive）を減らしたい場合に重要

Recall（再現率 / Sensitivity）

計算式

Recall = TP / (TP + FN) × 100

意味

実際にPositiveなものを、どれだけ取りこぼさず検出できたか
見逃し（False Negative）を減らしたい場合に重要

Precision と Recall のトレードオフ

Precision を上げる → 厳しく判定 → 見逃し増加
Recall を上げる → 甘く判定 → 誤検知増加

👉 このバランスを取る指標が F1スコア です。

F1スコア（最重要）

計算式

F1 Score = 2 × (Precision × Recall) / (Precision + Recall)

特徴

Precision と Recall の調和平均
値は 0〜1
- 1に近い → 非常に良いモデル
- 0に近い → 性能が低いモデル

ISTQB試験でのポイント

F1スコアが低い＝モデル改善が必要
Accuracy だけで評価しない理由を説明できることが重要

ISTQB AI Tester視点でのまとめ

混同行列は MLモデルの「混乱」を見える化するツール
FP / FN が多い理由を分析するのがテスト担当者の役割
F1スコアは 分類モデル評価の基本
ユースケースに応じて指標を選択することが重要

👉 **「どの指標を、なぜ使うのか」**を説明できるようにしておきましょう。

ソフトウェアテスト技法練習帳　～知識を経験に変える40問～ [ 梅津正洋、竹内亜未、伊藤由貴、浦山さつき、佐々木千絵美、高橋理、武田春恵、根本紀之、藤沢耕助、真鍋俊之、山岡悠、吉田直史［著］ ]

posted with カエレバ

楽天市場

Amazon

ソフトウェアテスト技法ドリル【第2版】テスト設計の考え方と実際 [ 秋山浩一 ]

posted with カエレバ

楽天市場

Amazon