【ISTQB /JSTQB AI Tester 解説】ML機能性能メトリクスの限界(Limitations of ML Performance Metrics)

JSTQB AI Tester

ISTQB AI Tester認定試験では、ML(機械学習)モデルの機能性能メトリクス(ML Functional Performance Metrics)について、その有効性だけでなく「限界(Limitations)」を理解しているかも問われます。

一見すると、Accuracy(正解率)やPrecision(適合率)、Recall(再現率)などの数値が高ければ「良いAIモデル」に見えますが、それだけでは評価できない要素が数多く存在します。

本記事では、ISTQB AI Tester シラバス Chapter 5.3 に基づき、

ML機能性能メトリクスの主な制約・注意点を、具体例を交えてわかりやすく解説します。


1. ML機能性能メトリクスとは何か(おさらい)

ML機能性能メトリクスとは、機械学習モデルがどれだけ正しく予測・分類できているかを、数値で評価するための指標です。

代表的なものには以下があります。

  • Accuracy(正解率)

  • Precision(適合率)

  • Recall(再現率)

  • F1スコア

  • AUC(ROC曲線下面積)

  • MSE(平均二乗誤差)

  • Silhouette係数(クラスタリング評価)

👉 重要ポイント

ここでいう「Performance(性能)」とは、

ISO/IEC 25010で定義される非機能品質特性の「性能効率」ではありません。

あくまで

👉 MLモデルの「機能的な振る舞い」だけを測定する指標

である点に注意が必要です。


2. 非機能品質特性は測定できないという限界

ML機能性能メトリクスの最大の制約の一つは、

非機能品質特性を測定できないことです。

測定できない代表例

  • パフォーマンス効率(応答時間、スループット)

  • セキュリティ

  • 信頼性

  • 拡張性(Scalability)

  • 保守性

  • 柔軟性

これらは、ISO/IEC 25010で定義されるソフトウェア品質特性ですが、

AccuracyやF1スコアでは一切評価できません。

👉 つまり

「精度が高いAI = 品質が高いAI」ではない

ということです。


3. 「Performance」という言葉による誤解

ISTQB AI Tester シラバスでは、

あえて 「ML Functional Performance Metrics」 という用語が使われています。

なぜこの名称なのか?

  • 一般的に「Performance Metrics」という言葉が広く使われている

  • ML特有の指標であることを強調するために「ML Functional」を付加

  • 非機能性能(Performance Efficiency)とは無関係であることを明確にするため

👉 試験対策ポイント

「Performance」という言葉に引っ張られて、非機能テストの話と混同しないことが重要です。


4. 教師あり学習では「ラベル品質」に依存する

教師あり学習(Supervised Learning)では、

ML機能性能メトリクスは正解ラベル付きデータを基に算出されます。

制約ポイント

  • ラベルが誤っている → メトリクスも誤る

  • ラベル付けのばらつき → 評価結果が不安定

具体例

  • 画像分類AIで「猫」と「犬」のラベルが混在

  • 医療AIで診断ラベルに医師間の判断差がある

👉 正しい評価は、正しいラベルが前提条件

これは Chapter 4.5(データラベリング)とも強く関連します。


5. 評価データが偏っている可能性

ML機能性能メトリクスは、

評価に使ったデータセットに完全に依存します。

制約ポイント

  • データが現実世界を代表していない

  • 偏り(Bias)が存在する

  • 特定条件に強すぎるモデルになる

具体例

  • 晴天時の画像だけで学習した自動運転AI

  • 特定年齢層だけで学習した信用スコアモデル

👉 高いAccuracyでも、実運用では役に立たないケースがある

これは Chapter 2(AIのリスク・バイアス)とも直結する重要ポイントです。


6. システム全体を評価できない

ML機能性能メトリクスが評価するのは、

**あくまで「MLモデル単体」**です。

評価対象外の例

  • データ収集パイプライン

  • 前処理・後処理ロジック

  • 外部API連携

  • UIや業務フロー

具体例

  • モデル精度は高いが、データ前処理が遅く実用不可

  • 推論結果は正しいが、業務システム連携で誤動作

👉 AIシステム全体の品質は測れない

という点は大きな制約です。


7. ツール依存という制約

多くのML機能性能メトリクスは、

ツールなしで手計算するのが困難です。

制約ポイント

  • 専用ツールやライブラリが必要

  • ライセンス費用が発生する場合もある

  • 操作する人のスキルに依存

👉 これは

コスト増加・運用負荷増加

という観点での制約になります。


8. まとめ:ML機能性能メトリクスの限界を理解する

ML機能性能メトリクスは、

AIモデルの有効性を評価するうえで不可欠ですが、

万能ではありません。

押さえるべきポイント

  • 機能的側面しか測れない

  • 非機能品質特性は対象外

  • データ品質・バイアスに強く依存

  • モデル単体評価に限定される

  • ツール依存・コストの問題がある

👉 ISTQB AI Testerでは

「何が測れるか」だけでなく「何が測れないか」を理解しているか

が問われます。

今後、AIテスト分野はさらに進化し、

より包括的な評価手法が登場する可能性がありますが、

現時点での限界を正しく理解することが、AIテストエンジニアの重要な役割です。

コメント

タイトルとURLをコピーしました