ISTQB AI Tester認定試験では、ML(機械学習)モデルの機能性能メトリクス(ML Functional Performance Metrics)について、その有効性だけでなく「限界(Limitations)」を理解しているかも問われます。
一見すると、Accuracy(正解率)やPrecision(適合率)、Recall(再現率)などの数値が高ければ「良いAIモデル」に見えますが、それだけでは評価できない要素が数多く存在します。
本記事では、ISTQB AI Tester シラバス Chapter 5.3 に基づき、
ML機能性能メトリクスの主な制約・注意点を、具体例を交えてわかりやすく解説します。
1. ML機能性能メトリクスとは何か(おさらい)
ML機能性能メトリクスとは、機械学習モデルがどれだけ正しく予測・分類できているかを、数値で評価するための指標です。
代表的なものには以下があります。
-
Accuracy(正解率)
-
Precision(適合率)
-
Recall(再現率)
-
F1スコア
-
AUC(ROC曲線下面積)
-
MSE(平均二乗誤差)
-
Silhouette係数(クラスタリング評価)
👉 重要ポイント
ここでいう「Performance(性能)」とは、
ISO/IEC 25010で定義される非機能品質特性の「性能効率」ではありません。
あくまで
👉 MLモデルの「機能的な振る舞い」だけを測定する指標
である点に注意が必要です。
2. 非機能品質特性は測定できないという限界
ML機能性能メトリクスの最大の制約の一つは、
非機能品質特性を測定できないことです。
測定できない代表例
-
パフォーマンス効率(応答時間、スループット)
-
セキュリティ
-
信頼性
-
拡張性(Scalability)
-
保守性
-
柔軟性
これらは、ISO/IEC 25010で定義されるソフトウェア品質特性ですが、
AccuracyやF1スコアでは一切評価できません。
👉 つまり
「精度が高いAI = 品質が高いAI」ではない
ということです。
3. 「Performance」という言葉による誤解
ISTQB AI Tester シラバスでは、
あえて 「ML Functional Performance Metrics」 という用語が使われています。
なぜこの名称なのか?
-
一般的に「Performance Metrics」という言葉が広く使われている
-
ML特有の指標であることを強調するために「ML Functional」を付加
-
非機能性能(Performance Efficiency)とは無関係であることを明確にするため
👉 試験対策ポイント
「Performance」という言葉に引っ張られて、非機能テストの話と混同しないことが重要です。
4. 教師あり学習では「ラベル品質」に依存する
教師あり学習(Supervised Learning)では、
ML機能性能メトリクスは正解ラベル付きデータを基に算出されます。
制約ポイント
-
ラベルが誤っている → メトリクスも誤る
-
ラベル付けのばらつき → 評価結果が不安定
具体例
-
画像分類AIで「猫」と「犬」のラベルが混在
-
医療AIで診断ラベルに医師間の判断差がある
👉 正しい評価は、正しいラベルが前提条件
これは Chapter 4.5(データラベリング)とも強く関連します。
5. 評価データが偏っている可能性
ML機能性能メトリクスは、
評価に使ったデータセットに完全に依存します。
制約ポイント
-
データが現実世界を代表していない
-
偏り(Bias)が存在する
-
特定条件に強すぎるモデルになる
具体例
-
晴天時の画像だけで学習した自動運転AI
-
特定年齢層だけで学習した信用スコアモデル
👉 高いAccuracyでも、実運用では役に立たないケースがある
これは Chapter 2(AIのリスク・バイアス)とも直結する重要ポイントです。
6. システム全体を評価できない
ML機能性能メトリクスが評価するのは、
**あくまで「MLモデル単体」**です。
評価対象外の例
-
データ収集パイプライン
-
前処理・後処理ロジック
-
外部API連携
-
UIや業務フロー
具体例
-
モデル精度は高いが、データ前処理が遅く実用不可
-
推論結果は正しいが、業務システム連携で誤動作
👉 AIシステム全体の品質は測れない
という点は大きな制約です。
7. ツール依存という制約
多くのML機能性能メトリクスは、
ツールなしで手計算するのが困難です。
制約ポイント
-
専用ツールやライブラリが必要
-
ライセンス費用が発生する場合もある
-
操作する人のスキルに依存
👉 これは
コスト増加・運用負荷増加
という観点での制約になります。
8. まとめ:ML機能性能メトリクスの限界を理解する
ML機能性能メトリクスは、
AIモデルの有効性を評価するうえで不可欠ですが、
万能ではありません。
押さえるべきポイント
-
機能的側面しか測れない
-
非機能品質特性は対象外
-
データ品質・バイアスに強く依存
-
モデル単体評価に限定される
-
ツール依存・コストの問題がある
👉 ISTQB AI Testerでは
「何が測れるか」だけでなく「何が測れないか」を理解しているか
が問われます。
今後、AIテスト分野はさらに進化し、
より包括的な評価手法が登場する可能性がありますが、
現時点での限界を正しく理解することが、AIテストエンジニアの重要な役割です。

コメント