【ISTQB /JSTQB AI Tester 解説】ML機能性能メトリクスの限界（Limitations of ML Performance Metrics）

ISTQB AI Tester認定試験では、ML（機械学習）モデルの機能性能メトリクス（ML Functional Performance Metrics）について、その有効性だけでなく「限界（Limitations）」を理解しているかも問われます。

一見すると、Accuracy（正解率）やPrecision（適合率）、Recall（再現率）などの数値が高ければ「良いAIモデル」に見えますが、それだけでは評価できない要素が数多く存在します。

本記事では、ISTQB AI Tester シラバス Chapter 5.3 に基づき、

ML機能性能メトリクスの主な制約・注意点を、具体例を交えてわかりやすく解説します。

1. ML機能性能メトリクスとは何か（おさらい）
2. 非機能品質特性は測定できないという限界
1. 測定できない代表例
3. 「Performance」という言葉による誤解
1. なぜこの名称なのか？
4. 教師あり学習では「ラベル品質」に依存する
1. 制約ポイント
  1. 具体例
5. 評価データが偏っている可能性
1. 制約ポイント
  1. 具体例
6. システム全体を評価できない
1. 評価対象外の例
  1. 具体例
7. ツール依存という制約
1. 制約ポイント
8. まとめ：ML機能性能メトリクスの限界を理解する
1. 押さえるべきポイント

1. ML機能性能メトリクスとは何か（おさらい）

ML機能性能メトリクスとは、機械学習モデルがどれだけ正しく予測・分類できているかを、数値で評価するための指標です。

代表的なものには以下があります。

Accuracy（正解率）
Precision（適合率）
Recall（再現率）
F1スコア
AUC（ROC曲線下面積）
MSE（平均二乗誤差）
Silhouette係数（クラスタリング評価）

👉 重要ポイント

ここでいう「Performance（性能）」とは、

ISO/IEC 25010で定義される非機能品質特性の「性能効率」ではありません。

あくまで

👉 MLモデルの「機能的な振る舞い」だけを測定する指標

である点に注意が必要です。

2. 非機能品質特性は測定できないという限界

ML機能性能メトリクスの最大の制約の一つは、

非機能品質特性を測定できないことです。

測定できない代表例

パフォーマンス効率（応答時間、スループット）
セキュリティ
信頼性
拡張性（Scalability）
保守性
柔軟性

これらは、ISO/IEC 25010で定義されるソフトウェア品質特性ですが、

AccuracyやF1スコアでは一切評価できません。

👉 つまり

「精度が高いAI = 品質が高いAI」ではない

ということです。

3. 「Performance」という言葉による誤解

ISTQB AI Tester シラバスでは、

あえて 「ML Functional Performance Metrics」 という用語が使われています。

なぜこの名称なのか？

一般的に「Performance Metrics」という言葉が広く使われている
ML特有の指標であることを強調するために「ML Functional」を付加
非機能性能（Performance Efficiency）とは無関係であることを明確にするため

👉 試験対策ポイント

「Performance」という言葉に引っ張られて、非機能テストの話と混同しないことが重要です。

4. 教師あり学習では「ラベル品質」に依存する

教師あり学習（Supervised Learning）では、

ML機能性能メトリクスは正解ラベル付きデータを基に算出されます。

制約ポイント

ラベルが誤っている → メトリクスも誤る
ラベル付けのばらつき → 評価結果が不安定

具体例

画像分類AIで「猫」と「犬」のラベルが混在
医療AIで診断ラベルに医師間の判断差がある

👉 正しい評価は、正しいラベルが前提条件

これは Chapter 4.5（データラベリング）とも強く関連します。

5. 評価データが偏っている可能性

ML機能性能メトリクスは、

評価に使ったデータセットに完全に依存します。

制約ポイント

データが現実世界を代表していない
偏り（Bias）が存在する
特定条件に強すぎるモデルになる

具体例

晴天時の画像だけで学習した自動運転AI
特定年齢層だけで学習した信用スコアモデル

👉 高いAccuracyでも、実運用では役に立たないケースがある

これは Chapter 2（AIのリスク・バイアス）とも直結する重要ポイントです。

6. システム全体を評価できない

ML機能性能メトリクスが評価するのは、

**あくまで「MLモデル単体」**です。

評価対象外の例

データ収集パイプライン
前処理・後処理ロジック
外部API連携
UIや業務フロー

具体例

モデル精度は高いが、データ前処理が遅く実用不可
推論結果は正しいが、業務システム連携で誤動作

👉 AIシステム全体の品質は測れない

という点は大きな制約です。

7. ツール依存という制約

多くのML機能性能メトリクスは、

ツールなしで手計算するのが困難です。

制約ポイント

専用ツールやライブラリが必要
ライセンス費用が発生する場合もある
操作する人のスキルに依存

👉 これは

コスト増加・運用負荷増加

という観点での制約になります。

8. まとめ：ML機能性能メトリクスの限界を理解する

ML機能性能メトリクスは、

AIモデルの有効性を評価するうえで不可欠ですが、

万能ではありません。

押さえるべきポイント

機能的側面しか測れない
非機能品質特性は対象外
データ品質・バイアスに強く依存
モデル単体評価に限定される
ツール依存・コストの問題がある

👉 ISTQB AI Testerでは

「何が測れるか」だけでなく「何が測れないか」を理解しているか

が問われます。

今後、AIテスト分野はさらに進化し、

より包括的な評価手法が登場する可能性がありますが、

現時点での限界を正しく理解することが、AIテストエンジニアの重要な役割です。

ソフトウェアテスト技法練習帳　～知識を経験に変える40問～ [ 梅津正洋、竹内亜未、伊藤由貴、浦山さつき、佐々木千絵美、高橋理、武田春恵、根本紀之、藤沢耕助、真鍋俊之、山岡悠、吉田直史［著］ ]

posted with カエレバ

楽天市場

Amazon

ソフトウェアテスト技法ドリル【第2版】テスト設計の考え方と実際 [ 秋山浩一 ]

posted with カエレバ

楽天市場

Amazon