【ISTQB /JSTQB AI Tester 解説】ISTQB AI Tester解説|データ品質がMLモデルに与える影響とは?

JSTQB AI Tester

機械学習(ML)モデルの性能は、アルゴリズムよりもデータの質に大きく依存する

——これは、ISTQB AI Testerシラバスでも繰り返し強調されている重要ポイントです。

本記事では、**ISTQB AI Tester Chapter 4.4「Data Quality and its Effect on ML Model」**の内容をもとに、

  • データ品質が悪いと何が起きるのか

  • その影響はどのように分類できるのか

  • 実務・試験対策として何を意識すべきか

を、具体例つきで解説します。


なぜデータ品質がMLモデルの品質を左右するのか?

MLモデルは、人間で言えば「学習者」、データは「教材」です。

もし、

  • 教材が間違っている

  • 情報が不足している

  • 偏った内容しか書かれていない

としたら、どれほど優秀な学習者でも正しい判断はできません。

たとえ話:授業の質と成績の関係

  • 教師が曖昧な説明しかしない

  • 重要な論点を教えない

  • 古い内容しか扱わない

このような授業を受けた学生に「良い成績を取れ」と言うのは無理がありますよね。

👉 MLモデルもまったく同じで、

「質の悪いデータ → 質の悪いモデル・予測」

という結果になります。


データ品質問題が引き起こす3つの影響カテゴリ

ISTQB AI Testerでは、データ品質問題の“影響”を次の3カテゴリに分類しています。


① 精度の低下(Reduced Accuracy)

原因となるデータの特徴

以下のようなデータが原因で、モデルの予測精度が低下します。

  • 誤ったデータ(wrong)

  • 不完全なデータ(incomplete)

  • ラベル付けミス(mislabeled)

  • データ量不足(insufficient)

  • 古いデータ(obsolete)

  • 無関係なデータ(irrelevant)

  • 前処理されていないデータ(not pre-processed)

※これらは、前章「データ品質問題(4.3)」で詳しく解説されています。

具体例:住宅価格予測モデル

ケース

  • 住宅価格を予測するMLモデルを構築

  • 学習データに「サンルーム付き戸建て住宅」のデータがほとんど含まれていない

結果

  • サンルーム付き戸建ての価格予測が大きく外れる

👉

マンションのデータばかりで

戸建て(しかも特殊条件付き)を予測するのは無理、ということです。


② バイアスのあるモデル(Biased Model)

原因となるデータの特徴

  • データが不完全

  • データ分布が偏っている(unbalanced)

  • 公平性がない(unfair)

  • 多様性がない(lacking diversity)

  • 重複データが多い(duplicated)

具体例:医療AIの疾病予測

ケース

  • ある病気の予測モデルを構築

  • 学習データが「特定の性別」からしか収集されていない

結果

  • 他の性別に対する予測精度が著しく低下

  • 不公平・危険な判断につながる可能性

⚠️

「その性別だけに使う」前提なら問題ありませんが、

一般用途のAIとしては致命的なバイアスになります。


③ モデルの侵害・危殆化(Compromised Model)

原因となるデータの特徴

  • プライバシー配慮不足

  • セキュリティ制約違反

  • 個人情報を含むデータ管理の不備

具体例:個人情報漏洩リスク

ケース

  • 個人情報を含むデータで学習したモデル

  • 適切な匿名化・制御がされていない

結果

  • モデルを解析(リバースエンジニアリング)される

  • 個人情報が推測・漏洩する可能性

👉

このようなモデルは

**「Compromised Model(侵害されたモデル)」**と分類されます。


まとめ|ISTQB AI Tester試験・実務での重要ポイント

データ品質問題は、次の3つの影響に整理できることが重要です。

カテゴリ

主な影響

精度の低下

予測が当たらない

バイアスモデル

不公平・偏った判断

侵害モデル

セキュリティ・プライバシー問題

ISTQB AI Testerでは、

  • 「どの品質問題が、どの影響カテゴリに属するか」

  • 「その結果、何が起きるか」

分類思考で説明できるかが問われます。

👉

単なる用語暗記ではなく、

原因 → 影響 → リスク

の流れで理解しておくことが、試験対策・実務の両方で非常に重要です。

コメント

タイトルとURLをコピーしました