機械学習(ML)モデルの性能は、アルゴリズムよりもデータの質に大きく依存する
——これは、ISTQB AI Testerシラバスでも繰り返し強調されている重要ポイントです。
本記事では、**ISTQB AI Tester Chapter 4.4「Data Quality and its Effect on ML Model」**の内容をもとに、
-
データ品質が悪いと何が起きるのか
-
その影響はどのように分類できるのか
-
実務・試験対策として何を意識すべきか
を、具体例つきで解説します。
なぜデータ品質がMLモデルの品質を左右するのか?
MLモデルは、人間で言えば「学習者」、データは「教材」です。
もし、
-
教材が間違っている
-
情報が不足している
-
偏った内容しか書かれていない
としたら、どれほど優秀な学習者でも正しい判断はできません。
たとえ話:授業の質と成績の関係
-
教師が曖昧な説明しかしない
-
重要な論点を教えない
-
古い内容しか扱わない
このような授業を受けた学生に「良い成績を取れ」と言うのは無理がありますよね。
👉 MLモデルもまったく同じで、
「質の悪いデータ → 質の悪いモデル・予測」
という結果になります。
データ品質問題が引き起こす3つの影響カテゴリ
ISTQB AI Testerでは、データ品質問題の“影響”を次の3カテゴリに分類しています。
① 精度の低下(Reduced Accuracy)
原因となるデータの特徴
以下のようなデータが原因で、モデルの予測精度が低下します。
-
誤ったデータ(wrong)
-
不完全なデータ(incomplete)
-
ラベル付けミス(mislabeled)
-
データ量不足(insufficient)
-
古いデータ(obsolete)
-
無関係なデータ(irrelevant)
-
前処理されていないデータ(not pre-processed)
※これらは、前章「データ品質問題(4.3)」で詳しく解説されています。
具体例:住宅価格予測モデル
ケース
-
住宅価格を予測するMLモデルを構築
-
学習データに「サンルーム付き戸建て住宅」のデータがほとんど含まれていない
結果
-
サンルーム付き戸建ての価格予測が大きく外れる
👉
マンションのデータばかりで
戸建て(しかも特殊条件付き)を予測するのは無理、ということです。
② バイアスのあるモデル(Biased Model)
原因となるデータの特徴
-
データが不完全
-
データ分布が偏っている(unbalanced)
-
公平性がない(unfair)
-
多様性がない(lacking diversity)
-
重複データが多い(duplicated)
具体例:医療AIの疾病予測
ケース
-
ある病気の予測モデルを構築
-
学習データが「特定の性別」からしか収集されていない
結果
-
他の性別に対する予測精度が著しく低下
-
不公平・危険な判断につながる可能性
⚠️
「その性別だけに使う」前提なら問題ありませんが、
一般用途のAIとしては致命的なバイアスになります。
③ モデルの侵害・危殆化(Compromised Model)
原因となるデータの特徴
-
プライバシー配慮不足
-
セキュリティ制約違反
-
個人情報を含むデータ管理の不備
具体例:個人情報漏洩リスク
ケース
-
個人情報を含むデータで学習したモデル
-
適切な匿名化・制御がされていない
結果
-
モデルを解析(リバースエンジニアリング)される
-
個人情報が推測・漏洩する可能性
👉
このようなモデルは
**「Compromised Model(侵害されたモデル)」**と分類されます。
まとめ|ISTQB AI Tester試験・実務での重要ポイント
データ品質問題は、次の3つの影響に整理できることが重要です。
|
カテゴリ |
主な影響 |
|---|---|
|
精度の低下 |
予測が当たらない |
|
バイアスモデル |
不公平・偏った判断 |
|
侵害モデル |
セキュリティ・プライバシー問題 |
ISTQB AI Testerでは、
-
「どの品質問題が、どの影響カテゴリに属するか」
-
「その結果、何が起きるか」
を分類思考で説明できるかが問われます。
👉
単なる用語暗記ではなく、
原因 → 影響 → リスク
の流れで理解しておくことが、試験対策・実務の両方で非常に重要です。

コメント