- はじめに
- なぜデータ品質が重要なのか?
- データセットにおける代表的な品質問題一覧
- ① 間違ったデータ(Wrong Data)
- ② 不完全なデータ(Incomplete Data)
- ③ 誤ったラベル付け(Mislabeled Data)
- ④ データ量が不足している(Insufficient Data)
- ⑤ 前処理されていないデータ(Data Not Pre-Processed)
- ⑥ 古いデータ(Obsolete Data)
- ⑦ 不均衡なデータ(Unbalanced Data)
- ⑧ 不公平なデータ(Unfair Data)
- ⑨ 重複データ(Duplicate Data)
- ⑩ 無関係なデータ(Irrelevant Data)
- ⑪ プライバシー問題(Privacy Issues)
- ⑫ セキュリティ問題(Security Issues)
- まとめ|AIテスターが意識すべきポイント
はじめに
ISTQB AI Tester Certification のシラバス第4章では、
**機械学習(ML)モデルの学習に使われる「データセットの品質」**が、AIシステムの性能や信頼性を大きく左右することが説明されています。
本記事では、**Chapter 4.3「Dataset Quality Issues(データ品質の問題)」**について、
AIテスト初心者でも理解できるように整理・解説します。
なぜデータ品質が重要なのか?
機械学習モデルは、
「与えられたデータからしか学べない」
という大前提があります。
そのため、
-
データが間違っている
-
不足している
-
偏っている
といった問題があると、どれほど高度なアルゴリズムでも誤った結果を出してしまいます。
データセットにおける代表的な品質問題一覧
以下は、MLモデルの学習用データでよく発生する代表的な品質問題です。
① 間違ったデータ(Wrong Data)
内容
-
センサーの故障による誤検知
-
手入力ミス(タイポ、コピペミス)
-
データ収集時の設定ミス
具体例
-
速度センサーが故障し「0km/h」を常に記録
-
年齢欄に「222歳」と入力されている
👉 正しくないデータは、モデルに誤った学習をさせる原因になります。
② 不完全なデータ(Incomplete Data)
内容
-
一部の項目が空欄
-
特定期間のデータが欠落
原因例
-
ハードウェア障害
-
人為的ミス
-
セキュリティ・プライバシー制限
具体例
-
センサー停止中のログ欠落
-
個人情報保護のため年齢・性別が取得不可
③ 誤ったラベル付け(Mislabeled Data)
内容
教師あり学習では、正しいラベル付けが必須です。
具体例
-
「犬」の画像に「猫」とラベル付け
-
正解クラスの取り違え
👉 誤ラベルは、モデルの判断基準そのものを壊します。
④ データ量が不足している(Insufficient Data)
内容
-
パターン認識に必要なデータ量が足りない
重要ポイント
-
必要なデータ量は MLアルゴリズムごとに異なる
-
一律の「正解データ数」は存在しない
具体例
-
顔認識で数十枚しか画像がない
-
例外ケースのデータが極端に少ない
⑤ 前処理されていないデータ(Data Not Pre-Processed)
内容
-
ノイズ除去がされていない
-
フォーマットが不統一
-
外れ値(Outlier)が残っている
具体例
-
日付形式が YYYY/MM/DD と DD-MM-YYYY 混在
-
明らかに異常な数値が未処理
⑥ 古いデータ(Obsolete Data)
内容
-
現在の状況を反映していないデータ
具体例
-
数年前の金融データで現在の市場を予測
-
旧仕様製品のログで最新モデルを学習
👉 古いデータは「正確そうに見える誤答」を生みやすい点が危険です。
⑦ 不均衡なデータ(Unbalanced Data)
内容
-
特定の属性に偏ったデータ構成
原因例
-
性別・人種・年齢の偏り
-
センサー設置位置の問題
-
データ提供者の事情
具体例
-
顔認識で特定人種のデータが極端に少ない
-
天井設置カメラで背の高い人ばかり認識
⑧ 不公平なデータ(Unfair Data)
内容
-
社会的・倫理的観点で「公平」とは言えないデータ
ポイント
-
「公平」と「均衡」は同義ではない
-
多様性配慮で意図的なバイアスを持つ場合もある
具体例
-
マイノリティ支援目的で特定グループを多めに含めたデータ
👉 公平性は主観的であり、目的に応じた判断が必要です。
⑨ 重複データ(Duplicate Data)
内容
-
同一データが複数回含まれている
影響
-
モデルが特定データを過大評価
具体例
-
同じ画像が100回含まれている
⑩ 無関係なデータ(Irrelevant Data)
内容
-
問題解決に関係ないデータ
具体例
-
犬識別モデルに猫の画像を大量投入
👉 精度低下だけでなく、計算資源の無駄にもなります。
⑪ プライバシー問題(Privacy Issues)
内容
-
個人情報・機密情報の取り扱い
具体例
-
EU圏では GDPR に準拠する必要あり
-
個人識別情報(PII)の不適切な使用
⑫ セキュリティ問題(Security Issues)
内容
-
意図的に混入された不正データ
具体例
-
学習データへの攻撃(データポイズニング)
-
誤誘導を狙ったラベル操作
まとめ|AIテスターが意識すべきポイント
-
AIモデルの品質は データ品質に直結
-
テストでは「モデル」だけでなく「データ」も評価対象
-
すべての問題を事前に洗い出すことは困難
-
気づいた品質問題を早期に共有・改善する姿勢が重要

コメント