【ISTQB /JSTQB AI Tester 解説】ISTQB AI Tester|MLモデルのためのデータ準備(Part1)

JSTQB AI Tester

〜データ取得(Data Acquisition)とデータ前処理(Data Pre-processing)を徹底解説〜

はじめに:なぜ「データ準備」が最重要なのか?

ISTQB AI Tester認定の**Chapter 4(MLとデータ)**では、

データがAIの品質を決定する」という考え方が中心テーマになります。

機械学習(ML)モデルは、

  • どんなデータを使うか

  • どのように整形・加工するか

によって、精度・安全性・信頼性が大きく左右されます。

実際、ML開発全体のうち 約43%の工数がデータ準備に費やされる と言われており、

モデル構築(約17%)よりもはるかに重い工程です。

本記事では、

4.1 データ準備(Data Preparation)Part1 として、

以下の2点を重点的に解説します。

  • データ取得(Data Acquisition)

  • データ前処理(Data Pre-processing)


Chapter 4 全体構成のおさらい

Chapter 4 では、次の内容を扱います。

  • 4.1 MLワークフローにおけるデータ準備

  • 4.2 学習・検証・テストデータセット

  • 4.3 データセットの品質問題

  • 4.4 データ品質がMLモデルに与える影響

  • 4.5 教師あり学習におけるデータラベリング

本記事は 4.1(Part1) にフォーカスします。


1. データ準備(Data Preparation)とは?

データ準備とは、

MLモデルを学習させるために、適切なデータを集め・整え・使える形にすることです。

もし、

  • 不適切なデータ

  • 偏ったデータ

  • ノイズだらけのデータ

を使ってしまうと、

MLモデルは 誤った予測・不安定な挙動・低精度 を示します。

そのため、データ準備は

MLワークフローの成功を左右する最重要ステップなのです。


2. データ準備の主な構成要素

データ準備は、主に以下の3つで構成されます。

  1. データ取得(Data Acquisition)

  2. データ前処理(Data Pre-processing)

  3. 特徴量エンジニアリング(Feature Engineering)

本記事では ①② を扱います。


3. データ取得(Data Acquisition)

データ取得は、さらに 3つのフェーズ に分かれます。

3.1 データの特定(Identification)

最初に行うのは、

「何のデータが必要か」を明確にすることです。

例:自動運転システムの場合

必要なデータとして、次のようなものが特定されます。

  • カメラ映像(動画・画像)

  • レーダーデータ

  • LiDAR(Laser Imaging Detection and Ranging)データ

👉 目的(何を学習させたいか)から逆算してデータを決めることが重要です。


3.2 データの収集(Gathering)

次に、特定したデータを どこから・どのように集めるか を決めます。

  • 社内データ(ログ、センサーデータ)

  • 公開データセット

  • 標準機関・公的機関のデータ

    • 例:IMF(国際通貨基金)の金融データ

ポイントは、

  • 信頼できるデータソースか

  • 継続的に取得できるか

という観点です。


3.3 データのラベリング(Labeling)

ラベリングは、教師あり学習において不可欠です。

  • 画像 → 「猫」「犬」

  • メール → 「スパム」「非スパム」

※ 詳細は 4.5 データラベリング で解説されるため、

ここでは概要理解でOKです。


3.4 データの形式(データタイプ)

取得されるデータは、次のように多様です。

  • 数値データ

  • カテゴリデータ

  • 画像

  • テキスト

  • 時系列データ

  • センサーデータ

  • 地理空間データ

  • 動画・音声

👉 AIシステムの目的によって、最適なデータ形式は異なります。


4. データ前処理(Data Pre-processing)

現実のデータは、

そのままではMLモデルに使えないことがほとんどです。

そのため、次のような前処理が必要になります。


4.1 データクリーニング(Cleaning)

主な作業内容:

  • 不正確なデータの除去・修正

  • 重複データの削除

  • 外れ値(Outliers)の処理

  • 欠損値の補完(Imputation)

    • 平均値(Mean)

    • 中央値(Median)

    • 最頻値(Mode)

また、

  • 個人情報(PII)は 匿名化・マスキング

  • GDPR等の法規制への配慮も必須

👉 テスト観点としても非常に重要なポイントです。


4.2 データ変換(Transformation)

データの形式を MLモデルが扱いやすい形に変換します。

例:

  • 住所文字列 → 郵便番号 / 市区町村 / 番地に分割

  • カテゴリデータ → 数値データ

  • 画像形式変換(JPEG → PNG)

  • 不要なフィールドの削除

数値データの代表的手法

  • スケーリング

  • 標準化(平均0、標準偏差1)

  • 正規化(0〜1に変換)


4.3 データ拡張(Augmentation)

データ数を人工的に増やす手法です。

例:画像認識

  • 回転

  • 拡大・縮小

  • 明るさ変更

  • 角度変更

これにより、

  • モデルの汎化性能向上

  • 敵対的攻撃(Adversarial Attack)への耐性向上

が期待できます。


4.4 サンプリング(Sampling)

全データを使わず、

代表的な一部データを選択します。

目的:

  • 学習コスト削減

  • 学習時間短縮

例:

  • 500枚の画像 → 100枚を抽出

  • まず少量で学習 → 精度確認 → 追加学習

👉 反復的(イテレーティブ)な学習が重要です。


まとめ:試験対策としての重要ポイント

  • データ準備は MLワークフロー最大の工数

  • データ取得は

    特定 → 収集 → ラベリング

  • データ前処理は

    Cleaning / Transformation / Augmentation / Sampling

  • 品質の悪いデータは、必ず品質の悪いAIを生む

ISTQB AI Testerでは、

「なぜその処理が必要なのか」

という 理由説明型の問題 が出やすい点も要注意です。

コメント

タイトルとURLをコピーしました