〜データ取得(Data Acquisition)とデータ前処理(Data Pre-processing)を徹底解説〜
はじめに:なぜ「データ準備」が最重要なのか?
ISTQB AI Tester認定の**Chapter 4(MLとデータ)**では、
「データがAIの品質を決定する」という考え方が中心テーマになります。
機械学習(ML)モデルは、
-
どんなデータを使うか
-
どのように整形・加工するか
によって、精度・安全性・信頼性が大きく左右されます。
実際、ML開発全体のうち 約43%の工数がデータ準備に費やされる と言われており、
モデル構築(約17%)よりもはるかに重い工程です。
本記事では、
4.1 データ準備(Data Preparation)Part1 として、
以下の2点を重点的に解説します。
-
データ取得(Data Acquisition)
-
データ前処理(Data Pre-processing)
Chapter 4 全体構成のおさらい
Chapter 4 では、次の内容を扱います。
-
4.1 MLワークフローにおけるデータ準備
-
4.2 学習・検証・テストデータセット
-
4.3 データセットの品質問題
-
4.4 データ品質がMLモデルに与える影響
-
4.5 教師あり学習におけるデータラベリング
本記事は 4.1(Part1) にフォーカスします。
1. データ準備(Data Preparation)とは?
データ準備とは、
MLモデルを学習させるために、適切なデータを集め・整え・使える形にすることです。
もし、
-
不適切なデータ
-
偏ったデータ
-
ノイズだらけのデータ
を使ってしまうと、
MLモデルは 誤った予測・不安定な挙動・低精度 を示します。
そのため、データ準備は
MLワークフローの成功を左右する最重要ステップなのです。
2. データ準備の主な構成要素
データ準備は、主に以下の3つで構成されます。
-
データ取得(Data Acquisition)
-
データ前処理(Data Pre-processing)
-
特徴量エンジニアリング(Feature Engineering)
本記事では ①② を扱います。
3. データ取得(Data Acquisition)
データ取得は、さらに 3つのフェーズ に分かれます。
3.1 データの特定(Identification)
最初に行うのは、
「何のデータが必要か」を明確にすることです。
例:自動運転システムの場合
必要なデータとして、次のようなものが特定されます。
-
カメラ映像(動画・画像)
-
レーダーデータ
-
LiDAR(Laser Imaging Detection and Ranging)データ
👉 目的(何を学習させたいか)から逆算してデータを決めることが重要です。
3.2 データの収集(Gathering)
次に、特定したデータを どこから・どのように集めるか を決めます。
-
社内データ(ログ、センサーデータ)
-
公開データセット
-
標準機関・公的機関のデータ
-
例:IMF(国際通貨基金)の金融データ
-
ポイントは、
-
信頼できるデータソースか
-
継続的に取得できるか
という観点です。
3.3 データのラベリング(Labeling)
ラベリングは、教師あり学習において不可欠です。
-
画像 → 「猫」「犬」
-
メール → 「スパム」「非スパム」
※ 詳細は 4.5 データラベリング で解説されるため、
ここでは概要理解でOKです。
3.4 データの形式(データタイプ)
取得されるデータは、次のように多様です。
-
数値データ
-
カテゴリデータ
-
画像
-
テキスト
-
時系列データ
-
センサーデータ
-
地理空間データ
-
動画・音声
👉 AIシステムの目的によって、最適なデータ形式は異なります。
4. データ前処理(Data Pre-processing)
現実のデータは、
そのままではMLモデルに使えないことがほとんどです。
そのため、次のような前処理が必要になります。
4.1 データクリーニング(Cleaning)
主な作業内容:
-
不正確なデータの除去・修正
-
重複データの削除
-
外れ値(Outliers)の処理
-
欠損値の補完(Imputation)
-
平均値(Mean)
-
中央値(Median)
-
最頻値(Mode)
-
また、
-
個人情報(PII)は 匿名化・マスキング
-
GDPR等の法規制への配慮も必須
👉 テスト観点としても非常に重要なポイントです。
4.2 データ変換(Transformation)
データの形式を MLモデルが扱いやすい形に変換します。
例:
-
住所文字列 → 郵便番号 / 市区町村 / 番地に分割
-
カテゴリデータ → 数値データ
-
画像形式変換(JPEG → PNG)
-
不要なフィールドの削除
数値データの代表的手法
-
スケーリング
-
標準化(平均0、標準偏差1)
-
正規化(0〜1に変換)
4.3 データ拡張(Augmentation)
データ数を人工的に増やす手法です。
例:画像認識
-
回転
-
拡大・縮小
-
明るさ変更
-
角度変更
これにより、
-
モデルの汎化性能向上
-
敵対的攻撃(Adversarial Attack)への耐性向上
が期待できます。
4.4 サンプリング(Sampling)
全データを使わず、
代表的な一部データを選択します。
目的:
-
学習コスト削減
-
学習時間短縮
例:
-
500枚の画像 → 100枚を抽出
-
まず少量で学習 → 精度確認 → 追加学習
👉 反復的(イテレーティブ)な学習が重要です。
まとめ:試験対策としての重要ポイント
-
データ準備は MLワークフロー最大の工数
-
データ取得は
特定 → 収集 → ラベリング
-
データ前処理は
Cleaning / Transformation / Augmentation / Sampling
-
品質の悪いデータは、必ず品質の悪いAIを生む
ISTQB AI Testerでは、
「なぜその処理が必要なのか」
という 理由説明型の問題 が出やすい点も要注意です。

コメント