ISTQB AI Tester Chapter4対応。MLモデルのためのデータ準備（データ取得・データ前処理）を具体例付きでわかりやすく解説。試験対策・AIテスト観点の理解に最適。

〜データ取得（Data Acquisition）とデータ前処理（Data Pre-processing）を徹底解説〜
はじめに：なぜ「データ準備」が最重要なのか？
Chapter 4 全体構成のおさらい
1. データ準備（Data Preparation）とは？
2. データ準備の主な構成要素
3. データ取得（Data Acquisition）
4. データ前処理（Data Pre-processing）
まとめ：試験対策としての重要ポイント

〜データ取得（Data Acquisition）とデータ前処理（Data Pre-processing）を徹底解説〜

はじめに：なぜ「データ準備」が最重要なのか？

ISTQB AI Tester認定の**Chapter 4（MLとデータ）**では、

「データがAIの品質を決定する」という考え方が中心テーマになります。

機械学習（ML）モデルは、

どんなデータを使うか
どのように整形・加工するか

によって、精度・安全性・信頼性が大きく左右されます。

実際、ML開発全体のうち 約43%の工数がデータ準備に費やされる と言われており、

モデル構築（約17%）よりもはるかに重い工程です。

本記事では、

4.1 データ準備（Data Preparation）Part1 として、

以下の2点を重点的に解説します。

データ取得（Data Acquisition）
データ前処理（Data Pre-processing）

Chapter 4 全体構成のおさらい

Chapter 4 では、次の内容を扱います。

4.1 MLワークフローにおけるデータ準備
4.2 学習・検証・テストデータセット
4.3 データセットの品質問題
4.4 データ品質がMLモデルに与える影響
4.5 教師あり学習におけるデータラベリング

本記事は 4.1（Part1） にフォーカスします。

1. データ準備（Data Preparation）とは？

データ準備とは、

MLモデルを学習させるために、適切なデータを集め・整え・使える形にすることです。

もし、

不適切なデータ
偏ったデータ
ノイズだらけのデータ

を使ってしまうと、

MLモデルは 誤った予測・不安定な挙動・低精度 を示します。

そのため、データ準備は

MLワークフローの成功を左右する最重要ステップなのです。

2. データ準備の主な構成要素

データ準備は、主に以下の3つで構成されます。

データ取得（Data Acquisition）
データ前処理（Data Pre-processing）
特徴量エンジニアリング（Feature Engineering）

本記事では ①② を扱います。

3. データ取得（Data Acquisition）

データ取得は、さらに 3つのフェーズ に分かれます。

3.1 データの特定（Identification）

最初に行うのは、

「何のデータが必要か」を明確にすることです。

例：自動運転システムの場合

必要なデータとして、次のようなものが特定されます。

カメラ映像（動画・画像）
レーダーデータ
LiDAR（Laser Imaging Detection and Ranging）データ

👉 目的（何を学習させたいか）から逆算してデータを決めることが重要です。

3.2 データの収集（Gathering）

次に、特定したデータを どこから・どのように集めるか を決めます。

社内データ（ログ、センサーデータ）
公開データセット
標準機関・公的機関のデータ
- 例：IMF（国際通貨基金）の金融データ

ポイントは、

信頼できるデータソースか
継続的に取得できるか

という観点です。

3.3 データのラベリング（Labeling）

ラベリングは、教師あり学習において不可欠です。

画像 → 「猫」「犬」
メール → 「スパム」「非スパム」

※ 詳細は 4.5 データラベリング で解説されるため、

ここでは概要理解でOKです。

3.4 データの形式（データタイプ）

取得されるデータは、次のように多様です。

数値データ
カテゴリデータ
画像
テキスト
時系列データ
センサーデータ
地理空間データ
動画・音声

👉 AIシステムの目的によって、最適なデータ形式は異なります。

4. データ前処理（Data Pre-processing）

現実のデータは、

そのままではMLモデルに使えないことがほとんどです。

そのため、次のような前処理が必要になります。

4.1 データクリーニング（Cleaning）

主な作業内容：

不正確なデータの除去・修正
重複データの削除
外れ値（Outliers）の処理
欠損値の補完（Imputation）
- 平均値（Mean）
- 中央値（Median）
- 最頻値（Mode）

また、

個人情報（PII）は 匿名化・マスキング
GDPR等の法規制への配慮も必須

👉 テスト観点としても非常に重要なポイントです。

4.2 データ変換（Transformation）

データの形式を MLモデルが扱いやすい形に変換します。

例：

住所文字列 → 郵便番号 / 市区町村 / 番地に分割
カテゴリデータ → 数値データ
画像形式変換（JPEG → PNG）
不要なフィールドの削除

数値データの代表的手法

スケーリング
標準化（平均0、標準偏差1）
正規化（0〜1に変換）

4.3 データ拡張（Augmentation）

データ数を人工的に増やす手法です。

例：画像認識

回転
拡大・縮小
明るさ変更
角度変更

これにより、

モデルの汎化性能向上
敵対的攻撃（Adversarial Attack）への耐性向上

が期待できます。

4.4 サンプリング（Sampling）

全データを使わず、

代表的な一部データを選択します。

目的：

学習コスト削減
学習時間短縮

例：

500枚の画像 → 100枚を抽出
まず少量で学習 → 精度確認 → 追加学習

👉 反復的（イテレーティブ）な学習が重要です。

まとめ：試験対策としての重要ポイント

データ準備は MLワークフロー最大の工数
データ取得は

特定 → 収集 → ラベリング
データ前処理は

Cleaning / Transformation / Augmentation / Sampling
品質の悪いデータは、必ず品質の悪いAIを生む

ISTQB AI Testerでは、

「なぜその処理が必要なのか」

という 理由説明型の問題 が出やすい点も要注意です。

ソフトウェアテスト技法練習帳　～知識を経験に変える40問～ [ 梅津正洋、竹内亜未、伊藤由貴、浦山さつき、佐々木千絵美、高橋理、武田春恵、根本紀之、藤沢耕助、真鍋俊之、山岡悠、吉田直史［著］ ]

posted with カエレバ

楽天市場

Amazon

ソフトウェアテスト技法ドリル【第2版】テスト設計の考え方と実際 [ 秋山浩一 ]