【ISTQB /JSTQB AI Tester 解説】ISTQB AI Tester｜データ準備（Part 2）完全解説 | 世界で活躍するQA/Testエンジニアのための転職情報サイト

特徴量エンジニアリングとデータ準備の課題
データ準備はMLワークフローの要（かなめ）
特徴量エンジニアリング（Feature Engineering）とは？
1. 特徴量（Feature）とは何か？
特徴量エンジニアリングの2つの要素
特徴量選択（Feature Selection）
特徴量抽出（Feature Extraction）
1. 特徴量抽出とは？
2. 特徴量選択との違い
EDA（探索的データ分析）も並行して実施
1. EDA（Exploratory Data Analysis）とは？
2. なぜEDAが重要なのか？
データ準備における主な課題（Challenges）
まとめ｜AI Testerとして押さえるべきポイント

特徴量エンジニアリングとデータ準備の課題

本記事では、

ISTQB AI Tester | Data Preparation (Part-2) | Feature Engineering | Challenges in Data Preparation

の内容をもとに、機械学習（ML）におけるデータ準備の後半を詳しく解説します。

前回（Part 1）では、

データ取得（Data Acquisition）
データ前処理（Data Pre-processing）

について学びました。

今回はその続きとして、**特徴量エンジニアリング（Feature Engineering）**と、

**データ準備における代表的な課題（Challenges）**を扱います。

データ準備はMLワークフローの要（かなめ）

機械学習モデルの性能は、

アルゴリズムよりもデータの質で決まると言われるほどです。

どれだけ優れたモデルを使っても、

不要な情報が多い
ノイズだらけ
偏ったデータ

では、正しい予測はできません。

そのため、データ準備はMLワークフローの中核工程になります。

特徴量エンジニアリング（Feature Engineering）とは？

特徴量（Feature）とは何か？

特徴量とは、

👉 データに含まれる「属性」や「性質」のことです。

例：

犬の画像認識
- 耳の形
- 体の輪郭
- 毛色
自動運転
- 車速
- 距離
- 周囲物体の位置

この特徴量をどう扱うかが、モデル性能を大きく左右します。

特徴量エンジニアリングの2つの要素

特徴量エンジニアリングは、次の2つに分かれます。

特徴量選択（Feature Selection）
特徴量抽出（Feature Extraction）

特徴量選択（Feature Selection）

特徴量選択とは？

特徴量選択とは、

👉 モデル学習や予測に本当に役立つ特徴量だけを選び出す作業です。

逆に言えば、

役に立たない情報
予測を混乱させる情報

を意図的に除外します。

これら不要な情報は、一般に ノイズ（Noise） と呼ばれます。

特徴量選択のメリット

特徴量選択を行うことで、以下の効果があります。

学習時間の短縮
過学習（Overfitting）の防止
予測精度の向上
モデルの汎化性能向上

具体例：犬の画像認識モデル

犬を認識するMLモデルを考えてみましょう。

ピンボケした画像
極端な角度から撮影された画像
不要な背景情報

これらは、犬の識別に本質的ではありません。

むしろ、

「犬とは何か」を学習する際に混乱を招く情報になります。

👉 そのため、

本当に必要な特徴量だけを残し、不要なものを削除するのが特徴量選択です。

特徴量抽出（Feature Extraction）

特徴量抽出とは？

特徴量抽出とは、

👉 既存の特徴量から、より情報量の多い・重複しない特徴量を作り出すことです。

結果として、

データサイズが小さくなる
同等の精度を、より低コストで実現

できます。

特徴量選択との違い

観点	特徴量選択	特徴量抽出
目的	不要な特徴量を削除	新しい有用な特徴量を生成
アプローチ	フィルタリング	変換・圧縮
効果	ノイズ削減	情報密度向上

EDA（探索的データ分析）も並行して実施

EDA（Exploratory Data Analysis）とは？

EDAとは、

👉 データの傾向や特徴を可視化・分析する作業です。

具体的には、

データ分布の確認
異常値の検出
相関関係の把握
グラフやチャートによる可視化

などを行います。

なぜEDAが重要なのか？

EDAを行うことで、

どの特徴量が重要か
ノイズはどこにあるか
データの偏りはないか

を事前に把握できます。

結果として、

より精度の高いデータ準備につながります。

データ準備における主な課題（Challenges）

データ準備は重要ですが、同時に多くの課題も存在します。

① ドメイン知識の必要性

アプリケーション分野（自動車、金融、医療など）
データの性質
適切な前処理・特徴量設計手法

これらを理解していないと、

正しいデータ準備はできません。

例：

自動運転（Automotive）
ギャンブル・金融系AI

では、求められるデータの扱い方が全く異なります。

② 高品質データの入手が困難

AI・MLはまだ発展途上分野です。

十分な量のデータがない
複数ソースから集める必要がある
品質がバラバラ

といった問題が頻発します。

③ データパイプライン自動化の難しさ

リアルタイムデータ収集
スケーラビリティ確保
パフォーマンス維持

これらを同時に満たす

本番用データパイプライン構築は非常に難易度が高いです。

④ コストが高い

データ準備は、

人手
計算資源
ストレージ

が大量に必要です。

AIシステムは、

従来のソフトウェアよりもコストがかかる点が大きな課題です。

⑤ データ準備工程での欠陥見逃し

前処理ミス
欠損値の扱いミス
不正データの混入

これらを見逃すと、

誤ったデータがそのままモデルに投入されます。

結果として、

モデル全体の信頼性が低下します。

⑥ サンプルバイアスの混入

特定条件のデータが多すぎる
偏ったサンプル構成

これはAI品質問題として非常に重要です。

⑦ 欠陥分類（タクソノミー）が未成熟

従来ソフトウェアでは、

欠陥分類表（Defect Taxonomy）

が確立されています。

しかし、MLモデルでは、

典型的欠陥パターンが未整理
何が「不具合」か判断が難しい

という課題があります。

まとめ｜AI Testerとして押さえるべきポイント

データ準備はML品質の基盤
特徴量選択と特徴量抽出の違いを理解する
EDAは必須作業
データ準備には多くの技術的・組織的課題がある

ISTQB AI Tester試験では、

「なぜそれが課題なのか」まで理解しているかが問われます。

ソフトウェアテスト技法練習帳　～知識を経験に変える40問～ [ 梅津正洋、竹内亜未、伊藤由貴、浦山さつき、佐々木千絵美、高橋理、武田春恵、根本紀之、藤沢耕助、真鍋俊之、山岡悠、吉田直史［著］ ]

posted with カエレバ

楽天市場

Amazon

ソフトウェアテスト技法ドリル【第2版】テスト設計の考え方と実際 [ 秋山浩一 ]

posted with カエレバ

楽天市場

Amazon