【ISTQB /JSTQB AI Tester 解説】ISTQB AI Tester|データ準備(Part 2)完全解説

JSTQB AI Tester

特徴量エンジニアリングとデータ準備の課題

本記事では、

ISTQB AI Tester | Data Preparation (Part-2) | Feature Engineering | Challenges in Data Preparation

の内容をもとに、機械学習(ML)におけるデータ準備の後半を詳しく解説します。

前回(Part 1)では、

  • データ取得(Data Acquisition)

  • データ前処理(Data Pre-processing)

について学びました。

今回はその続きとして、**特徴量エンジニアリング(Feature Engineering)**と、

**データ準備における代表的な課題(Challenges)**を扱います。


データ準備はMLワークフローの要(かなめ)

機械学習モデルの性能は、

アルゴリズムよりもデータの質で決まると言われるほどです。

どれだけ優れたモデルを使っても、

  • 不要な情報が多い

  • ノイズだらけ

  • 偏ったデータ

では、正しい予測はできません。

そのため、データ準備はMLワークフローの中核工程になります。


特徴量エンジニアリング(Feature Engineering)とは?

特徴量(Feature)とは何か?

特徴量とは、

👉 データに含まれる「属性」や「性質」のことです。

例:

  • 犬の画像認識

    • 耳の形

    • 体の輪郭

    • 毛色

  • 自動運転

    • 車速

    • 距離

    • 周囲物体の位置

この特徴量をどう扱うかが、モデル性能を大きく左右します。


特徴量エンジニアリングの2つの要素

特徴量エンジニアリングは、次の2つに分かれます。

  1. 特徴量選択(Feature Selection)

  2. 特徴量抽出(Feature Extraction)


特徴量選択(Feature Selection)

特徴量選択とは?

特徴量選択とは、

👉 モデル学習や予測に本当に役立つ特徴量だけを選び出す作業です。

逆に言えば、

  • 役に立たない情報

  • 予測を混乱させる情報

意図的に除外します。

これら不要な情報は、一般に ノイズ(Noise) と呼ばれます。


特徴量選択のメリット

特徴量選択を行うことで、以下の効果があります。

  • 学習時間の短縮

  • 過学習(Overfitting)の防止

  • 予測精度の向上

  • モデルの汎化性能向上


具体例:犬の画像認識モデル

犬を認識するMLモデルを考えてみましょう。

  • ピンボケした画像

  • 極端な角度から撮影された画像

  • 不要な背景情報

これらは、犬の識別に本質的ではありません

むしろ、

「犬とは何か」を学習する際に混乱を招く情報になります。

👉 そのため、

本当に必要な特徴量だけを残し、不要なものを削除するのが特徴量選択です。


特徴量抽出(Feature Extraction)

特徴量抽出とは?

特徴量抽出とは、

👉 既存の特徴量から、より情報量の多い・重複しない特徴量を作り出すことです。

結果として、

  • データサイズが小さくなる

  • 同等の精度を、より低コストで実現

できます。


特徴量選択との違い

観点

特徴量選択

特徴量抽出

目的

不要な特徴量を削除

新しい有用な特徴量を生成

アプローチ

フィルタリング

変換・圧縮

効果

ノイズ削減

情報密度向上

EDA(探索的データ分析)も並行して実施

EDA(Exploratory Data Analysis)とは?

EDAとは、

👉 データの傾向や特徴を可視化・分析する作業です。

具体的には、

  • データ分布の確認

  • 異常値の検出

  • 相関関係の把握

  • グラフやチャートによる可視化

などを行います。


なぜEDAが重要なのか?

EDAを行うことで、

  • どの特徴量が重要か

  • ノイズはどこにあるか

  • データの偏りはないか

事前に把握できます。

結果として、

より精度の高いデータ準備につながります。


データ準備における主な課題(Challenges)

データ準備は重要ですが、同時に多くの課題も存在します。


① ドメイン知識の必要性

  • アプリケーション分野(自動車、金融、医療など)

  • データの性質

  • 適切な前処理・特徴量設計手法

これらを理解していないと、

正しいデータ準備はできません

例:

  • 自動運転(Automotive)

  • ギャンブル・金融系AI

では、求められるデータの扱い方が全く異なります。


② 高品質データの入手が困難

AI・MLはまだ発展途上分野です。

  • 十分な量のデータがない

  • 複数ソースから集める必要がある

  • 品質がバラバラ

といった問題が頻発します。


③ データパイプライン自動化の難しさ

  • リアルタイムデータ収集

  • スケーラビリティ確保

  • パフォーマンス維持

これらを同時に満たす

本番用データパイプライン構築は非常に難易度が高いです。


④ コストが高い

データ準備は、

  • 人手

  • 計算資源

  • ストレージ

が大量に必要です。

AIシステムは、

従来のソフトウェアよりもコストがかかる点が大きな課題です。


⑤ データ準備工程での欠陥見逃し

  • 前処理ミス

  • 欠損値の扱いミス

  • 不正データの混入

これらを見逃すと、

誤ったデータがそのままモデルに投入されます。

結果として、

モデル全体の信頼性が低下します。


⑥ サンプルバイアスの混入

  • 特定条件のデータが多すぎる

  • 偏ったサンプル構成

これはAI品質問題として非常に重要です。


⑦ 欠陥分類(タクソノミー)が未成熟

従来ソフトウェアでは、

  • 欠陥分類表(Defect Taxonomy)

が確立されています。

しかし、MLモデルでは、

  • 典型的欠陥パターンが未整理

  • 何が「不具合」か判断が難しい

という課題があります。


まとめ|AI Testerとして押さえるべきポイント

  • データ準備はML品質の基盤

  • 特徴量選択と特徴量抽出の違いを理解する

  • EDAは必須作業

  • データ準備には多くの技術的・組織的課題がある

ISTQB AI Tester試験では、

「なぜそれが課題なのか」まで理解しているかが問われます。

コメント

タイトルとURLをコピーしました