SFI開発記

SFI開発記＃04　データの前処理に8割の工数を使っている!?

2026.04.13

みなさん、こんにちは。Vertysの山本です。

前回まで、製造業のデータ解析の障壁を整理しました。
ここからは開発ストーリーです。

分析の「前」に、膨大な「支度」がある

多くの人が想像する「データ解析」は、AIでモデルを回すパートだと思います。

ところが、実際にやってみると衝撃的な事実に気づきます。

分析作業の8割は、前処理に費やされている。

とあるお客様から、そう言われました。

「分析」じゃないんです。
「分析の準備」 なんです。

4つの壁

製造業のデータって、そのままでは使えないものが大半です。
具体的にはこんな作業が待っています。

① データの取り込み

まず、データがあちこちに散らばっている。
工程Aのデータはこの設備のCSV、工程Bはあっちのサーバーのログ、工程Cは手書きの検査票をExcelに転記したもの……。
フォーマットもバラバラ。文字コードも違う。日付の書式も統一されていない。
これを一箇所に集めるだけでもう大変。

② データクレンジング

集めたデータにはゴミがいっぱい入っています。
欠損値、異常値、重複データ、そもそもセンサーが壊れていた期間のデータ……。
これを一つひとつ確認して、除外するのか、補完するのか、判断していく。

③ データの結合・紐づけ

ここが製造業特有の難関です。

工程Aのロット番号と工程Bのロット番号、紐づけルールが違うんです。
ロット番号の体系が工程ごとに異なり、対応表を別途作って結合しなければならない。
波形データ（時系列）と工程データ（一覧表）の統合もまた一苦労。

④ 特徴量の抽出

波形データをそのまま機械学習に放り込んでも、うまくいきません。
平均値、中央値、ピーク値、標準偏差……といった「特徴量」に変換する必要がある。
どの特徴量を使うかも、製品や工程によって全然違います。

8割が「雑用」に見える、でも実は核心

前処理に8割なんて聞くと、「それ、雑用じゃん」と思うかもしれません。

でも違うんです。

前処理の質が、分析結果の質を決める。
ゴミを入れたらゴミが出てくる（Garbage In, Garbage Out）。
どんなに優秀なAIモデルを使っても、入力データがダメなら結果もダメ。

つまり前処理は「雑用」じゃなくて、最も重要な工程なんです。

にもかかわらず、ここに膨大な時間が取られていて、肝心の「分析」にたどり着けない。
これが多くの製造現場の現実です。

佐藤社長と一緒に、実際の製造データの構造を分析しました。
どういうワークフローにすれば、前処理を最小化できるか。何度も議論を重ねました。

この前処理を、どうやって簡単に、短時間でできるようにするか。
それが、ツールを作るにあたっての最初の大きなテーマになりました。

投稿者: Vertys
SFI開発記
データクレンジング, データ前処理, データ活用, データ解析, 前処理効率化, 工場DX, 特徴量抽出, 製造データ, 製造業, 解析ツール
コメント: 0

SFI開発記＃04　データの前処理に8割の工数を使っている!?

分析の「前」に、膨大な「支度」がある

4つの壁

① データの取り込み

② データクレンジング

③ データの結合・紐づけ

④ 特徴量の抽出

8割が「雑用」に見える、でも実は核心

関連記事

SFI開発記＃02　数少ないデータサイエンスの知識と、製...

SFI開発記＃12　エンジニアの言葉を翻訳する

SFI開発記＃05　可視化するだけでも大変！

SFI開発記＃03　データ解析の何に時間がかかっているか...

SFI開発記＃08　解析はできた！でどうする？

SFI開発記＃06　機械学習のアルゴリズムって何個あるん...

分析の「前」に、膨大な「支度」がある

4つの壁

① データの取り込み

② データクレンジング

③ データの結合・紐づけ

④ 特徴量の抽出

8割が「雑用」に見える、でも実は核心

関連記事

SFI開発記＃02 数少ないデータサイエンスの知識と、製...

SFI開発記＃12 エンジニアの言葉を翻訳する

SFI開発記＃05 可視化するだけでも大変！

SFI開発記＃03 データ解析の何に時間がかかっているか...

SFI開発記＃08 解析はできた！ でどうする？

SFI開発記＃06 機械学習のアルゴリズムって何個あるん...

SFI開発記＃02　数少ないデータサイエンスの知識と、製...

SFI開発記＃12　エンジニアの言葉を翻訳する　　

SFI開発記＃05　可視化するだけでも大変！　　

SFI開発記＃03　データ解析の何に時間がかかっているか...

SFI開発記＃08　解析はできた！でどうする？　

SFI開発記＃06　機械学習のアルゴリズムって何個あるん...