1. HOME
  2. ブログ
  3. SFI開発記
  4. SFI開発記#04 データの前処理に8割の工数を使っている!?
BLOG

ブログ

SFI開発記

SFI開発記#04 データの前処理に8割の工数を使っている!?

みなさん、こんにちは。Vertysの山本です。

前回まで、製造業のデータ解析の障壁を整理しました。
ここからは開発ストーリーです。

  

分析の「前」に、膨大な「支度」がある


  

多くの人が想像する「データ解析」は、AIでモデルを回すパートだと思います。

ところが、実際にやってみると衝撃的な事実に気づきます。

分析作業の8割は、前処理に費やされている。

とあるお客様から、そう言われました

「分析」じゃないんです。
「分析の準備」 なんです。

  

4つの壁


  

製造業のデータって、そのままでは使えないものが大半です。
具体的にはこんな作業が待っています。

  

① データの取り込み

まず、データがあちこちに散らばっている。
工程Aのデータはこの設備のCSV、工程Bはあっちのサーバーのログ、工程Cは手書きの検査票をExcelに転記したもの……。
フォーマットもバラバラ。文字コードも違う。日付の書式も統一されていない。
これを一箇所に集めるだけでもう大変。

  

② データクレンジング

集めたデータにはゴミがいっぱい入っています。
欠損値、異常値、重複データ、そもそもセンサーが壊れていた期間のデータ……。
これを一つひとつ確認して、除外するのか、補完するのか、判断していく。

  

③ データの結合・紐づけ

ここが製造業特有の難関です。

工程Aのロット番号と工程Bのロット番号、紐づけルールが違うんです。
ロット番号の体系が工程ごとに異なり、対応表を別途作って結合しなければならない。
波形データ(時系列)と工程データ(一覧表)の統合もまた一苦労。

  

④ 特徴量の抽出

波形データをそのまま機械学習に放り込んでも、うまくいきません。
平均値、中央値、ピーク値、標準偏差……といった「特徴量」に変換する必要がある。
どの特徴量を使うかも、製品や工程によって全然違います。

  

  

8割が「雑用」に見える、でも実は核心


  

前処理に8割なんて聞くと、「それ、雑用じゃん」と思うかもしれません。

でも違うです。

前処理の質が、分析結果の質を決める。
ゴミを入れたらゴミが出てくる(Garbage In, Garbage Out)。
どんなに優秀なAIモデルを使っても、入力データがダメなら結果もダメ。

つまり前処理は「雑用」じゃなくて、最も重要な工程なんです。

にもかかわらず、ここに膨大な時間が取られていて、肝心の「分析」にたどり着けない。
これが多くの製造現場の現実です。

佐藤社長と一緒に、実際の製造データの構造を分析しました。
どういうワークフローにすれば、前処理を最小化できるか。何度も議論を重ねました。

                              

この前処理を、どうやって簡単に、短時間でできるようにするか。
それが、ツールを作るにあたっての最初の大きなテーマになりました。

                                 

                             

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

関連記事