SFI開発記#07 これ、自動で全部できない?
みなさん、こんにちは。Vertysの山本です。
ここまでの話を振り返ると、こうなります。
- 前処理に8割の時間がかかる
- 可視化と項目選択でまた時間を食う
- 分析手法が多すぎて選べない
で、ここまで来ると、当然こう思うわけです。
「これさ、全部まとめて自動でできないの?」
データを放り込んだら、あとはソフトが勝手にやってくれる。
前処理も、グラフ化も、分析手法の選定も、結果の表示も。
それ、最高じゃないですか。
「それ、AutoMLでできるんじゃないの?」
こう言われることがあります。
AutoML(自動機械学習)という技術は、すでに世の中にあります。
Google、DataRobot、H2Oなど、有名なツールもたくさんある。
データを入れたら、最適な分析手法を自動で選んでくれて、設定の微調整までやってくれる。
確かに便利です。
でも、製造現場の課題をAutoMLだけで解決できるかというと、そうではありません。
理由は5つあります。
違い①:前処理はAutoMLの守備範囲外
記事#4で書いたように、製造業のデータ解析では、全工数の8割が前処理です。
工程ごとにバラバラのCSV。
ロット番号の体系が違うデータの紐づけ。
波形データからの特徴量抽出。
欠損値や異常値の処理。
AutoMLが動き始めるのは、データがきれいに整った後の話です。
しかし、製造現場がいちばん困っているのは、まさにその「整える」部分。
ここを誰かがやらないと、AutoMLの入り口にすら立てません。
私たちは、この8割の工程そのものを自動化したいと考えました。
違い②:現場が必要とする「可視化」が違う
AutoMLにも簡単なグラフ表示はあります。
でも、製造現場のエンジニアが求める可視化とは、かなり違います。
記事#5で書いたように、現場のエンジニアはまず相関行列、ヒストグラム、散布図、トレンドを一覧にして、データの全体像をつかみたい。
OK/NGで色分けして、不良モード別にも見たい。
SN比や歪度・尖度で、効きそうな変数を自分の目で判断したい。
こうした「現場の人が考えるための可視化」は、AutoMLの守備範囲ではありません。
AutoMLはあくまで「モデルを作る」ためのツール。
データを理解し、項目を選び、現場の知見を分析に反映する ―― その手前の工程は、ユーザーに丸投げです。
私たちは、可視化と項目選択こそが、現場の人がいちばん時間を使うべき場所だと考えています。
だから、ここを徹底的に使いやすくする。
違い③:全アルゴリズムの結果を、ユーザーが自分で見られる
AutoMLは基本的に、「最も良かったモデル」を返してくれる仕組みです。
ランキング上位は見られるかもしれません。
でも、試したすべての手法の詳細を比較できるツールは、意外と多くありません。
私たちが目指すのは違います。
試したすべてのアルゴリズムの結果を、ユーザーが自分の目で確認できること。
精度はどうだったか。学習にどれくらい時間がかかったか。推論は速いか。どの変数が効いていたか。
それぞれの手法について、全部見られる。
「AIが選んだ1位」をそのまま使ってもいいし、
「精度は2位だけど、推論が速いからこっちにしよう」という現場判断もできる。
結果をブラックボックスにしない。
判断の材料は全部開示して、最終的な選択はユーザーに委ねる。
違い④:「どうすればOKになるか」まで提案する
AutoMLは「どの手法が精度が高いか」を教えてくれます。
でも、「じゃあ、製造条件をどう変えればいいのか」は教えてくれません。
現場が本当に欲しいのは、
「温度をあと3度下げれば、OK率が上がりますよ」
という改善の提案です。
分析結果から逆算して、最適な製造条件を探索する ―― いわゆるプロセス最適化。
これはAutoMLの守備範囲の完全に外にあります。
(この話は、次回の記事⑧で詳しく書きます。)
違い⑤:分析して終わりではなく、現場で「使い続ける」
AutoMLでモデルを作ったとして、それをどうやって現場で運用するか。
リアルタイムにデータを監視して、異常があればアラートを出す。
モデルの精度が落ちてきたら再学習する。
この「使い続ける」部分も、AutoMLは面倒を見てくれません。
私たちは、モデルを作るだけでなく、現場で回し続ける仕組みまで含めて、ひとつのソフトでカバーしたいと考えました。
まとめると、こういう違いです
| AutoML | 私たちが目指すもの | |
|---|---|---|
| ① 前処理(8割の工数) | ✕ 対象外 | ⭕ 取り込み〜結合〜特徴量抽出まで |
| ② 現場向けの可視化 | △ 簡易的 | ⭕ 相関行列・散布図・SN比等を一覧表示 |
| ③ モデル選定・学習 | ⭕ | ⭕ |
| ③ 全手法の結果比較 | △ 上位のみ | ⭕ 全アルゴリズムの詳細を開示 |
| ④ プロセス最適化 | ✕ 対象外 | ⭕ 最適条件の逆算・提案 |
| ⑤ リアルタイム監視 | ✕ 対象外 | ⭕ 監視・アラート・再学習 |
AutoMLが⭕なのは、この表の「モデル選定・学習」のたった1行だけ。あとは対象外か、部分的な対応にとどまります。
私たちは、上から下まで全部を、ひとつのソフトでカバーしたい。
しかも、製造業の現場データに特化した形で。
理想のフロー
具体的にはこういう一気通貫の流れです。
STEP 1 データを取り込む
STEP 2 ゴミや抜けを自動で整える
STEP 3 複数の工程データを結合する
STEP 4 グラフで全体を俯瞰し、効きそうな項目を絞る
STEP 5 分析手法を全部自動で試して、ランキングで結果を見せる
STEP 6 一番いい手法の設定を、さらに自動で微調整する
STEP 7 「たまたま良い結果だった」を排除する検証を行う
STEP 8 最適な製造条件を逆算して提案する
STEP 9 完成したモデルで、リアルタイムに監視する
STEP 5〜7あたりがAutoMLの守備範囲。
私たちは、STEP 1〜9の全体をカバーしたい。
しかもこれを、プログラミングなし、ドラッグ&ドロップだけで操作できたら。
ただし、「全自動」でもブラックボックスにしない
何度も言いますが、ここが大事です。
全部お任せで結果だけポンと出てきても、製造現場では使えません。
品質の判断に 「AIがそう言ったから」は通用しない から。
なぜその結果になったのか。
どの項目が効いているのか。
どれくらい信頼できるのか。
これが見えないと、現場は納得しません。
だから、自動で回すけれど、途中経過はいつでも確認できるようにする。
全アルゴリズムの結果も、全部開示する。
「中が見える自動化」。
これが、ツール全体を貫く設計哲学になりました。
やりたい人は中身を深く覗ける。
そうでない人は、ボタンひとつで結果を得られる。
どちらのユーザーも排除しない。
この思想が、後の開発で大きな意味を持つことになります。
この記事へのコメントはありません。