可視化するだけでも大変! Diary #05
みなさん、こんにちは。Vertysの山本です。
前回、データ解析の8割は前処理だという話をしました。
じゃあ残りの2割が「分析」なのかというと……実はそうでもないんです。
前処理が終わったら、次に来るのが「可視化」。
そして、これもまた大変なんです。
これも、多くのお客様からお聞きしました。
まず、データを「見る」ところから
機械学習でいきなりモデルを回す、なんてことはしません。
まずはデータを「目で見る」。これが鉄則です。
FAのエンジニアさんたちが、まず何をするかご存知ですか?
相関行列、ヒストグラム、散布図、トレンドグラフ。
この4つを一覧にする。
「この項目と品質に相関がありそうだな」
「このパラメータの分布、二峰性になってないか?」
「時系列で見ると、この時間帯に異常が集中してるな」
こういった気づきを得るために、ひたすらグラフを作ります。
Excelの限界
……で、これをどこでやっているかというと、Excelです。
散布図を1個作って、次の組み合わせで作り直して、また次の……。
変数が20個あったら、組み合わせは190通り。
ひとつずつ手作業で散布図を作っていたら日が暮れます。
相関行列もExcelで作れなくはないですが、見やすく色分けしようとすると条件付き書式で格闘することになる。
しかもこれ、データが更新されるたびに全部やり直しです。
「見たいものがすぐ見られない」というストレス
現場のエンジニアさんが欲しいのは、すごく単純なことなんです。
- CSVを放り込んだら、相関行列・ヒストグラム・散布図・トレンドが自動で一覧表示されてほしい
- ラベル(OK/NGなど)があるデータなら、散布図上で色分けして見たい。不良モード別にも色を変えたい
- 効きそうな変数を自動でサジェストしてほしい
たったこれだけのことが、既存のツールではなかなかできない。
BIツールを使えばある程度できますが、製造業の現場データに最適化されているわけではない。
可視化は「ゴール」ではなく「スタート」
重要なのは、可視化はそれ自体が目的ではないということ。
可視化の目的は、「どの変数を機械学習に投入するか」を選ぶこと。
いわゆる「項目選択」です。
何百個もある変数の中から、品質に効いていそうなものをピックアップする。
ここで選択を間違えると、いくら高度なモデルを回してもゴミしか出てこない。
可視化と項目選択。ここを徹底的に使いやすくすること。
これがツール設計の2番目の大きなテーマになりました。
この記事へのコメントはありません。