機械学習のアルゴリズムって何個あるんだ!? Diary#06
みなさん、こんにちは。Vertysの山本です。
前処理で8割の工数を使い果たし、可視化で残りの時間を消費し……ようやく「分析」にたどり着きました。
さあ、機械学習でモデルを作ろう! と意気込んだところで、次の壁が現れます。
「で、どのアルゴリズムを使えばいいの?」
機械学習って、ひとくちに言ってもアルゴリズムの種類が山のようにあります。
分類(OK/NGの判定)だけで数十種類。
回帰(数値の予測)も数十種類。
異常検知も十数種類。
クラスタリング(グルーピング)も十種類以上。
全部合わせると、軽く100を超えます。
しかもそれぞれに「精度」「学習の速さ」「推論の速さ」「得意なデータ規模」が全然違う。
現場のエンジニアは選べない(し、選ばなくていい)
正直に言います。これ、データサイエンティストでも悩みます。
「小規模データならこの手法が強いけど、大規模だと重くなる」
「この手法は精度最強だけど、なぜその結果になったかの説明が難しい」
――こういう判断を、製造現場のエンジニアに求めるのは酷です。
アルゴリズムの名前を覚える必要はない。理論を理解する必要もない。
大事なのは、「自分のデータに合った手法が、自動的に選ばれること」。
どの手法が最適かは、やってみないとわからない
実は、どのアルゴリズムが一番精度が出るかは、データの性質によって変わります。
事前に「これが正解」と決められないんです。
じゃあどうするか?
全部試せばいい。
全アルゴリズムを自動で回して、精度・学習時間・推論速度を比較して、ランキング形式で結果を見せる。
ユーザーは、そのランキングを見て「じゃあこれにしよう」と選ぶだけ。
アルゴリズムの中身を知らなくても、最適なモデルにたどり着ける。
この「モデル自動選定」の仕組みは、3人のAIエンジニアにすごく頑張っていただきました。
どのアルゴリズムをどの順番で回すか。評価指標の重みづけをどうするか。
技術的にはかなり深い議論が必要でしたが、ユーザーから見るとボタンひとつです。
ツール設計の3番目のテーマ、「モデル自動選定」が固まりました。
この記事へのコメントはありません。