コラム「どこかおかしいよ、データマイニング!」麻生川 静男


【第4回】データマイニングツールの誤解  


【第28回】データマイニング・夜話
(その十:子供の頃わくわくした事)


コラムTOPへ戻る

前回までは、データ項目の見方についての盲点となりそうな観点をお話しました。
今回からは、いよいよデータマイニングそのものに関する話に焦点を当てます。
今回は、データマイニングツールの過大評価、あるいは誤解について述べます。

よく『データマイニングツールを使い、マーケティングデータの分析をして、売上を飛躍的に増大させた』とかいう文句を見かけます。
こういったことを聞くと、データマイニングはあたかもディズニーの映画に出てくる魔法の杖のように、データを自動的にデータベースから抽出し、解析し、売上を増大させる方策プリントアウトしてくれそうな錯覚を感じてしまいますね。そんなおいしい話なら、うちもデータマイニングに取り組もうか!という気になるのも無理はありません。

早速A社の小林君の部署でも課長が、このような記事に触発され、小林君にデータマイニングツールを購入するように指示をしました。
小林君はツールベンダーのセミナーに出席し、1ヶ月程かかってようやくツールの使い方を習得しました。そして自分の部署の営業データを準備して、ツールにかけました。
コンピュータはデータを読みに行ったらしく、しきりにハードディスクが動いている音がします。CPUも何か計算しているようです。
小林君はちょっと不安を感じながらも、もう暫くかかるだろうと思って、コーヒーを入れに行きました。
コーヒーカップを持って戻ると、意外にもすでに結果が出ています。
初めての結果に、小林君は期待で緊張ぎみにコーヒーをすすりながら、内容をチェックしていきました。

しかし、結果の表やリストの意味するところが小林君にはどうもよく分かりません。
表の見方が悪いのかなと思い、セミナーの時の資料などをひっぱりだして、この結果を何回もチェックしましたが、どうも期待していたような結果が出てきません。
つまり出てきた結果の表からは、売上を増大させる要因を見出すことができないのです。
せっかく数百万円という高い金を出して最新のデータマイニングツールを買ったにも拘らず、全く失望する結果しか得られなかったのです。
小林君はその後いろいろとトライしてみたものの、結局お手上げの状態になり、とうとう最新のデータマイニングツールはお蔵いりとなってしまいました。

このような悲劇はA社に限らず、実際の現場ではかなり多く見られる現象です。
このような失敗に至る原因はいろいろとありますが、一番大きな要因は、『データマイニングツールへの過度の期待』、言い換えればツールの限界(できること、できないこと)を知らないことが挙げられます。これについて説明しましょう。

次のような場面を考えてください。
会社の引越があるので、各部から数人ずつ力のある人を出すように指示があったとしましょう。
この時どういった基準で『力のある人』を選ぶでしょうか?
そもそも、引越しの時に役に立つのはどういった力でしょうか?
考えてみるとこのような漠然とした力というのは直接的には測定できませんね。
しかし、大体において、筋力に関係しているものだとは想定できます。

さて、各部署では、健康診断の時のデータがありますので、それを使って、『力のある人』を選択することを考えました。
データの項目は次のとおりです。

データ項目 サンプル値
生年月日 19701003
血液型 A
視力 1.0
握力 50
背筋力 180
血糖値 100
自宅の電話番号 52931234


このデータを使い部内から『力のある人』を選択するときに皆さんはどの項目をチェックしますか?
大抵の場合、握力と背筋力の高い数値の人を選択しようとするはずですね。
それは何故でしょうか?何故他の項目をチェックしないのでしょうか?
それは、明らかにこれらの二つの項目が、筋力と関係している、つまり結果的に『力のある人』との関連性が高いからだと考えるからです。このように考える事は正解です。
しかし、一旦これが次のように項目名が伏せられていた場合にはどうでしょう。

データ項目 サンプル値
A 19701003
B A
C 1.0
D 50
E 180
F 100
G 52931234


こうなると、どれが筋力に関係しているのか分からなくなりましたね。
仕方ないので、安全サイドに考えて、全部のデータ項目が何らかの形で『力のある』ことに関連しているはずだと想定し、データマイニングツールに全てのデータ項目を入れて、力任せにごりごりとデータマイニングしようとしないでしょうか?
つまり、人間にはできなくてもデータマイニングツールであれば、データさえ与えればデータにひそむ関連を自動的に見つけてくれるだろうと期待しませんか?
そうした場合、マイニングツールははたして『力のある人』を正しく見つけることができるのでしょうか?

理屈から言えば、マイニングツールというのは、こういうデータが入れられた場合でも項目DとEだけが有効な項目であり、そこから所期の結果を導きだすことができなければいけません。
しかし、現実のマイニングツールでは、残念ながらそうではありません。
他の項目が攪乱要因となって、『力のある人』を特定することは、困難なのです。

一方、項目の意味的内容を知らずにデータマイニングのツールに頼るというのも危険です。
例えば上の項目のA、B、C、G(元の項目で言うと:生年月日、血液型、視力、自宅の電話番号)の項目だけのデータをデータマイニングのツールに投入して所期の『力のある人』を見つけようとしたらどうでしょう。
実行するまでもなく、これではうまく行かないのは見え見えです。

このことからどういったことが言えるでしょうか?

現実のデータマイニングツールというのは、世の中で宣伝されているような、理想のツールではないという事なのです。
前回にお話しましたように、データマイニングツールでは、データの意味的内容を理解しているのではなく、単に数学的に(アルゴリズムで)定められた分類基準に従ってデータ点を分類したり、傾向の近似式を作っているに過ぎないからです。
データマイニングツールは意味的な関連性を見ているのではなく、単に数字的な関連性を見ているだけなのです。
上記の例でいえば、電話番号(例: 52932133)は8桁の整数として見なし、それを正規化(最大値を1.0、最小値を0.0と換算)し直して使います。

現在のデータマイニングツールの限界をジューサーの例を使って説明しましょう。
皆さんの目の前にリンゴ、みかん、イチジク、パイナップルがあります。
これらの果実をジューサーにかけておいしいジュースを作りたい時に皆さんはどうしますか?
なにも考えずにこれらの果実をまとめてジューサーに放りこむでしょうか?
そうではないでしょう。一つずつ手に取って、腐ったところはないかチェックしませんか?
そして腐ったところや、皮や芯などは丁寧に取り除いてそれから、ジューサーに入れませんか?
何故でしょう?
それは、ジューサーは単に入れられたものを粉砕するだけの機能しかなく、腐った部分を見つけて取り除いたり皮をむいたりする機能がないからです。
つまり、おいしいジュースを作るためには、不可欠のプロセスである、果実から不用な部分、あるいはあっては困る部分を取り除く、というのはジューサーの機能ではないのです。

現状のデータマイニングツールというのは(理想的、あるいは未来のことはさておいて)実はこのジューサーと同程度のものと考えてください。
つまり、意味的にどういった答えを出せばよいかの判断は全くできませんが、与えられたデータを高速に処理することは得意なのです。
皆さんは、こういう(ある意味では)低レベルのツールを使わないといけませんので、データの前処理、つまり、意味のあるデータを用意したり、事前に人間(専門家)の観点からのデータ分類をしたりする必要があります。
ジュースの例でいうところの、腐ったところや皮を取り去ったりする前加工の工程が肝心だということになります。

別の言い方をすれば、データマイニングツールというのは人間に馴れていないじゃじゃ馬だと言っていいでしょう。
大変な馬力はあるのですが、乗りこなすのにコツがいり、乗り手がへたなことをすると振り落とされたり、思わぬ迷路に陥ったりしてしまいます。

今回はデータマイニングツールを過大評価してはいけない、まだまだ人間が手間をかけてデータの意味的理解をして、データ項目を選定し、ツールが仕事をしやすいように適切なデータ加工をしなければいけないというお話でした。

続く...
TOPへ


Copyright © 2005 Zetta Technology Inc. All rights reserved.