コラム「どこかおかしいよ、データマイニング!」麻生川 静男


【第5回】データマイニングと統計  


【第28回】データマイニング・夜話
(その十:子供の頃わくわくした事)


コラムTOPへ戻る

データマイニングをしているとよく聞かれる質問としては、『データマイニングと統計とは違うものなのでしょうか』というのがあります。これにたいして、色々な意見があり、全く異なるものだ、という人もいれば、統計もデータマイニングの一部だ、という人もいます。

私の意見は、一緒とも言えるし、異なっているとも言える、(Yes AND No)と考えています。一緒というのは、喩えていえば、野球とゴルフを比べてみましょう。この二つは一緒か、と言われると球技という点では一緒ともいえますが、野球は団体競技であり、ゴルフは個人競技である点では異なっている、と言うのと近い関係にあります。

つまり、データマイニングも統計もどちらも大量のデータから内部に潜んでいる(と仮定される)法則を導き出そうとする試みである点では共通しています。従って、データに対する取り組み姿勢やデータの前加工などでは共通の考えやツールが使えます。

しかし、異なる点と言えば、統計はデータの奥に潜む法則性を何かしら仮定しています、あるいは前提としています。つまり、このデータは元来こういう法則があるはずだ、という前提で手法を適用します。従って、その前提で解析された答えが無理やリにでも出てきてしまうのです。

それはちょうど元来さまざまな形をしているジャガイモをクッキーの型押し器に入れるとその形になって出てくるのと一緒です。

統計手法を、実際の社会系のデータに適用するときの難しさは、いろいろある統計手法(型押し器)が元のデータに内在するデータ構造(ジャガイモ)とどの程度親近性があるか、を人間がいろいろな状況から判断しなければいけない点にあります。つまり、統計手法を適用する人間に型押し器のタイプ、すなわち内在するデータ構造を見抜くだけの眼力(知識)が要求されている訳です。

それに対し、データマイニングの手法は、データ構造に内在する法則性をツールが『ヒュ-リステック』に見つけ出してくれます。この『ヒュ-リステック(heuristic)』という単語は耳慣れないかもしれませんね。辞書をひくと、『発見的』という日本語が当てられていますが、これもいまいち分かり難い訳語です。一般的にいって、こういった単語は、語源からたどって見ると案外とよく分かるものです。heuristicはもとは heuriskein(へウリスケイン) というギリシャ語の動詞から来ていて、英語でいうと find という簡単な単語なのです。つまり、ヒュ-リステックとは finding、見つける事、という意味であります。

この単語が使われている有名な故事があります。それは、紀元前三世紀、ギリシアの数学者・物理学者であるアルキメデスが風呂に漬かっていて浮力を法則を発見したときに、『へウレーカ(heureka)!!』(I have found)と叫びながら街中をストリーキングしたのです。これは直訳すれば、『見つけちゃった』という程度の意味しかありませんが、万鈞の重みをもった言葉となって今に伝わっています。

さて、ヒュ-リステックが発見的である、という字面の意味はお分かりいただけたとして、本題のデータマイングがヒュ-リステックである意味を説明しましょう。元来、統計理論が考え出された18、19世紀に於いては、コンピュータがありませんでしたので、数多くのデータを扱うのに極力計算量が少なくなる方法を考え出したのです。
これが、線形近似であり、また別名ガウシアン(Gaussian)と呼ばれる正規分布関数です。つまり、これらの手法が先ほどの『型押し器』に該当する概念だった訳です。

しかし、20世紀後半になってコンピュータが使われだしてから、データの元の形、つまり先ほどの比喩で言うとジャガイモのような勝手きままな形をそのまま扱うための手法(アルゴリズム)が開発されました。これは、コンピュータのような高速計算ができる環境が整って初めて可能となったのです。つまり、初めから型押し器のような特定の考えに当てはめてデータを色眼鏡で見るのではなく、そのデータの元来もっているデータ構造を試行錯誤的に、つまり『発見的』に見つけようという考えです。

この手法の一番代表的なのが、ニューラルネットワークです。この連載の第一回目にも書きましたように、私が十数年前にニューラルネットワークのツールを使い、データマイニングを始めた時はまだ
コンピュータの性能が低く、SUNのような高価なUNIXワークステーションでも数十万件のデータをデータマイニングすると、一昼夜かかったものでした。片や、それを統計手法で(固有値を)求めると、ほんの1、2分で完了したものです。これからお分かりいただけますように、データマイニングというのは、コンピュータの発達を待って始めて可能になった手法なのです。それ故、現在もなお未完の手法であり、まだまだ不満足の多い結果しかでないのは仕方のない事なのです。

それでも統計手法と比較すると、前も述べましたが、特に私達が対象としている人間系、社会系のデータのように背後に確固とした物理法則が存在しないジャガイモのようなデータ構造を対象とした分析には向いていると私は考えています。 しかし、世の中には、データマイニングから得られた結果に対して次のような欠点が指摘されています。

  1.再現性がない。
  2.最適であるという保証がない。

これらについて私の考えを述べます。

まず、『再現性がない』という意味は、あるデータに対して、ある人が出した結果と別の人が出した結果が必ずしも一致しない、という事です。この非難の前提としての考えは、例えば、薬を考えて見ましょう。ある人にはよく効く薬でも別の人には、全く効かない、あるいは逆に気持ちが悪くなるような薬は厚生労働省の認可が下りないでしょう。つまり、薬というのは、万人とは言わないまでも、大多数の人にとって同様の薬効を示さないといけない訳です。しかしこういった万人向けというのは、善し悪しです。考えてみてください、もし、人々が全て同じ傾向をもっていたとするなら、恋人にしたいと思うタイプの女性(あるいは男性)は極めて限られてくる訳ですが、そうなると、世の中、わずか数人の女性(あるいは男性)を巡ってとてつもない激烈な競争が巻き起こってしまうではありませんか!

次の『最適である保証がない』というのは、データマイニングの答えはあくまでも『発見的に』見付かったものですのでそれがベストか、と言われると、必ずしもその保証はできません。発見的という元来の意味からお分かりのように、『見つけたもん勝ち』あるいは『犬も歩けば棒に当たる』というような性質のものなのですから。私は現実の世界のデータやその解析結果(データモデリング)は多種多様であるのが返って自然だと考えていますので、これら二点はむしろ、データマイニングの長所と考えています。

実際データマイニングビジネスに携わってみて分かったのですが、データマイニングが使えない、というのは、このような理論面からの欠点よりももっと身近な足元をおろそかにしているためだとわかりました。

それは、データマイニングの結果得られた予測モデル(データモデル)を定期的にメンテナンスしていない、ということです。メンテナンスというのは、何もデータモデルだけに限らず、一般的に言って日本人の不得手とする領域です。私は、暫くアメリカに暮らした経験があるのですが、アメリカ人は設備を実にこまめにメンテナンスしています。歴史が浅いアメリカでも築二百年近くの家はざらにあります。日本では、江戸時代の建物といえば、必ず市や町の重要文化財となるほどでしょう。これはなにも日本の家が木造りだからではありません、アメリカでもヨーロッパでも二百年以上経た木造りの家もたくさん残っているのですから。

データマイニングの観点から言いますと、社会系や人文系のデータは社会環境の変化によって年毎に大幅に変化してしまうものです。従って、一度データマイニングしたからといって、その結果の予測モデルがいつまでも有効あるとは限りません。(これが物理系のデータの解析と異なる点でしょう。)

コンピュータの世界、JavaやLinuxなどでは、日本もアメリカとかなり張り合っていますが、ことデータマイニングに関する限り、日本での実績はアメリカのはるか後塵を拝しているように思えます。これは、ツールが悪いとかデータが整っていない、という外面的なせいではなく、実は、このような日本人の苦手な面が足をひっぱっているせいだと私は思っています。

これからデータマイニングをされる皆さんは、是非、構築のことばかりではなく、今後数年、あるいは10数年継続的にメンテナンスすることを前提としてデータマイニングのプロジェクトの計画を立てて頂きたいと思います。


続く...
TOPへ


Copyright © 2005 Zetta Technology Inc. All rights reserved.