コラム「どこかおかしいよ、データマイニング!」麻生川 静男


【第12回】Tree分析(樹形分析)(その三)  


【第28回】データマイニング・夜話
(その十:子供の頃わくわくした事)


コラムTOPへ戻る

過去二回にわたってTree分析について説明しました。Tree分析のプ ロセスや案外と知られていない落し穴について述べました。

今回は、実際にTree分析をデータマイニングに適用するに当たって 、Tree分析が好まれる理由や、欠点について述べましょう。

まずニューロと比べると、分析の観点(通常、切り口と言っています)が極めて素直であるということがTree分析が好まれる最大の理由であると言えるでしょう。人間の視覚は3次元のものを捕らえるこ とができますが、それ以上の次元になると、理屈(頭)では分って いても、情念(心)がついていけません。またその3次元ですら、建築図面のように2次元、つまり平面図面に描かれている図から3次元 、つまり出来上りの立体像を頭のなかで構成することにすら、訓練を必要とします。ましてや、3次元以上の高次元・多次元のデータは想像することすら難しいでしょう。

これに関連していますが、人が耳で聞いて覚えられるのは五つ程度だと言われています。例えば、人に使いを頼むときに、用事を五つ以上言うと、メモしない限り大抵は幾つか忘れるという訳です。私 だけでなく、講演する人がよく使うテクニックですが、話のポイントとなる点はなるべく箇条書きにして三つ程度に止めるのがよいのです。印象づけようと躍起になって、欲張って、あれもこれも言うと却ってポイントがぼやけ、相手の印象に残りません。簡潔な句で印象づけるさまざまな諺はこの心理をよく理解していた我々の先人の賜物といえるでしょう。

ついでにこの複雑性の問題をもう少し考えてみましょう。

皆さんは見知らぬ知人の家に行くとしましょう。その家への道には2通りあって、一つは近道ですが、曲がりくねった路地を幾つも通って行かないといけない道です。もう一つは少々遠回りになりますが、大通りを2回程曲がるだけで済む道としましょう。

さて、皆さんは最初にその知人の家に行くときにどちらの道を取りますか?大抵の人は少々遠回りでも大通りを通っていくでしょうね。つまり、分かり易い道順を選ぶでしょう。 しかし、慣れてくるに従って、遠回りをするのではなく、曲がりくねった道でも、近道の方を選ぶでしょうね。つまり、当初複雑であった道順でも慣れると頭の中で簡単に思い浮かべることができるものです。つまり、問題が複雑かどうか、というのは、本質的なものではなく慣れの問題であるとも言えます。

さて、以上の話から、ニューロに比べてTree分析がどうして分かり易いかという点を説明することができます。ニューロの場合、結果はいろいろな変数(要因、因子とも言えます)が絡みあっています 。上の例では、複雑な路地を行く道順に相当します。Tree分析にお いては、一つの分岐では、単に一つの項目によって分割されていますので、モデル条件が簡単に分ります。この単純さのおかげで、特にデータ活用の現場(審査部門など)でTree分析が好まれるのです。

また統計解析(回帰分析)と比べてみると、変数に数量データ(例 :年令、給料などの数値情報)とカテゴリーデータ(例:男女、職業などの区分情報)が混在している場合、Tree分析の方が統計分析より、解析結果が分かり易いことが多いものです。

しかし、前回の説明でもすこし触れましたが、Tree分析にも欠点が幾つかあります。それについて説明しましょう。

【1.不可解なセグメント】手書き文字認識や音声認識というのは、随分前から研究されているのですが、コンピュータではまだ完全には認識できません。一番の理由は、人間の感性とコンピュータの感性(実際には、人間の書く コンピュータプログラムですが)の違いにあります。コンピュータ は人間なら誰でも簡単に見分けがつく文字や声を全く無関係な文字 や声として、誤認識することがよくあります。これは、私たちの感性というものが、論理的に説明し難いということの証拠と言えそうです。同様のことがTree分析によるデータの分割にも当てはまります。人間が考える類似性というものとコンピュータ(プログラム)が考える類似性は必ずしも一致しないのです。(この点については以前この欄の『データの蜃気楼』で述べました。)それ故、人間が考えると奇妙な分割セグメントができることがありますが、それにむやみにこだわるのはよくありません。

【2.データへの依存性】データ解析・データマイニングをしていると顧客からよく聞かれる 質問に、『分析は過去のデータを使ってするので、果たして将来のことをそれでうまく予測できるのか?』というのがあります。正面 きってこの問いに理論的に答えようとすると、検定の理論、大数の法則などをもちださないといけないでしょうが、一般的には次のよ うに考えていいと思っています。つまり、『もし、将来も過去の状況と大きく違わないのであれば、過去のデータで作成した解析モデ ルは将来的にも使えるはずです。状況が大幅に変わったり、あるいはデータが大幅に変わるのであれば解析モデルを作り直す必要があります。』

ここでのポイントは、一般的に言って解析モデルというのはデータ内容が多少変化しても対応可能だということです。

しかしTree分析に関しては、この一般論は当てはまりません。Tree分析では、同じ状況から得られたデータを使っていても、仮にデー タの幾つかを除外してモデルを作ると、かなり異なったモデルがで きることがあります。

統計の用語ではこういった特性を『ロバスト性がない』と言います 。ロバストとは頑丈な、とか耐久性のある、という意味です。従ってロバスト性がない、というのは、ちょっとしたデータサンプルの差に大きく左右されてしまうことを指します。

【3.大きなサンプルデータが必要】 前回説明しましたように、Tree分析では区分分割をしていくとあっ という間に数多くの箱ができてしまい、一つの箱には一個、あるいはたかだか数個のデータ点しか入っていないことになります。つま り、細かい分析をしようとすれば、それだけ大量のデータが必要となります。これは、分析結果の安定性に係わる問題です。その点、統計解析ではデータ点は少なくてもそれなりに解析モデルができる点がTree分析と異なります。

【4.分割の打ち切りが不明】統計的手法である回帰分析では、データが与えられ、一連の計算が 終わると、直ちにモデルが出来上がります。その間人間が関与すべ き要素はありません。一方、Tree分析においては分割の最大値は人間が決めて分析プログラムに明示的に与える必要があります。その基準は残念ながら存在しません。それで、分割の様子を見ずに単にモデルの性能だけでやみくもに細分化してしまう危険性はTree分析には常につきまといます。

以上のような欠点は別の観点からすれば、逆に長所とも考えられます。それは、データ解析・データマイニングという作業そのものの根本命題と関連します。そもそもデータ解析・データマイニングというのは、あるビジネス状況を分析し、特徴を見つけ、それに対処する方法を探索するものです。ビジネス分野におけるデータ解析・データマイニングというのは科学的客観性や厳密性を求めていない 、と私は考えています。過去数多くのデータマイニングを手掛けましたが、私は常にこの点に注意してきました。

この点を忘れて、科学的に厳密性を誇ってみてもビジネスの現状を改善する、という目的に到達しなければいくら数学的に厳密な解析をしたところで、ビジネス的観点からは、無駄だと私は考えます。この点が学者の考えるデータ解析・データマイニングと大きく異なる点です。

こういった観点からいうと、Tree分析の欠点が逆に長所となり得るのです。つまり、Tree分析では自分の望む観点から、データ解析結果をを見ることを可能にしてくれるからです。さらにはデータを部分的に再度モデリングすることできます。つまり問題意識に応じて 、自分が望む観点あるいは深さでデータの様相をみることを可能にしてくれるのが、このTree分析の利点であるといえましょう。

しかしこれも程度問題であまり極端になるとデータを恣意的に解釈することにもなり、解析結果や作成モデルに説得力がなくなる恐れもあります。要はデータマイニングの手法の長所と短所の両方を知 りつつ、ビジネス的見地から目的に到達するためのデータモデリングをすべきなのです。
続く...

TOPへ


Copyright © 2005 Zetta Technology Inc. All rights reserved.