コラム「どこかおかしいよ、データマイニング!」麻生川 静男


【第11回】Tree分析(樹形分析)(そのニ)  


【第28回】データマイニング・夜話
(その十:子供の頃わくわくした事)


コラムTOPへ戻る

前回はニューロと並んでデータマイニングではよく使われる分析手法である、Tree分析(樹形分析)の機能を説明しました。どうですか、考え方は非常にシンプルでありながら、結構使える手法であることがお分かり頂けたでしょうか。

一面ではニューロより使い易いかもしれません。それは、分析の手法そのものが私達の一般常識と近いからでしょう。つまり、私達人間には、多次元というのは頭で理解できても直感的にはかなり理解し難いものです。その点では、多次元を複合的に扱うニューロより、それぞれの項目を個別に使って解析してくれるTree分析は素人的には馴染みやすいでしょう。しかし、何でもそうですが、使い方を誤まると、薬ではなく毒になってしまいます。

今回はその注意点を説明しましょう。私の経験からのお話しです。 ある時のことです。私のお客さんから電話がかかってきました。その人は大手クレジットカード会社の審査部門の部長さんでした。私は以前、クレジットカード会社や、通販会社などの審査部門の方々を対象にニューロやTree分析などのデータマイニングおよび統計解析などを含む、データ解析手法の講習会を開催していました。彼はその最初の講習会に出席し、熱心にいろいろな解析手法を学んでいました。

さてその電話での話の内容は、途上与信の審査モデルをTree分析のツールを使って開発したのだが、うまくいかないから相談に乗って欲しいというものでした。途上与信というのは、クレジットカード会社でカードを発行した顧客が多重債務などのこげつき(事故と言っていますが)を起こさないかどうかを定期的にチェックすることを言います。クレジットカード会社の収益に直結するため、どこの会社でも入会審査以上に非常に力を入れている業務です。

ある日の夕方、その部長さんの会社の近くの居酒屋で出会い、飲みながら話を聞きました。聞いてみると、彼の会社に出入りしているコンサルタントからTree分析のツールを勧められて、途上与信用のデータを使って、顧客のランキングを算出するモデルを作ったのです。モデルを作っている時は正答率が非常に高く(確か93%とか95%とかいう数字だったと記憶しています)申し分ないモデルが出来たと喜んでいたのです。その良好な精度に喜び勇んで、実際にシステムに組み込んで運用を始めました。しかし、案に反して実際そのモデルを使うと途端に全く当たらなくなった、と言うのです。現場からは責められるし、上司からは叱られるし、途方にくれてデータ解析の講義を思い出して私に電話をかけて来たという次第だったのです。

その話を聞いて、私はすぐに原因が分かりました。それは、統計でいう『確率』という概念を彼が正しく理解していない点にあったのです。

『確率』という概念は普段はあまり使わないため、皆さんの中にもよく分からない、と思っている方が多いのではないでしょうか。しかし、データマイニングやデータ解析をする時には非常に重要な概念なので正しく理解しておく必要があります。今回はこの『確率』の説明をしましょう。

確率で一番分かりやすい例は、さいころです。さいころには六つの目があります。イカサマさいころでない限り、それぞれの目は当分に出るはずです。つまり、六回に一回はそれぞれの目がでるものと期待できます。この時それぞれの目は1/6の出現確率がある、と言います。しかし、たまには特定の目(例えば六)が続けて何回も出ることがあります。例えば三回続けて六の目がでたとしましょう。そうすると、そのさいころは何かしかけがある、イカサマさいころか?と疑いそうですね。しかし、確率論で言えば、これは、1/6の3乗 (=0.0046)、200回に1回ぐらいでこういう事が起るので、不思議でもない、と結論づけできます。つまり確率論というのは、常識的にはありえない、と思うことでも、この程度の頻度で起るのは、奇跡でない、という境(限界)を示してくれます。

ちょっと横道に逸れますが、それでは、何回までつづけて同じ目がでればイカサマさいころと判断できるのでしょうか?この問題は統計でも検定という分野で取り扱われています。検定では難しそうな数式を用いて説明しますが、手短に言いますと『有意水準』(つまり、どの程度であれば怪しいと考えるか?)の値の設定によって、結論はどうにでもなる、という極めて曖昧なことしか言えません。 つまり検定というのは、数式こそいかめしい形をしていますが、実はこけおどしさながら、決定的なことは何一つ確かには言えない、というのが残念ながらその実態なのです。

さて、マーケティングでいう確率というのも本質はこれと同じ考え方なのですが、分かり易い例をとって説明しましょう。例えば皆さんがハンバーガー屋の店長になったと思ってください。店の売上を上げるためにダブルチーズバーガーの特売のちらし100枚を刷ったとしましょう。店長のあなたは、なるべく沢山のダブルチーズバーガーを売りたいと考えています。さて、その特売の日に開店早々来店した茶髪の女子高校生が早速ダブルチーズバーガーを買ったとしましょう。あなたはどう考えるでしょうか?『そうか、ダブルチーズバーガーを買うのは茶髪の女子高校生か!それでは早速店の外で茶髪の女子高校生にちらしを配るとするか!』このような考えは正しいでしょうか?

一人の茶髪の女子高校生がダブルチーズバーガーを買ったという事実は間違ってはいないのですが、茶髪の女子高校生の皆が皆ダブルチーズバーガーを買うわけではないでしょう?スーツ姿の中年の会社員も買うことだってあるはずです。しかし、常識的に考えて茶髪の女子高校生の方がネクタイとスーツの中年の会社員よりもより高い比率で買いそうだってことは感覚的に分かります。

このような場面こそ確率論の出番です。おもむろに確率論をこの課題に適用してみましょう。その為には実績を正確に把握する必要があります。その為には入店する茶髪の女子高校生100人の内何人がダブルチーズバーガーを買ったかを記録します。60人いたとしましょ う。次にスーツ姿の中年の会社員を同じく100人の内、何人がダブルチーズバーガーを買ったかを記録します。20人いたとしましょう。 この時、茶髪の女子高校生はスーツ姿の中年の会社員より、3倍の確率でダブルチーズバーガーを買うと結論づけることが出来そうです。従って、ちらしを茶髪の女子高校生に配る戦略自体は間違っていません。ただ、それでも茶髪の女子高校生の100人の内、約半分の40人はダブルチーズバーガーを買わないのです。(この点を見落とすと、先ほどのクレジットカード会社の部長さんのように間違った判断を下す事になるのです。この点は注意して下さい。)

ところで、もっと高い確率でダブルチーズバーガーを買う人たちはどうしたら見つかるでしょうか?答えは、女子高校生とか、スーツ姿の中年の会社員とか、予め買いそうな人たちのグループ(属性)を想定しないことです。つまり買った人たちはどういった属性をもっているのかというのを買ったという実績から逆に調べることが正しい考え方なのです。

その為には次のようなアンケート用紙を作って入店した人全員に配布し、回答をもらうことを考えましょう。

 【ハンバーガー店の質問表】
  Q1:性別は?
  Q2:誕生月は?
  Q3:年令は何歳代?
  Q4:職業は?(会社員、大学生、高校生、フリーター)
  Q5:電話番号の下1桁の番号は?
  Q6:何回目の来店?
  Q7:コーラとペプシのどちらが好き?
  Q8:和食と洋食のどちらが好き?
  Q9:サッカーと野球のどちらが好き?

この質問表を元にして、ダブルチーズバーガーを買った人と買わなかった人をTree分析してみましょう。

ところでこの質問表には何通りの組み合わせがあるでしょうか。それぞれの可能性を勘定してみましょう。Q1の性別は男女、ですから2通りです。Q2の誕生月は12通りです。Q3の年令は10歳代から60歳代 、それ以上の7通りとしましょう。Q4の職業は4通り。Q5は10通り。 Q6の来店は初めて、2回、3回、4回、それ以上の5通りとしましょう 。Q7、Q8、Q9はそれぞれ2通りです。これらを組み合わせると、合計で268,800通りあります。

例えば、来店者3000人ぐらいにアンケートを取ったぐらいではこの全部の組み合わせの僅か、1%程度にしかならないのです。つまり簡単な話、可能な組み合わせがアンケートの件数より圧倒的に多いのです。

つまりTree分析で細分化すると、必ず最後には、個人個人のデータ に行き着きますので、正答率が見かけ上、上昇するのです。

冒頭言いましたクレジットカードの部長さんの陥った落し穴というのは実はこの点だったのです。つまり、Tree分析はあまり細かくしすぎると一見、正当率が非常に高い、素晴らしいモデルができたようになるのですが、実は個別のデータそのものを評価しただけの当たり前の結果しか得られません。つまり、汎用的な情報ではなく、個別の情報しか得られないのです。

見かけの正答率の上昇が反って、まずい分析を生み出す、というのがこのTree分析の知られざる恐ろしい落し穴なのです。
続く...

TOPへ


Copyright © 2005 Zetta Technology Inc. All rights reserved.