コラム「どこかおかしいよ、データマイニング!」麻生川 静男


【第13回】風変わりなデータマイニングの手法(その一)  


【第28回】データマイニング・夜話
(その十:子供の頃わくわくした事)


コラムTOPへ戻る

データマイニングにはさまざまなデータ手法があります。今まではどちらかというとオーソドックスな手法を紹介していましたが、今回は風変わりな手法を紹介しましょう。

以前データマイニングビジネスをしていた時に感じたのですが、データマイニングの手法で当時私が焦点を当てていたダイレクトマーケティングの分野で重要な次のようなテーマに対して適用できる手
法があまり普及していなかったのです。

・ 通販における顧客、商品、カタログの総合的分析
・ POSデータからの商圏分析
・ アンケート分析

当時(1995年頃)の一般的なコンピュータ環境では、データ分析に膨大なメモリー空間(例えば1Gバイト)を確保できなかったり、そもそもCPU速度が遅いため、大量の繰り返し計算を必要とするアルゴ
リズム(算法)そのものは適用できなかったのです。ただ1社、アメリカのNOR社の何億円もするコンピュータシステムではこれらのデータマインニング可能だというふれ込みでしたが、一般的に普及す
るまでには至りませんでした。

それ故、当時はコンピュータパワーを必要とするデータマイニングというより、コンピュータパワーをあまり必要としない統計データ解析が主流であったのでした。しかし、この統計データ解析が得意
とするのは主として数値データ解析だったのです。しかし、私が関心を持っていたマーケティングの分野のデータが必ずしもいつも統計データ解析や通常のデータマイニング手法が扱えるデータに変換できるわけではありませんでした。こういう背景があって、私は自分のテーマであるマーケティングデータの分析に適切な手法を開発しようと考えました。

そういった考えをもって、アメリカのデータマイニングの学会に出席した時にある講演を聴いて、方向性がつかめたのでした。それは、文章を意味的にとらえるために使われているVSM(Vector Space
Model)あるいはCV(Context Vector)といわれていた手法でした。この手法は自然言語文書の意味的検索の分野ではかなりのレベルで成功していると言われていました。

Context Vector(コンテキスト・ベクトル)というのは、読んで字のとおり、Context、つまり文章内容そのものを Vector ベクトルで表現すると言うものです。さて、ここでちょっとベクトルのおさらいをしてみましょう。ベクトルとはそもそもどういった物なのでしょうか?一番簡単な例は、例えば、皆さんの周りにいる人たち身長と体重を測定し、それを2次元(縦軸--身長、横軸--体重)の図にプロットすることです。原点(座標の(0,0)の地点)とそれぞれの点を結ぶ線がベクトルと言われているものです。つまり複数のデータをひとまとめに取り扱える記法なのです。

もう少し具体的イメージをつかめるような説明をしましょう。例えば指を広げてみてください。

この時、手首が原点の位置であり、広げられた指の先がベクトルの値です。それぞれの指の間には近さという概念が存在します。例えば、薬指に近いのは、中指と小指です。これは単純に薬指の指先と他の指の先との距離をそれぞれ測定してみれば分ります。普通に指を一杯に広げた場合、親指はどの指からも一番遠いですが、親指を薬指にくっつけると、今度は薬指に一番近い指が親指ということになります。つまりベクトルは、値の変化とともにそれぞれの間の距離(指の先同士の距離)が変化します。

さて、ベクトルのことを一応理解できたとして、コンテキスト・ベクトルを使った手法の話にもどりましょう。

この時に私が考えたのは、『併時発生頻度による類似度マトリックスを使った概念的データモデリング法』というものでした。別名『ニューロを応用したマーケットデータの意味的新解析手法』です。随分と長たらしい名前ですが、英語で書いても同じように長い名前になります。

『Conceptual Data Modeling With Mutual Cooccurrence Similarity Matrix』

これを略して私は『McSim:マクシム』と呼んでいました。この名前は、銀座のソニービルの地階にある有名なフランスレストランの名前と同じ発音ですので覚えやすいでしょう。

【適用分野】
私が考えていた適用分野としては、主としてダイレクトマーケティング及び、小売業のPOSデータを対象とした分析です。こういった分野での対象データは、オーダー的に言うと商品数は数万アイテム、顧客数は数百万人から数千万人規模のものを充分に扱えるような構造になっていることが必要でした。このような規模のデータを扱えるためには、通常の発想のデータマイニングではなかなか困難でした。

つまりマスマーケット・データから個客の観点から分析できる方法が求められていたのでした。従来の分析手法のようにある地区別のABC分析のような手法ではあまりにも大雑把すぎるのです。その
上、分析結果から真意を読みとることのできる熟練者を必要とするのも難点でした。

【適用具体例】
さて、McSimの具体的な例を考えてみましょう。

------------------------------------------------------
a.通販業界における顧客の購入品目情報による商品分類と客筋分析
------------------------------------------------------

通販業界のデータというのは基本的に次の三つの観点でまとめることができます。

 1.顧客(個客)データ
 2.商品データ(商品の属性データ)
 3.カタログ(商品のあつまり、顧客への勧誘手段)

これら三つのデータはそれぞれ互いに非常に密な関連があります。
例えば、顧客の購入品目の組合せを元にして各商品の類似性を求める、というような従来ではできなかったような分析もしたかったことです。また、それら商品群の購入主体者としての顧客の分類ができることになります。さらには、これらの分析結果に基づいて、新商品もしくは商品群(あるいはカタログ)に一番反応しそうな顧客群を逆に選択することができます。

ついでに言いますと、全く新規の商品を販売した場合、誰が買いそうであるかという、従来であれば、データがないため想定すらできないような分析も可能となります。


-------------------------------------
b.小売り業のPOSデータに基づく商圏属性分析
-------------------------------------

通常の発想では、POSデータの分析は主として死に筋商品の検出にあることが多いといわれています。つまり各商品の売れ行きが、タイムリーに把握できればよく、その為の情報処理される仕組みと
なっていることがほとんどです。しかし、膨大なPOSデータの新たな活用法として『買い物かごの中味』分析ということが言われています。一番有名な例がウォールマートの『ビールとオムツ』に代表される併売分析です。

併売分析の意味するところを、例を挙げて説明しましょう。例えば(ビール+するめ)を買う客と、(デンマークブルーチーズ+ボジョレーヌーボー)を買う客は、明らかに異なったライフスタイルを持っている客だと考えることができます。つまりそれぞれのライフスタイルを特徴づけているのが、単品だけの分析というのではなく、それらの併時発生(つまり買い物かごの中に一緒に入っている)頻度の高さであると考えるのです。さらには逆に商品の性格、対象客層もこの併時発生頻度から明らかになってくると考えらます。

併時発生頻度が高ければ高い程、それら商品群は、無機的にふられている商品カテゴリーの観点からみて全く無関係でも、概念的には近い関係にあると考えないといけない、という訳です。この観点から、現在の硬直した製造者本意の商品カテゴリー及び品番管理の枠
組を超えた商品及び購入者のライフスタイルの観点の分析から、各店舗の的確な商圏属性分析ができるはずと私は考えました。


-----------------------
c.アンケート調査結果の解析
-----------------------

アンケートのデータ解析といえば大抵は各項目の集計を取り、それらのデータ間の単純な比較が多いのがほとんどです。そういった類の単純作業によって生み出される膨大な統計資料を作り出すことが『データ解析』の仕事の全てであるかのように思われています。それで本当に必要なデータ解析は、最後は人間が主観的な想像力を働かせてするしか方法がなかったのです。

こういった後処理の複雑さがよくわかっているものですから、逆にアンケートを作る段階でも極力集計結果を単純化できるように仕組まれていて、本当に知りたいことの根元的な質問がなされないこと
も見かけます。

端的な例では、複数アイテム回答を可能にした途端に、通常の意味の統計解析では扱えないデータ構造となってしまうのです。McSimでは、こういった質問項目の制約を全く設けない形式の、本当にマーケターが望んでいたアンケート解析が可能になると考えられます。
続く...
TOPへ


Copyright © 2005 Zetta Technology Inc. All rights reserved.