コラム「どこかおかしいよ、データマイニング!」麻生川 静男


【第20回】データマイニング・夜話(その二)  


【第28回】データマイニング・夜話
(その十:子供の頃わくわくした事)


コラムTOPへ戻る

最近ある会社で、ログ分析の仕方を議論していました。皆さんもご存知かと思いますが、ログ分析とは、あるWebサイトにアクセスしたユーザーがある画面から別の画面に遷移する時間、あるいはそのサイトに滞留している時間(いわゆる利用時間)の傾向を調査するものです。

大抵のサイトでのアクセスログは膨大な件数になりますこういう大量データはどのように情報に集約、すなわち指標化、するのが良いのでしょうか?

一番なじみ深いのは平均値でしょう。しかしその平均値にもいくつかの種類があります。普通言われているのは、単純平均、あるいは算術平均と呼ばれるもので、合計をそのサンプル数で割るものです。


  算術平均


しかし、これ以外にも幾何平均と調和平均と言われる平均値があります。幾何平均は物価や賃金などの上昇率の平均値を求めるときに使います。


  幾何平均


例えば、過去3年間の上昇率が、それぞれ、20%, 15%, 10% だった場合の平均上昇率は単純平均(算術平均)では15%となりますがこれは正しくはありません。正しくは幾何平均を取り、14.42%です。

もうひとつの平均値は調和平均と呼ばれるものです。それは、例えば自動車の速度の平均値を求めるときなどに使います。


  調和平均


ドライブに行った時、行きの平均時速が60Km、帰りの平均時速が80Kmの時の平均時速は、単純平均(算術平均)では70Kmですが、これは正しくありません。正しくは調和平均をとり、68.57Kmです。

このように平均値一つとってもいろいろな種類があるのです。

これ以外にも、代表値にはメディアンという値もあります。メディアンというのは小学校などで背の順に子供を並べるように、データの値を小さいものから順に並べ、その真ん中の値をとります。例えば、6つのデータがあり、その値が:
1, 1.3, 1.5, 2.2, 2.8, 6とすると、単純平均では2.47ですが、メディアンはデータの3番目の値と4番目の値の半分である 1.85 となります。


  図1 単純平均とメディアン


メディアンには外れ値に強いという特徴があります。この場合、最後の6という値が一つだけ他の値と大きく外れていますね。これは正しい値であるかもしれませんが、例外的な値、あるいは測定誤差と
も考えられます。このようなとき、例外値の影響を受けにくい手法を採用する必要があります。それには、単純平均よりメディアンの方が適切です。なぜなら、単純平均では、外れ値そのものが大きく効いてきて、平均値が本来の数値より大きく(あるいは逆に小さく)なりますが、メディアンの場合は、外れ値を持っているデータサンプルの個数しか効いてきませんので、大抵はデータが固まっている(即ち、大多数の)データサンプル点に近い値となります。

さて、データの代表値として(算術)平均値だけで良いでしょうか?次の例を考えてみましょう。あなたが、株を買うとします。2つの銘柄の過去1年の平均値は一株あたりどちらも5万円だったとします。しかし、一つの銘柄は変動がほとんどなく、安定的に5万円であるとします。もう一つの銘柄は値の上下が激しく、最低2万円のときもあれば、最高8万円のときもある、いわゆるジェットコースターのような変動をする株です。さて、あなたはどちらを買いますか?冒険を好むタイプの人は後の方の株を買うでしょう。それは損をすることがあっても、ぼろ儲けすることもあるからです。一方、絶対に損をしたくない、という保守的な人はどう考えるでしょうか?安定的な前者の株を買うのではないでしょうか。

この例でも分かるように、平均値が同じでも、変動値(Variance)が異なると、状況が異なるのです。つまり、人間の判断は単純な平均値だけでは決まらないのです。

この点を別の例を使ってもう少し詳しく説明しましょう。

皆さんも終電を乗り継いで家に帰る時に乗り継ぎが悪くて、あるいは乗り過ごして、タクシーで高い金を出す破目になった経験があるでしょう。



  図2 終電を2本乗り継いで帰宅する


つまりX駅で終電Aを乗り、Y駅で終電Bに乗り換えます。このとき、終電Aが時刻通りに着くと、乗り換えに1分の余裕があります。

終電Aに乗りそこなうと、X駅から家までタクシーで帰らないといけません。X駅から家までのタクシー代は3万円かかるとします。Y駅で終電Bに乗りそこなうと、そこからタクシーで帰らないといけません
。Y駅から家までのタクシー代は1万円とします。

このとき、最初の終電AがX駅を出発するタイミングは遅かったり早かったりですが、終電Bは時刻表通り正確に発車するとします。

このような状況で、終電AがX駅を発車するパターンが次のように4つあったとしましょう。いづれのパターンも発車時刻の平均値はゼロで同じです。


  図3a 出発時刻が非常に不定
   
  図3b 出発時刻が極端に早かったり、遅かったり
   
  図3c 出発時刻の変動が(プラス・マイナス2分)
   
  図3d 出発時刻が非常に正確(プラス・マイナス1分以内)
   


問題は、これらのそれぞれ4つのパターンの時あなたは、次の問いにどう答えますか?
質問1. X駅に何分前に着くようにしますか?
質問2. サイフにいくらのお金があれば安心できますか?
 
それぞれの場合について考えてみましょう。
   
図3a 出発時刻が非常に不定
回答1. 終電Aは早く出発することが多いので、早い目にX駅に着くようにします。大体5分前ぐらいにつくようにするでしょう。
回答2. 終電Aは遅く出発して、乗り換えに間にあわないケース(1分以上遅く出発する)もあるので最低1万円は必要でしょうね。
 
図3b  出発時刻が極端に早かったり、極端に遅かったり
回答1. 10分前に着くようにしても、まだそれでも20%ぐらいの割合で、終電Aがすでに出発してしまっています。ということは、最低でも20分前ぐらいについていないといけないことになります。しかし、逆に非常に遅く出発するときもありますので、最悪30分ぐらいX駅で待たされることがあります。
回答2. 終電Aが出発してしまっているケースも多いので、3万円は持っていないと安心できません。
   
図3c 出発時刻の変動がプラス・マイナス2分
回答1. X駅に2分前に着けば、ほとんどの場合、終電Aに乗り遅れることはありません。
回答2. 終電Aが遅く出発して、乗り換えに間にあわないケース(1分以上遅く出発する)もあるので1万円は必要です。
 
図3aと図3cを見比べてみてください。グラフの上ではかなり違うように見えますが、最終的な行動の差は、単にX駅に5分前に着くか2分前に着くか、の差に過ぎないことが分かりますね。この場合の5分か2分かという値は、平均値で決まるのではなく、実は変化の最大値で決められるのです。
   
図3d 出発時刻が非常に正確(プラス・マイナス1分以内)
回答1. X駅に1分前以内に着けば両方の終電に間に合います。
回答2. X駅に定刻少し前に着けばタクシーに乗る必要はありません。しかし、X駅に少し(20秒以上)でも遅れると、終電Aは確実に発車してしまっています。そうすると全行程をタクシーで帰らないといけませんので、3万円は必要です。遅れるとペナルティがきついケースです。この点では、図3bよりタクシーに乗らないといけない確率が増えるケースもありそうです。

どうですか?平均値が同じでも、ばらつき(Variance)の値によって、行動がずいぶん変わってきますね!つまり、平均値は事実の一面しか表現できないので、行動を決定するには情報として不十分な
のです。実際金融業界で使われているデリバティブは資産価値の変動分(Volatility)、つまりばらつきを重要なファクターとして計算式に取り入れているのです。
続く...
TOPへ


Copyright © 2006 Zetta Technology Inc. All rights reserved.