コラム「どこかおかしいよ、データマイニング!」麻生川 静男


【第6回】データマイニングをする上での必要な教育  


【第28回】データマイニング・夜話
(その十:子供の頃わくわくした事)


コラムTOPへ戻る

今回は、社内でデータマイニングをする上で必要な人材の教育についてお話します。

私は以前、あるソフトウェア開発会社で、データマイニングビジネスをゼロから立ち上げた経験があります。その時、まわりに居た人間はデータマイニングはもちろんのこと統計を知っている者はほとんどいませんでした。正直なところ、当の私にしてもそれまで統計を本格的に勉強したことがありませんでした。

それでビジネスのネタ探し、顧客開拓、枠組みつくりなど、日々の業務を同時平行的にこなしながら、データマイニングができる人材を育成しました。人材は事業の成功を左右しますので、非常に大切なことでした。

当時(1990年代初頭)というのは、以前もこの稿で述べましたように、データマイニングという言葉すら存在しなかったような状況なので当然のことながら、その関連のことを知っている人もいなければ書籍もないというありさまでした。

データマイニングができる人材育成とは、ビジネス的な観点と技術的な観点の二つから考える必要があります。そのポイントを述べますと、

ビジネス的観点
  1.対象とするビジネスを数値的観点から見ることができる。
  2.どういったデータ分析、データモデルを作れば今後のビジネス展開に役にたつかを理解し、
   提案できる

技術的観点
  1.コンピュータシステムを理解し、データを自由にハンドリングすることができる。
  2.数値データを数理的観点から解析するだけの知識、能力、それと好奇心をもっている。
  3.評価結果を図や表にまとめて提示できる。


これらの観点について、もう少し詳しく説明しましょう。


【ビジネス的観点】



1.対象とするビジネスを数値的観点から見ることができる。



データマイニングビジネスで取り扱うデータというのは、必ず当該ビジネスの『生』の状況を反映しています。この『生』という意味を説明しましょう。データ解析などの本に載っているデータ、あるいはデータ解析ソフトのサンプルデータはそれぞれがすでにデータ解析用にクリーニングされた状況にあります。つまり、料理する魚に喩えますと、ウロコやはらわたが取り去られて、綺麗に洗われている状態と言えます。つまり、料理教室で見るような、さあ、これから料理をしましょう、という状態のデータです。

しかし、現場で日々、あるいは秒単位で蓄積されているデータはそういった洗浄が終わっていない状態です。その上、本来の業務で必要なデータというのは、通常何本ものデータベースに分散して蓄積
されています。

このように、実際データマイニングしようとする対象のデータは、いってみれば混沌の状態にあるわけです。また各データベースは膨大な内容をもっていますので、どのデータを使えばよいのかの判断も下さないといけません。そのためには、各データベースに分散している、各データ項目の関連性を、単に言葉上で理解できるだけでなく、ビジネス的なコンテキストのなか、つまり実際のビジネスが動いている環境に即して理解する必要があります。

例えば、ある項目が、非常に有用な情報を含んでいたとしましょう。しかし、その情報を得るには、かなりコストがかかるとします。この時、技術的観点から言えば、この項目のデータは必要ですが、ビジネス的見地からすれば、そこまでのコストをかけてまで今後ともデータを取りつづける必要があるか?を判断しないといけません。他の項目で代用できないか?その項目がある時とない時でデータモデリングの精度がどの程度影響を受けるか?またそれがビジネスに与える影響はどの程度か?などを定性的だけでなく、定量的にも判断できないといけない訳です。



2.どういったデータ分析、データモデルを作れば今後のビジネス展開に役にたつかを理解し、提案できる。


データマイニングをしている人の中には往々にして単なるデータ解析屋で事足れり、という人を見かけます。そのような人は与えられたデータから、現状はこういった状態ですよ、と言った分析レポートを出すのが仕事だと考えています。確かにデータマイニングの第一は、データから現状のビジネス状態を把握することです。しかし、一番のキモは現在の状態はこのようにすれば改善できますよ、という行動指針をだすことにあります。

ここでいう指針とは具体的に言えば、例えば、ある店舗の売上状態がよくないときに、このような品揃えをして、このような売り場にすれば一ヶ月この程度の売上高が改善しそうですよ、といった具体策を提示できることです。

それは経営者が一番知りたがっているビジネスシナリオなのです。データマイニングをする人は、現状をどう変えればどういう効果が得られるか、を経営者的観点から描けないといけません。

現状改革という観点から言えば、ビジネスプロセスそのものにも手を入れる必要があります。その理由は、上述のように実際のデータマイニングが対象としているデータは練習問題で与えられるデータとは大いに異なります。つまり、所与のデータ、蓄積されているデータで問題が解けるという保証がありません。蓄積されている情報が足りなければ、新たに採集する必要があります。当然のことながら、それにはコストもかかります。特に、外販データを購入するのではなく、内部のビジネス現場で新たなデータを採取しようとすると、幾つかの部門にまたがって現状のビジネスプロセスの仕組みそのものを変更しなければいけないときもあります。

要するに、データマイニングをする、というのは、限定された課題ではありますが、あくまでも視点は数値(データ)の上から経営状況を判断し、改善策を提案できるということである、と私は考えています。


【技術的観点】


1.コンピュータシステムを理解し、データを自由にハンドリングすることができる。


上述のように、データマイニングをしようとすれば、複数のデータベースにまたがってデータが散在しています。それらを目的に合致する形式にまとめないといけません。その為にはデータマイニングをおこなうチームには、社内システムに詳しく、かつ、運用されているデータベースのことがよく分かっている人が必要です。さらには、これら散在している、それも異機種のデータベース、から必要な情報を都度の目的に合致した形式に加工できないといけません。

これら、いわばデータマイニングの『前捌き』とも言われるデータの前加工はあまり、重要視されませんが、実際にデータマイニングをしてみると非常に重要な点であると分かります。私の経験からいうと、データマイニングで期待した成果が得られないのは、このデータ前加工の部分の不手際が非常に大きいように思います。

この部分のデータ加工は現状では、簡易ツールで行うことはかなり困難です。遠回りのようでも、プログラミング言語を習得するか、あるいは、それに相当する機能を有するスクリプト言語をもったツールの採用を検討されるようお勧めします。


2.数値データを数理的観点から解析するだけの知識、能力、それと好奇心をもっている

データマイニングでは主として数値データを解析、モデリングする作業が多くあります。その時に使うソフトというのは、残念ながら、素人が手に負えるものではありません。つまり、元来データ解析のプロが使うものという前提で作られていますので、メニューや入力しないといけないパラメータの説明などの理解には数理的知識が要求されます。

こういった数理的知識を得るのも大変ですが、データマイニングをしていける人材というのは、それ以上に大切な事があります。それはデータおよび当該ビジネスに対する好奇心です。つまり、与えられたデータからこういったことが分からないか?このデータはこういった観点で見直してみるべきではないか?といった、データの表層から奥深いところにあるだろう真理を見つけるべく、あくなき探究心が要求されています。

つまり、データマイニングをする、というのは喩えて言えば、定められたレールの上をなるべく早くかつ事故なく、いかにスムーズに走るか、いう電車のような機能が求められているのではなく、ラフな原野、道なき道を突き進んでいく馬力、途中で事故にあい、ずっこけてもへこたれず、また立ち上がって走りなおしていく根性+快活さをもったジープの機能が求められているのです。

3.評価結果を図や表にまとめて提示できる。
データマイニングの結果、得られるものは大抵、無機的な数字の羅列です。そのままでは、データマイニングしている当の本人にも分からないような代物です。ましてや、ビジネスの現場の人達、 経営者層など、データマイニングの結果を使ってビジネス展開をしようと考えている人達にとって、呪文のように思われるのも無理はありません。

それ故、これらのデータを使い、上述のビジネスシナリオの妥当性を説明するために見やすい図や表にまとめなおす必要があります。
データマイニングするときも、またこの段階でもそうですが、ビジネス的観点を欠落した人は往々にして、とんちんかんな図や表をつくってしまいます。例えば、販売テリトリーが複数県にまたがっているにも拘わらず、販売実績を機械的に都道府県別に集計し、それを県のあいうえお順に並べて、得々としています。

シェークスピアの劇のタイトル『All's well that ends well』(終わりよければ全てよし)ではありませんが、データマイニングをする人には、最後まで細やかな気配りができる人が求められます。


続く...
TOPへ


Copyright © 2005 Zetta Technology Inc. All rights reserved.