1. ホーム
  2. データ活用塾
  3. ビッグデータ活用講座
  4. 第8回 アソシエーション分析2

第8回 アソシエーション分析2
ID-POSデータを使った分析

ExcelによるID-POSデータ(お菓子の実データ)分析

「バスケット分析」では、「併売数」を求めることが重要です。しかし、とても手間がかかり、 これは10枚のレシート分析を行った時に、すでに理解いただけたかと思います。
ID-POSの実データの場合も、前回行った10枚のレシートを分析した時と同じ操作を行うと分析が可能です。
これまではExcel2013を使用してきましたが、Excel2016を使うと、「併売数」を求める操作は少々複雑ですが、多くの商品の「併売数」を一度に求めることが可能です。今回は、その方法を紹介します。
使用するデータは、前に使用したお菓子のID-POSデータで、すでにExcelへ展開してあるとして、売れ筋30商品の併売のクロス表を作成します。

アソシエーション分析の仕方を動画で紹介しています。
項目ごとにご覧いただく方法と、まとめてご覧いただく方法がございます。

【項目ごとにご覧いただく場合】
ご覧になりたい項目をクリックすると、別ウィンドウで動画が再生されます。

【まとめてご覧になる場合】
画像の[>]をクリックしてください。
※動画で紹介している操作などの詳細については、以下をお読みください。

売れ筋30商品が含まれるID-POSデータの抽出

  • 表内のセルをクリックし、次の操作を行います。
    • [挿入]タブ→[テーブル]グループ→[ピボットテーブル]をクリック
    • [ピボットテーブルの作成]ダイアログボックスの<OK>ボタンをクリック
      (新規のワークシートにピボットテーブルを作成します)
  • [ピボットテーブルのフィールド]の次の項目を各ボックスにドラッグします。
    • [商品名]を[行]ボックスにドラッグ
    • [点数]を[Σ値]ボックスへドラッグ
    「点数」が「合計」になっていることを確認します。「合計」になっていない場合は、<▼>ボタンをクリックし、[値フィールドの設定]から「合計」に修正します。
  • [行ラベル]の右にある<▼>ボタンをクリックし、[値フィルター]→[トップテン]をクリックします。
  • [トップテンフィルター(商品名)]ダイアログボックスが表示されますので、下図のように設定し、<OK>ボタンをクリックします。
  • 売上点数の多い30商品が表示されますので、30商品すべてを選択します。
  • 選択した所を右クリックし、プルダウンメニューから[フィルター]→[選択した項目のみを保持]をクリックします。
  • ピボットテーブルの「総計」の値「122800」をダブルクリックすると、絞り込んだ30商品のID-POSデータが得られます(下図のようにテーブルとして表示されます)。

売れ筋30商品のバスケットデータの作成

  • 表示されたテーブルの[データ]タブ→[データの取得と変換]グループ→[テーブルまたは範囲から]をクリックすると[クエリエディタ]が起動し、次のような画面が表示されます。
  • 「売上KEY」を選択し、[変換]タブ→[データ型]→[テキスト]をクリックします。
  • [列タイプの変更]ダイアログボックスの<現在のものを置換>ボタンをクリックします(テーブル自体は変化なし)。
  • 「売上KEY」、「商品KEY」、「商品名」以外の列を選択し、[ホーム]タブ→[列の削除]をクリックします。
  • 3つの項目以外が削除されたら、画面右側の[クエリの設定]で、[プロパティ]の[名前]に「売れ筋30バスケット」と入力します。
  • 列名で「売上KEY」が表示されている箇所の右にある<▼>ボタンをクリックし、プルダウンメニューから[昇順で並べ替え]をクリックします。
  • [ホーム]タブ→[閉じる]グループ→[閉じて読み込み]をクリックします。
    クエリエディタが終了し、新しいシートにデータが表示されます。

売れ筋30商品の併売データの作成

  • [クエリツール]の[クエリ]タブ→[結合]をクリックすると[マージ]ダイアログボックスが表示されます。
  • 上下とも<▼>ボタンをクリックし、[売れ筋30バスケット]を選択します。
    上下とも同じ表示になっていることを確認し、それぞれの[売上KEY]列を選択して<OK>ボタンをクリックします。
  • [クエリエディタ]が起動し、「売れ筋30バスケット」のデータが表示されます。
    「売上KEY」、「商品KEY」、「商品名」以外に「売れ筋30バスケット」が一番右に表示されます
    列名[売れ筋30バスケット]の右にある<▼>ボタンをクリックし、プルダウンメニューから[商品KEY]、[商品名]をチェックし、<OK>ボタンをクリックします。
  • 「売れ筋30バスケット」に代わり、「売れ筋30バスケット.商品KEY」、「売れ筋30バスケット.商品名」が追加されます。
    • 追加されたのを確認した後、テーブルの右に表示されている[クエリの設定]の[プロパティ]の[名前]に「売れ筋30併売」と入力
    • [クエリエディタ]の[列の追加]タブ→[全体]グループ→[条件列]をクリック
  • [条件列の追加]ダイアログボックスが表示されます。
    次のように指定して<OK>ボタンをクリックします。
    [指定する内容]
    • [新しい列名]に「フィルタ」と入力
    • [条件]各項目の<▼>ボタンをクリックして次のように選択
      ・列名:商品名
      ・演算子:指定の値と等しくない
      ・値:売れ筋30バスケット.商品
      ・出力:ピボット対象データ
    • [それ以外の場合]に「null」を選択
  • [フィルタ]列が追加されたテーブルが表示されますので、[ホーム]タブ→[閉じる]グループ→[閉じて読み込む]をクリックします。
  • クエリエディタが終了し、新しいシートにデータが表示されます。

売れ筋30商品の併売クロス表の作成

  • 新しくできたシートに対し、[挿入]タブ→[テーブル]グループ→[ピボットテーブル]をクリックします。
  • [ピボットテーブルの作成]ダイアログボックスの<OK>ボタンをクリックします。
  • [ピボットテーブルのフィールド]の項目を次のように設定します。
    • [フィルター]を[フィルター]ボックスにドラッグ
    • [商品名]を[行]ボックスにドラッグ
    • [売れ筋30バスケット.商品名]を[列]ボックスにドラッグ
    • [売上KEY]を[Σ値]ボックスへドラッグ
  • [売上KEY]は[個数]になっていることを確認します。
    [個数]になっていない場合は、[値フィールドの設定]から[個数]に修正します。
  • ピボットテーブルの[フィルター]横の<▼>ボタン((すべて)が表示されている)をクリックし、[ピボット対象データ]にだけチェックを入れます。

    これで売れ筋30商品の併売クロス表ができました。
    しかし、「表頭」の「商品名」が横に長いため、見難くなっています。
    見やすくするために、レイアウトを変更します。

  • 「表頭」の「商品名」のセルを全て選択し、[ホーム]タブ→[セル]グループ→[書式]をクリックし、プルダウンメニューから[セルの書式設定]をクリックします。
  • [セルの書式設定]ダイアログボックスの[配置]タブをクリックして[方向]の縦書きの[文字列]をクリックし、<OK>ボタンをクリックします。これで完成です。

Excelの限界

このようにExcelを使用することで「売れ筋30商品」の「併売クロス表」ができました。 「売上KEY」と「売れ筋30商品」のデータからピボットテーブルを利用して、各商品の売上点数が分かります。 「売上KEY」からレシート枚数が分かりました。 これらを使用すると「支持度」、「信頼度」、「リフト値」を計算することができます。

しかし、実際に計算する場合は、データの並べ方を工夫して計算しなければなりません。
また、操作も煩雑になります。さらにでき上がった結果を見やすくすることも必要で、Excelで処理するには無理があります。

今回使用したID-POSデータは、4店舗の半年分のお菓子のデータで80万件強ありますが、1年分、あるいは全商品を対象としたデータとなると、あっという間に100万件を超えてしまいます。 Excelでは、このような100万件を超えるようなデータは扱うことができません。

Microsoftでは、このような問題を解決するために「アソシエーション分析」も含めたデータマイニングツールを提供しています。 これを利用すると、データのモデル化から実際の分析までが行えます。 非常に良いツールではあるのですが、SQL Serverが必要となり、デスクトップパソコン単体では分析が行えません。 さらに、SQL Serverを使用する場合は、費用が発生する可能性もあります。

デスクトップパソコン単体で分析ができ、かつ費用が発生しないツールとしてゼッタテクノロジー株式会社が販売している「Adam-WebOLAP plus Report」という製品がデスクトップパソコン単体で利用可能です。
無償版も用意しており、これを使用してみたところ実務上問題なく分析が行えました。

Adam-WebOLAPを使ったID-POSデータの分析方法については、書籍「Excelから始めるビッグデータ分析(https://goo.gl/UYBgW2)」で紹介しています。


< 第7回 アソシエーション分析1
未来を作る意思決定に。新世代統計集計システム【Z-Adam】