第8回 アソシエーション分析2
ID-POSデータを使った分析
ExcelによるID-POSデータ(お菓子の実データ)分析
「バスケット分析」では、「併売数」を求めることが重要です。しかし、とても手間がかかり、
これは10枚のレシート分析を行った時に、すでに理解いただけたかと思います。
ID-POSの実データの場合も、前回行った10枚のレシートを分析した時と同じ操作を行うと分析が可能です。
これまではExcel2013を使用してきましたが、Excel2016を使うと、「併売数」を求める操作は少々複雑ですが、多くの商品の「併売数」を一度に求めることが可能です。今回は、その方法を紹介します。
使用するデータは、前に使用したお菓子のID-POSデータで、すでにExcelへ展開してあるとして、売れ筋30商品の併売のクロス表を作成します。
アソシエーション分析の仕方を動画で紹介しています。
項目ごとにご覧いただく方法と、まとめてご覧いただく方法がございます。
【項目ごとにご覧いただく場合】
ご覧になりたい項目をクリックすると、別ウィンドウで動画が再生されます。
【まとめてご覧になる場合】
画像の[>]をクリックしてください。
※動画で紹介している操作などの詳細については、以下をお読みください。
売れ筋30商品が含まれるID-POSデータの抽出
- 表内のセルをクリックし、次の操作を行います。
- [挿入]タブ→[テーブル]グループ→[ピボットテーブル]をクリック
- [ピボットテーブルの作成]ダイアログボックスの<OK>ボタンをクリック
(新規のワークシートにピボットテーブルを作成します)
- [ピボットテーブルのフィールド]の次の項目を各ボックスにドラッグします。
- [商品名]を[行]ボックスにドラッグ
- [点数]を[Σ値]ボックスへドラッグ
「点数」が「合計」になっていることを確認します。「合計」になっていない場合は、<▼>ボタンをクリックし、[値フィールドの設定]から「合計」に修正します。
- [行ラベル]の右にある<▼>ボタンをクリックし、[値フィルター]→[トップテン]をクリックします。
- [トップテンフィルター(商品名)]ダイアログボックスが表示されますので、下図のように設定し、<OK>ボタンをクリックします。
- 売上点数の多い30商品が表示されますので、30商品すべてを選択します。
- 選択した所を右クリックし、プルダウンメニューから[フィルター]→[選択した項目のみを保持]をクリックします。
- ピボットテーブルの「総計」の値「122800」をダブルクリックすると、絞り込んだ30商品のID-POSデータが得られます(下図のようにテーブルとして表示されます)。
売れ筋30商品のバスケットデータの作成
- 表示されたテーブルの[データ]タブ→[データの取得と変換]グループ→[テーブルまたは範囲から]をクリックすると[クエリエディタ]が起動し、次のような画面が表示されます。
- 「売上KEY」を選択し、[変換]タブ→[データ型]→[テキスト]をクリックします。
- [列タイプの変更]ダイアログボックスの<現在のものを置換>ボタンをクリックします(テーブル自体は変化なし)。
- 「売上KEY」、「商品KEY」、「商品名」以外の列を選択し、[ホーム]タブ→[列の削除]をクリックします。
- 3つの項目以外が削除されたら、画面右側の[クエリの設定]で、[プロパティ]の[名前]に「売れ筋30バスケット」と入力します。
- 列名で「売上KEY」が表示されている箇所の右にある<▼>ボタンをクリックし、プルダウンメニューから[昇順で並べ替え]をクリックします。
- [ホーム]タブ→[閉じる]グループ→[閉じて読み込み]をクリックします。
クエリエディタが終了し、新しいシートにデータが表示されます。
売れ筋30商品の併売データの作成
- [クエリツール]の[クエリ]タブ→[結合]をクリックすると[マージ]ダイアログボックスが表示されます。
- 上下とも<▼>ボタンをクリックし、[売れ筋30バスケット]を選択します。
上下とも同じ表示になっていることを確認し、それぞれの[売上KEY]列を選択して<OK>ボタンをクリックします。
- [クエリエディタ]が起動し、「売れ筋30バスケット」のデータが表示されます。
「売上KEY」、「商品KEY」、「商品名」以外に「売れ筋30バスケット」が一番右に表示されます。
列名[売れ筋30バスケット]の右にある<▼>ボタンをクリックし、プルダウンメニューから[商品KEY]、[商品名]をチェックし、<OK>ボタンをクリックします。
- 「売れ筋30バスケット」に代わり、「売れ筋30バスケット.商品KEY」、「売れ筋30バスケット.商品名」が追加されます。
- 追加されたのを確認した後、テーブルの右に表示されている[クエリの設定]の[プロパティ]の[名前]に「売れ筋30併売」と入力
- [クエリエディタ]の[列の追加]タブ→[全体]グループ→[条件列]をクリック
- [条件列の追加]ダイアログボックスが表示されます。
次のように指定して<OK>ボタンをクリックします。
[指定する内容]
- [新しい列名]に「フィルタ」と入力
- [条件]各項目の<▼>ボタンをクリックして次のように選択
・列名:商品名
・演算子:指定の値と等しくない
・値:売れ筋30バスケット.商品
・出力:ピボット対象データ
- [それ以外の場合]に「null」を選択
- [フィルタ]列が追加されたテーブルが表示されますので、[ホーム]タブ→[閉じる]グループ→[閉じて読み込む]をクリックします。
- クエリエディタが終了し、新しいシートにデータが表示されます。
売れ筋30商品の併売クロス表の作成
- 新しくできたシートに対し、[挿入]タブ→[テーブル]グループ→[ピボットテーブル]をクリックします。
- [ピボットテーブルの作成]ダイアログボックスの<OK>ボタンをクリックします。
- [ピボットテーブルのフィールド]の項目を次のように設定します。
- [フィルター]を[フィルター]ボックスにドラッグ
- [商品名]を[行]ボックスにドラッグ
- [売れ筋30バスケット.商品名]を[列]ボックスにドラッグ
- [売上KEY]を[Σ値]ボックスへドラッグ
[売上KEY]は[個数]になっていることを確認します。
[個数]になっていない場合は、[値フィールドの設定]から[個数]に修正します。
- ピボットテーブルの[フィルター]横の<▼>ボタン((すべて)が表示されている)をクリックし、[ピボット対象データ]にだけチェックを入れます。
これで売れ筋30商品の併売クロス表ができました。
しかし、「表頭」の「商品名」が横に長いため、見難くなっています。
見やすくするために、レイアウトを変更します。
- 「表頭」の「商品名」のセルを全て選択し、[ホーム]タブ→[セル]グループ→[書式]をクリックし、プルダウンメニューから[セルの書式設定]をクリックします。
-
- [セルの書式設定]ダイアログボックスの[配置]タブをクリックして[方向]の縦書きの[文字列]をクリックし、<OK>ボタンをクリックします。これで完成です。
Excelの限界
このようにExcelを使用することで「売れ筋30商品」の「併売クロス表」ができました。
「売上KEY」と「売れ筋30商品」のデータからピボットテーブルを利用して、各商品の売上点数が分かります。
「売上KEY」からレシート枚数が分かりました。
これらを使用すると「支持度」、「信頼度」、「リフト値」を計算することができます。
しかし、実際に計算する場合は、データの並べ方を工夫して計算しなければなりません。
また、操作も煩雑になります。さらにでき上がった結果を見やすくすることも必要で、Excelで処理するには無理があります。
今回使用したID-POSデータは、4店舗の半年分のお菓子のデータで80万件強ありますが、1年分、あるいは全商品を対象としたデータとなると、あっという間に100万件を超えてしまいます。
Excelでは、このような100万件を超えるようなデータは扱うことができません。
Microsoftでは、このような問題を解決するために「アソシエーション分析」も含めたデータマイニングツールを提供しています。
これを利用すると、データのモデル化から実際の分析までが行えます。
非常に良いツールではあるのですが、SQL Serverが必要となり、デスクトップパソコン単体では分析が行えません。
さらに、SQL Serverを使用する場合は、費用が発生する可能性もあります。
デスクトップパソコン単体で分析ができ、かつ費用が発生しないツールとしてゼッタテクノロジー株式会社が販売している「Adam-WebOLAP plus Report」という製品がデスクトップパソコン単体で利用可能です。
無償版も用意しており、これを使用してみたところ実務上問題なく分析が行えました。
Adam-WebOLAPを使ったID-POSデータの分析方法については、書籍「
Excelから始めるビッグデータ分析(https://goo.gl/UYBgW2)」で紹介しています。
< 第7回 アソシエーション分析1