トレジャーデータ(Treasure Data)公式ブログ

トレジャーデータ(Treasure Data)公式ブログです。

トレジャーデータで実践:Basket 分析(応用編1)

はじめに

トレジャーデータはクラウドでデータマネージメントサービスを提供しています。

 

ここまで,任意のペアで共起回数,共起係数を計算していきました。共起係数はアイテムの登場回数が少なく(≃共起回数が少ない)ても関連性の強いペアを見つけてくれるものでした。一方で分析者ではない現場の人たちにとっては,この「共起係数」に意味を見いだせず,あくまで共起回数を使いたいというごもっともな意見もあります。

そこで今回は人工的にペアをカテゴライズして,その中で共起回数を見ていくことにしましょう。

出現回数比によるカテゴライズ

出現回数比 10%
f:id:doryokujin:20150430120711j:plain

アイテムA,アイテムBの単独での出現回数 | A |, | B | に対して,大きい方と小さい方の比が 1:10(小さい方の出現回数が大きい方の出現回数の10%以下)である極端なペアのみを抽出してきます。

このレンジで共起回数が大きいペアでは前回紹介した Simpson係数 も大きい傾向があります。

下のテーブルでは出現回数比を Pair Cnt Ratio カラム,| A |, | B | を total_cnt1, total_cnt2 カラム, | A ∩ B | を cnt  カラムとしています。

出現回数比 10% 〜 50%

f:id:doryokujin:20150430125714j:plain

出現回数が少ない方が多い方の半分以下であるケースです。

出現回数比 50% 〜 90%

f:id:doryokujin:20150430125749j:plain

出現回数が少ない方が多い方の50%〜90%であるケースです。

出現回数比 90% 〜

f:id:doryokujin:20150430125813j:plain

最後は出現回数がほとんど同じペアの共起回数です。

価格比によるカテゴライズ

価格比 10%

f:id:doryokujin:20150430123755j:plain

次はアイテムA,アイテムBの価格差でカテゴライズしていきましょう。

大きい方と小さい方の価格比が 1:10 である極端なペアのみを抽出してきます。このカテゴリに入るペアは

  • テレビ本体とリモコンや外付けHDDなどの付属品とのペア
  • スマートフォン本体とケースや保護シールなどのアクセサリとのペア

などの,本体とオプションパーツといったものになります。

下のテーブルでは価格比を Pair Price Ratio カラムとしています。

価格比 10% 〜 50%

つぎは,価格が小さい方の出現回数が大きい方の半分以下のペアに絞ってみます。

f:id:doryokujin:20150430123829j:plain

このようなペアは,

  • ゲーム機本体とゲームソフトのペア
  • お弁当とドリンク

などが考えられます。

価格比 50% 〜 90%
f:id:doryokujin:20150430123908j:plain

つぎは,価格が小さい方の出現回数が大きい方がそれなりに近いペアです。

  • お総菜のペア

など,割と多くのペアがこのカテゴリに属します。

価格比 90%〜

f:id:doryokujin:20150430125506j:plain

最後は,価格がほとんど同じペアとなります。

  • 銘柄違いのビール
  • フロントタイヤとリアタイヤ

などです。

 

次回は「意外性の発見」をテーマに発展編を進めて行きます。