読者です 読者をやめる 読者になる 読者になる

トレジャーデータ(Treasure Data)公式ブログ

トレジャーデータ(Treasure Data)公式ブログです。

トレジャーデータで実践:A/B テスト(実践編その3)

A/Bテスト 実践シリーズ

トレジャーデータはクラウドでデータマネージメントサービスを提供しています。

 

実践編その1と2では会員/非会員のカテゴリごとの平均購買単価に違いがあるのかについて,網羅的にA/Bテストを実施しました。今回は前回と事例で似ている様で扱いが異なる事例を紹介します。

実例A/Bテスト2

Q. (対応のあるデータ) 

あるECストアの2011年(A)と2012年(B)のサブカテゴリごとの売上について,差があるのか比較をしたい。

 さて,今回の事例が前回と異なるところを考えてみましょう。前回は会員A/非会員Bという全く交わる事の無いAとBの比較を行いました。一方で今回紹介する2011年と2012年の売上比較というのは,メンバー個々の2011年の購入額と2012年の購入額の総和で求められます。

メンバー単位で見た場合,同一のユーザーが2011年と2012年に購入しているという意味で2011年と2012年の結果は相互に関係のあるデータ(これを「対応のあるデータ」と呼ばれています)となります。

timecategorysub_categorymember_idsales_2011sales_2012
Jun 06, 2015 @ 03:50:05 PM Automotive and Industrial Automotive Parts and Accessories 1050650 12802 2400
Jun 06, 2015 @ 03:50:05 PM Automotive and Industrial Automotive Parts and Accessories 1050546 846 1429
Jun 06, 2015 @ 03:50:05 PM Automotive and Industrial Automotive Parts and Accessories 1050241 1200 1000
Jun 06, 2015 @ 03:50:05 PM Automotive and Industrial Automotive Parts and Accessories 1049815 4000 5819

今回扱うデータ(ec_yearly_member テーブル)は,member_id などの個人を識別できるID単位で年間購買額を算出した上のようなデータとなり,レコード数=メンバー数となる大きめのデータです。

「対応のあるデータ」には,他にもアンケートデータがあてはまります:

  • 2種類のラーメン x, y の味についてn人に10段階の評価アンケートを実施した。x, y の評価には違いがあるか?
ポイント8:対応のあるデータに対しても同様に統計量Tを求め,z分布による棄却域Rと比較し Reject/Accept を判定する事には変わりない。またはP値を求める事で可視化ができる。

可視化(ボックスプロット)

前回と同様に可視化は有効です。ボックスプロットで箱のずれを確認してみましょう。

f:id:doryokujin:20150609151939p:plain

↑ 総じて箱は一致しているようですが,2012年の方がばらつきが多く,箱もひげも長くなっています。

実行手順

※ sub_category のサンプル数が100以上の大標本にのみ,検定を実施ていいます。小標本の場合はz分布ではなくt分布を用いますが,ここではそこまで言及していません。

ステップ1:レコードごとにAとBの差違(d)とその自乗(d^2)を求める。

timecategorysub_categorymember_idsales_2011sales_2012ddd
1433573405 Electronics and Computers Trade In Your Electronics 574350 1886 1980 -94 8836
1433573405 Electronics and Computers Trade In Your Electronics 574555 3867 3800 67 4489
1433573405 Electronics and Computers Trade In Your Electronics 576054 3896 6648 -2752 7573504
1433573405 Electronics and Computers Trade In Your Electronics 577411 3392 3410 -18 324

上のテーブルの3行目では,AとBの差が大きいため d, dd の値が大きくなっていることには注意が必要です。「網羅的な」テストでは,極端な差違や偏りにが多くなる場合,判定が歪んでしまう潜在性があります。

ステップ2:統計量T=\frac{\bar{d}}{\frac{s_{d}}{\sqrt{n}}},(ただし\bar{d}=\frac{\Sigma_{d}}{n}s_d=( \Sigma{d^2}-n(\bar{d}) ) / (n-1))を計算する。
ステップ3: P値を求める。 

 

ここまで「対応のない(その1,2)」「対応のある(その)3」データの平均の差のテストを行ってきました。次回からは比率の差についてのテストを紹介します。