読者です 読者をやめる 読者になる 読者になる

トレジャーデータ(Treasure Data)公式ブログ

トレジャーデータ(Treasure Data)公式ブログです。

トレジャーデータで実践:Path 分析(広告編,その4)広告配信ログ(アトリビューション)分析

トレジャーデータはクラウドでデータマネージメントサービスを提供しています。

 

スコアリング

「広告をどのサイトにどれだけの数を出せば良いのか」を判断するためのベンチマークは、従来は「ラスト(直前)」に登場した回数をもとに測られていました。

これはコンバージョンの寄与を直前の「一点」のみで評価していることになります。一方パス分析の概念は、Landing から Last に至るまでの「パス」でコンバージョンの寄与を評価します。パスによる寄与度の評価では複数のモデルが登場します。

パスの全てのノードが等しくコンバージョンに寄与するものとした、もっともわかりやすいものは「均等配分モデル」と呼ばれています。

均等配分モデル

このモデルはコンバージョンパスの中の「全てのノード(サイト)」に等しい寄与度を割り振ったモデルです。ここでの集計では、まずパスのそれぞれのサイトに 1 / [パスの長さ] の値を与え、サイトごとに全パスでの総和をとったものをそのスコアにします。

また、単純な総和では寄与度が高いのに元々絶対配信数が少ないサイトが無視されていますので、それを考慮に入れるためにそのサイト自身の全表示回数(≒インプレッション数)で除した率ももう一つのスコアとします。

Landing 重視モデル

このモデルはコンバージョンパスの中でも「一番始めに接触したサイト」に寄与度を高く割り振ったモデルです。パス毎のLanding ノードに 1 を、それ以外を 0 を寄与度として全パスで総和を取ったものをスコアとします。ここでもサイト自身の全表示回数で除した率ももう一つのスコアとします。

Last 重視モデル

このモデルはコンバージョンパスの中でも「直前に接触したサイト」に寄与度を高く割り振ったモデルです。

パス毎のLast ノードに 1 を、それ以外を 0 を寄与度として全パスで総和を取ったものをスコアとします。また、サイト自身の全表示回数で除した率をもう一つのスコアとします。

上のスコアテーブルは左の列から「全表示回数」「ランディング重視スコア(絶対数)」「ラスト重視スコア(絶対数)」「均等配分スコア(絶対数)」「ランディング重視スコア(率)」「ラスト重視スコア(率)」「均等配分スコア(率)」となっています。

モデルごとの評価

それぞれのサイトには前述のモデルによるランキングを取ったときに、いずれかのランキングに特化したものもあれば、どのモデルも等しいランキングのサイトもあります。このようにサイトごとの「強み」を見いだす事ができれば、それを元に広告配信を行う事が可能になります。下のスコアテーブルは3種の「率」に関するスコアリングモデルのランキングをとったものです。最初の列は「site_category ⊃ site_name」をサイト列としています。

 

本シリーズはこちらで一端終了となりますが、パス分析はさらなる発展シリーズとして、トレジャーデータの機械学習エキスパートである @myui さんとともに機械学習によるパスの類別を展開していく予定です。

トレジャーデータでは Hive で動作する機械学習ライブラリ「Hivemall」 を実装しております。Hivemall の紹介から実践まで、トレジャーデータブログを引き続きフォロー宜しくお願いします。