読者です 読者をやめる 読者になる 読者になる

トレジャーデータ(Treasure Data)公式ブログ

トレジャーデータ(Treasure Data)公式ブログです。

データ分析で大切な4つのこと:2. 誰のために・何のために分析をやるのかを意識する大切さ

データ分析で大切な4つのこと

トレジャーデータはクラウドでデータマネージメントサービスを提供しています。

2. 誰のために・何のために分析をやるのかを意識する大切さ

そもそも誰の・何のために分析をするのかという意識を常に明確にしておくことはとても重要だと思っています。

人間の意志決定を支援するために解析をすること・解析結果自身が意志決定を行うのではないこと

Amazon や Google など多くのデータ先進企業では,例えば「リコメンデーション」「ページランク」「需要予測システム」など,分析結果自身が意志決定を行うようにデータが活用されています。この用途目的においては機械学習や統計モデルといった高度な手法が駆使され,データから機械的にベター(ベストとは限りません)な解をもたらし,それが自動的にサービスに適用されて回っていきます。これらは基本的に大規模なデータセットを参照したりリアルタイムに反映していくものですので,人間の意思決定の及ばない領域をカバーしていることになります。

一方でデータ分析のより原始的な側面として,人間の意思決定の及ぶ範囲でそれを助けるための,つまり「人間の意志決定を支援するための(好・悪)材料をもたらすことに注力する」ための存在としての位置づけがあります。

私は後者の方の分析をとても重視しています。そしてそのために

「難しい事はしない、いかにわかりやすく・簡単に結果を人に提示できるかを意識する」

事はとても重要だと思っています。この意識は前者とは相反することのようですが,意思決定を人間に委ねるならば,そしてその意思決定者がデータのスペシャリストでない場合が大半であることを鑑みれば,いかにシンプルに簡潔に示すことができるのかが重要になってきます。加えて簡潔性に加えて,分析結果をゆるい形で提示するという曖昧性は,時に統計的正確さよりも優先されます。

例えばクラスタリング手法を用いれば,ユーザーの行動に基づくセグメント分類を自動的に行ってくれます。しかし,その際の判別結果は

「課金額:687.3円〜3456.7円,プレイ期間3.4日〜8.9日のユーザークラスタ」

といったものになります。このような微妙な境界をもったクラスタリング結果が得られても,それを知った所で人間がどういう意志決定ができるでしょうか?

逆に多少あいまいさや偏りがあっても,

「課金額1000円〜5000円・プレイ期間1日〜7日のユーザークラスタ」

といったわかりやすい境界で提示してあげることの方が相手にとって意味のあることのように思います。そしてそれをちゃんと可視化してあげて,リクエストに応じた視点や境界での集計をし直すという繰り返しをきっちりやってあげます。

分析手法に対するこだわりを捨てること

今まで大学の研究などで,非常に高度で複雑な解析手法を用いてすごい事をやってきたという人も多いと思います。特に精錬された機械学習手法によって自動的に正しい意志決定が行われるという事を研究の熱を注いでいた人も多いと思います。それは大変素晴らしい事だと思います。

そういったバックグラウンドを持つ人達は,どうしてもそういった高度な手法を使いたくなると思いますしその気持ちはとてもとても理解できます。

しかしあくまでも人間である意思決定者に対して分析をするという目的においては,これらの複雑性は効果的では無い事も時日です。

こだわりを捨て研究成果を捨て,意識を見直し,人間の意志決定を支援するための結果を出す,そのためにどうしたら良いか,どう分かりやすく伝えたらよいか,という方向に注力するのはとても重要な事だと考えています。