コンテンツの評価はPVだけ?因子分析で新たな評価軸を探してみた

 

今回は、コンテンツの評価軸としてPV以外の新たな指標を探し求めたいと思います。

 

「contents is king」と言われる昨今ですが、どのように評価すればいいのか、各社のWEBマーケターが頭を悩ませていると思います。

PVなのか、滞在時間なのか、エンゲージメントなのか指標だらけで訳が分からなくなっています。(少なくとも私は)

昨今もWIREDで以下のような記事が掲載され、方々で話題を呼びました。

 

◎ウェブ関係者よ、PVの話をするのはもう止めよう
http://wired.jp/2016/01/03/page-views-dont-matter/

 

PVがダメだという話をするつもりは無く、PV以外の評価軸を因子分析というデータサイエンスで研究開発することに挑戦したいと思います。

 

因子分析とは何か?

まず因子分析について簡単な説明をしておきます。

因子分析とは、簡単に言えば”目に見えない原因を浮かび上がらせる分析手法”です。因子という測定できない原因を測定するのが因子分析の目的と言ってもいいでしょう。

多変量解析の中でもかなりポピュラーな分析手法で、心理学関連の雑誌には因子分析を用いた論文がよく掲載されています。

 

例えば500人にアンケートをとって、夏の新商品ドリンクのコンセプトの参考にするとしましょう。

アンケートから人間の「欲求」という目に見えないものを因子として数字で表現し、どのデータ(変数)に影響を与えているかが分かるのが因子分析です。

簡単に絵で表すと、以下のようになります。

 

因子分析の説明
因子分析の説明

 

質問に対する回答の傾向から、その回答者らの考え方や価値観を数字で「見える化」するのが因子分析と言っていいでしょう。

 

今回の分析手法に因子分析を用いるのは、見えない考え方や価値観を測るためです。

もしWEBサイトに訪問しているユーザーの因子が、結果として計測できるメトリクスに影響を与えているとします。だとすれば、その因子を指標としたほうがよりユーザーインサイトに迫れるのではないでしょうか。

メトリクスはあくまで結果です。ユーザーの因子が何かが分かれば、そこに訴えるコンテンツを作れば必然的に良い結果に繋がるはずです。

そこで今回は当研究所の2015年08月24日〜2015年12月20日までの17週分、33本のコンテンツのメトリクス結果で因子分析を行い、ユーザーインサイトに迫りたいと思います。

 

週+記事タイトル単位にデータを用意
週+記事タイトル単位にデータを用意

 

※データはCONTENTSエビス、LOGエビスで計測したものを使用しています。
※メトリクスはPV数、新規数、読了数、読了時間、共感数、拡散数の6つです。メトリクスの定義は以下の通りです。

メトリクス 定義
PV数 ブラウザにウェブサイト内のページが表示された回数。
新規数 SU数のうち、サイトに初めて訪れた訪問者数。
読了数 PV数のうち、ページの一番最後までスクロールされた回数。
読了時間 読了された場合、ページの一番最後まで表示されるのにかかった時間。
共感数 TOPページ或いはコンテンツ紹介一覧からの流入数。
拡散数 コンテンツがソーシャル上(Twitter/Facebook)にシェアされた回数。

 

因子分析の結果(因子負荷量)

因子分析はRで行いました。

ct <- read.csv("./downloads/contents.csv",header=TRUE);
ct<-data.frame(ct,row.names=ct[,1]);
ct<-ct[,2:8];
ct.fac <-factanal(ct,factors=2,scores="regression");
par(mfrow=c(1,2));
par(family = “HiraKakuProN-W3”);
barplot(ct.fac$loading[,1],col=”lightblue”);
barplot(ct.fac$loading[,2],col=”lightblue”);

 

因子の数は何個にするのか?という問題が因子分析には付き纏いますが、それを主題では無いので省きます。スクリープロットなどを見て今回は2個にしています。

まずは因子負荷量を明らかにします。因子負荷量とは、因子が各メトリクスに与えている影響の強さを表しています。以下のような結果になりました。

 

因子負荷量の結果
因子負荷量の結果

 

まず左側の第1因子負荷量ですが、値が大きいのはPV数、直帰数、新規数、さらに読了数、読了時間であることが分かりました。そして第2因子負荷量ですが、値が大きいのは読了数、読了時間、共感数であることが分かりました。

 

次に、これらの因子に名前を付けたいと思います。「第n因子負荷量」では実態がよく解らないためです。

ちなみに因子の名称付けが因子分析の醍醐味だと私は思っています。こればかりはソフトが自動で行ってくれません。影響の強さを見て人間が判断することになります。

まず第1因子ですが、影響を強く受けているメトリクスが訪問者の多さ、また多少は最後まで読まれているかどうかも考慮する必要があるので「興味度」としました。

次に第2因子については読了や共感が影響を強く受けているので「満足度」としました。

 

図式化してみました
図式化してみました

 

まず、因子が明らかになりました。

PV数での評価が”結果”での評価だとすれば、これら興味度因子や満足度因子での評価は”原因”での評価だと言えるでしょう。

ちなみに拡散数については、どちらの因子も負荷度が高くありませんでした。

このコンテンツをシェアしたいという気持ちは興味度でも満足度でも表せず、恐らく「第3の因子」があるか、あるいは独自因子の割合が圧倒的に高いのだと思います。

少し気になりますが、いったん脇に置いておいて、続いて各コンテンツの因子得点を算出します。

 

因子分析の結果(因子得点)

因子得点について簡単な説明をしておきます。

因子得点とは、ある週のコンテンツの因子の数値です。例えば、コンテンツAの「興味度」因子得点が0.33、「関心度」因子得点が1.55だったとします。すると、これらの因子得点に、それぞれの因子負荷量を掛け、最後に独自因子を足せば、各メトリクスの値になります。

 

イメージ図。
イメージ図。

 

因子得点とは、各コンテンツの因子の数値化だと思って下さい。

因子得点は次のように算出しました。因子負荷量と因子得点の結果は以下の通りです。

ct.fac$scores;
par(mfrow=c(1,1));
par(family = “HiraKakuProN-W3”);
biplot(ct.fac$scores,ct.fac$loading);

 

因子負荷量と因子得点
因子負荷量と因子得点

 

…17週、33本のコンテンツ分のデータがプロットされているので見辛いですね。遠目で見ると、L字型になっていることがわかります。

 
解りやすく表現したいため、まず各コンテンツの17週分の因子得点の平均と分散を算出しました。その結果は以下の通りです。

 

各コンテンツの17週分の因子得点の平均と分散
各コンテンツの17週分の因子得点の平均と分散

 

「今さら人に聞けない「相関関係」と「因果関係」の違い」が「興味度」因子得点が高く、「データ量が膨大でも大丈夫!基本統計量で「全体」を10秒で把握する」が「満足度」因子得点が高いことがわかりました。

それぞれ、17週分の因子得点を散布図にプロットすると以下の通りです。横軸が「興味度」因子得点、縦軸が「満足度」因子得点です。

 

(「今さら人に聞けない~」の因子得点の時系列推移)
(「今さら人に聞けない~」の因子得点の時系列推移)

 
(「データ量が膨大でも~」の因子得点の時系列推移)
(「データ量が膨大でも~」の因子得点の時系列推移)

 

確かに時が経るにつれ「今さら人に聞けない~」は右へ、「データ量が膨大でも~」は上へ移動しているようです。点を線で繋ぐことで、時系列の「移動」がイメージできるかと思います。

右上は「興味度」も「満足度」も高い、コンテンツとして完成度が高いことを表しているので、そこへ移動させることがマーケターとしての力量が問われるのでしょう。

 

注目すべきは平均に対して高い分散のあるコンテンツです。つまり週次で見て変動が激しいコンテンツを意味しています。分散が高いほど時系列で見て変動が激しいので、かなり変化していることが伺えます。

変化があるコンテンツと変化がないコンテンツ、どちらがいいかと言えば、良くも悪くも変化がある方でしょう(因子得点の平均値がどれくらいかにもよりますが)。

変動が大きい例として「阪神タイガースが2015年セ・リーグを制覇するのか分析してみた」があります。散布図にプロットすると以下の通りです。

 

(「阪神タイガースが~」の因子得点の時系列推移)
(「阪神タイガースが~」の因子得点の時系列推移)

 

ある時点から、2軸ともほぼ(0,0)にプロットされるようになりました。

具体的には09月28日週からなのですが、これはセ・リーグの優勝をヤクルトがほぼ決めて、阪神の優勝の灯が無くなった週です。興味度も満足度もほぼ0になった理由が何となく浮かびますね。

この逆、すなわち徐々に右へ上へと大きく移動するコンテンツを作らねばならん!と感じた次第です。

 
時系列因子分析は、様々な手法が開発されていながら、一長一短な点があるため、これ以外についてはお近くのデータサイエンティストにお尋ねください。

 

因子得点の時系列変化から、興味が先か?満足が先か?を解決する

時系列で因子得点の推移を見て「興味度」も「満足度」も高めることが大事だとたどり着けました。指標が2つなので、評価するのも今までよりかなり楽です。

しかし、ふと疑問が湧きます。片方を優先的に高める場合、どちらを優先するべきでしょうか。

 
「興味度」因子、「満足度」因子の何れも比較的高い「データ量が膨大でも~」ネタで見てみます。

まず08月24日時点からの因子得点は以下の通りです。

 

因子得点の結果
因子得点の結果

 

08月24日時点からの両因子の相関係数は「0.27」と、若干の相関関係にあることがわかります。

これを「満足度」だけ2週遅れでズラしてみると、その相関係数は「0.65」と、かなり強い相関関係が現れました。つまり「興味度」が高ければ高いほど数週間遅れて「満足度」が高まる可能性があるということです。

そういえば「沈黙のWEBマーケティング」でも”funnyよりinteresting”なコンテンツ作りをお勧めしていました。

つまり、以下のような「風が吹けば桶屋が儲かる」的連鎖が発生しているのではないでしょうか。

  1. Aさんはタイトルに興味を惹かれて、コンテンツを読む。
  2. Aさんは満足できたので、知って欲しいと考えてコンテンツをシェアする。
  3. そのシェアを確認した人(Bさん)は、Aさんと知り合いなので比較的同じクラスタである。
  4. Bさんはタイトルに興味を惹かれて…以降、無限ループ。

ソーシャルの力も相まって、いつの間にかそのコンテンツに満足できる人が集まっていく。そうしたバイラルがあるのかもしれません。

 

ただ残念ながら、全てのコンテンツでlagを設けることで相関係数が高まる事象を発見することはできませんでした。全体の半分程度でのみ、こうしたlagがあることで高まる相関係数を確認することができました。

おそらく「興味度」を高めることで、2週程度の間が空いてから「満足度」も高まっていくのはコンテンツマーケティングの成功事例なのだと思います。

 

まとめ

コンテンツの評価軸として、PV数の代替として因子分析を用いて因子を使った評価方法について挑戦してみました。

PV数といった”結果”で評価するのではなく、そこに至った”原因”に着目する考え方を紹介しました。

あまり汎用的ではなく、まだまだ荒削りな部分もありますが、こうした統計学を使ってより人間の本質に迫ったマーケティングに2016年も挑戦していきたいと思います。