「1+リンゴ」は足せない!質的データと量的データの違いを知ろう


みなさん、こんにちは。なにわの池上彰こと、アドエビス開発ユニット所属マーケティングメトリックス研究所主任研究員の松本健太郎です。

簡単、正確、解り易いをモットーに、本日も色んなことを「解説」していきたいと思います。

さて本日のテーマは、前段階の知識となるデータの特質について「解説」したいと思います。

データにも型がある

統計学に関するどの本を読んでも登場する一文があります。データには「型」がある、と書かれているのです。この一文に触れた時、私は小さい頃いつも思っていたことを、ありありと思い返します。

それは「どうして1+1はいいのに、1+リンゴはダメなの?」という疑問でした。

幸いにして、私の母親は「当たり前でしょ」「常識でしょ」と上から押し付ける人間ではなく「自分で考えてみなさい」と放任するタイプだったので、幼いながらも一生懸命に考えていました。

絵に描いたリンゴに数字の1を突き刺して、新しい言葉を創り出したこともありましたが、幼いながらも導き出した結論としては「算数と国語では足し算できない」というものでした。


数字とは「数える字」と書きます。つまり、数えた結果を表していますから、そこから足したり引いたりできます。しかし国語は数えられません。「リンゴ」だけでは数とは言えません。個数という単位が付くことで、ようやく「1」個と数えられることができます。

統計学を勉強していて、まさか約25年前の記憶がまざまざと蘇ってくるとは私自身も思っていませんでした。そう、この時の私の結論は、あながち間違いではなかったのです。

データには「型」があり、型の違う物を組み合わせることはできません。分析結果をレポートとしてアウトプットする場合は、このことを意識する必要があるでしょう。


質的データと量的データ

データの「型」は大きく分けて2種類あります。「質的データ」と「量的データ」です。


「質的データ」とは、文字で表現するものを指します。例えば、性別。血液型。出身地。他にも、趣味。天気。利き腕。好きな芸能人。全て文字で表現することになります。

こうした、数字のように四則演算できないデータ、どういったカテゴリーに属しているか、あるいはどういった状態にあるかが解るデータを「質的データ」と言います。

そして「量的データ」とは、数字で表現するものを指します。例えば、年齢。身長。体重。他にも、体温。今日の所持金。昨日寝た時間。突き合った異性の数。全て数字で表現することになります。

こうした、数字で表現することができるデータを「量的データ」と言います。


言うならば「質的データ」は国語であり、「量的データ」は算数です。


「質的データ」と「量的データ」には、大きな違いがあります。

それは「質的データ」には単位が無いということです。単位とは「量を数字で表す基準」であり、すなわち「量的データ」は全て単位で表現可能です。年齢なら 歳。身長ならセンチ。体重ならキロ。体温なら度。所持金は円。寝た時間はh(時間)。異性の数は人。こうして数字で表現できます。


しかし、 性別は男か女だけですし、血液型もA/B/O/AB型のどれかですし、出身地は地名だし、何よりこれらは「量」ではありません。年齢なら20歳と30歳、 どちらのほうが歳は上なのか測ることはできますが、出身地が大阪と東京だとしても、どちらがどうという話ではありません。せいぜい大阪の東京に対する異常な反骨心が解るぐらいですが、それも数字では表せません。

すなわち「量的データ」は大小比較ができますが、「質的データ」は大小比較ができないのです。


ただし「質的データ」が文字のままでは計算することができませんから、数字に置き換えて分析するという手法もあります。例えば性別であれば男は1、女は0で表現するという手法があります。出身地の都道府県であれば、北海道なら0、青森県なら1、沖縄県なら46で表現するという手法があります。


ではもし、「質的データ」と「量的データ」それぞれの代表(真ん中)を知りたい場合、どのようにすればいいでしょう。

「量的データ」の場合は平均を用います。ある集団を代表する年齢(=平均年齢)を知りたい場合、全員の年齢を足して人数で割ります。

一方で「質的データ」の場合は、平均を用いることができません。ある集団を代表する血液型を知りたい場合、A型やO型のままでは計算すらできません。先述したように数字に置き換えてA型を1、B型を2、O型を3、AB型を4として、「平均」を編み出しても、何の意味もありません。

以下の図を参考して下さい。A型が一番多いのに、平均した結果はB型になってしまいます。


「質的データ」の場合は、割合を用います。ある集団を代表する血液型を知りたい場合、全員の人数に対して、A/B/O/AB型が占めるそれぞれの割合を算出すればいいのです。

一番高い割合を占めるのが、集団を代表する血液型になります。こうして「質的データ」はようやく「量」で表現できるようになるのです。


データの型が違えば、分析手法も、データの見方も全く異なります。どうやって分析するかよりも、何を分析するのかにまず目を通さなければならないのは、こういった背景があるからなのです。


データのまとまりを表現してみる

データはそれ1つであれば分析する必要がありません。と同時に全く同じデータがあるだけなら小難しく考える必要がありません。

ある程度の集団となり、異なる傾向や特徴を見せるから分析が必要になるのです。しかし分析をするにも、対象となるデータ群の属性を知らなければ分析ができるとは言えません。


とある街コンを例にしてみましょう。

参加者は男性300人、女性300人。平均年齢は男性32.6歳、女性27.5歳。職業で一番多いのは男性の場合は営業職、女性の場合は事務職。相手に求める平均年収は男性の場合は200万、女性の場合は750万。

こうした、複数の対象項目の、ある時点での観測値のデータを「横断面データ(クロスセクションデータ)」と言います。

「横断面データ」は社会科学領域などで多用されます。例えばアンケートは横断面データの最たる例と言えます。


一方で、街コン主催社が発表する、前回開催したイベントがキッカケで突き合い始めたカップルは12組、前々回は13組というデータ。或いは街コン開催による経済効果は前回が500万、前々回は400万というデータ。

こうした、同一の対象項目の、異なる時点での観測値のデータを「時系列データ」と言います。

「時系列データ」は経済学領域などで多用されます。例えば株価は時系列データの最たる例と言えます。

つまり、ある時点を軸に特徴を掴むなら「横断面データ」を参考にし、時間を軸に推移を見るなら「時系列データ」を参考にするのです。


他にもあります。あるレンタルDVD店の1日で貸し出したDVDの内容に関するデータは「横断面データ」、あるDVDのレンタルの推移に関するデータは「時系列データ」。

コンビニ業界大手5社の昨年の業績は「横断面データ」、最大手であるセブンイレブンの過去5年間の業績は「時系列データ」。

今の彼女と旅先で遭遇した思い出は「横断面データ」、過ごしている時間は「時系列データ」、彼女の笑顔はプライスレス。


その対象となるデータがどちらかによって、データを分析する手法が変わってきますから、データの型を調べるのと同じぐらい重要な事前確認作業の1つと言えます。

例えば街コンのデータを視覚的に表現する場合、「横断面データ」を用いるなら、一般的には棒グラフが最も使われます。横軸に対象項目を並べ、縦軸を観測値のデータとして使うのです。その段階での状況を表すのに棒グラフはピッタリです。或いは、構成比率を表現するなら円グラフもいいでしょう。


一方で「時系列データ」を用いるなら、一般的には折れ線グラフが最も使われます。折れ線を対象項目、縦軸を観測値のデータ、横軸を時間軸として使うのです。日毎の推移を表すのに折れ線グラフはピッタリです。


普段何気なく扱っているデータにも型があり、属性がある。表現の仕方にも理由がある。その意味を理解するだけでも、どのように分析すれば良いのかが見えてくるのではないでしょうか。


マーケティングメトリックス研究所では、共同研究や寄稿記事を募集中です。
ご興味のある方は、是非、お問い合わせください。