意識高い系発見器をngramで開発したので新卒7人に実験してみた

鼻につく自己アピール、なぜかいつも上からマリコ、やたらと多いカタカナ用語、あなたの身近に当てはまる人はいませんか?

私のような座高高い系は、意識高い系の自意識についていけずに一緒にいると凄く疲れます。自慢話ばかり聞かされて、もしかしてカンボジアは学校だらけなんじゃないかと疑ってしまう自分が嫌になります。

 

あぁ、盗聴器発見器のように、意識高い系発見器があればいいのに。

無ければ作ればいいじゃん!ということで、データサイエンスの力を駆使して作ってみました。

 

どうやって「意識高い系」を見抜くか?

私は、本人の自覚が無いままに、その人の中に眠っている「意識高い系」を発見する機械が欲しいと思っています。

なので、あなたは「意識高い系ですか?」と聞いて「そうです」と回答する人をカウントしても面白くありません。それに、意識高い系は自分のことを意識高い系と言われることを毛嫌いしていますから、恐らく「はい」とは言わないでしょう。

 

そこで、ある質問に対して意識高い系は絶対にこう言うだろうというデータを作ってみたいと思います。

仕組みは連想ゲームを使います。

Aと聞けばBと思い浮かべる人は意識高い系、Cと思い浮かべる人は普通。つまり質問に対する回答で意識高い系かそうじゃないかを見極めるのです。

 

イメージ図。

意識高い系の回答集をどうやって作成するかですが、安心して下さい。ありますよ。


これ、俺の本やないかい!ドラッカーの本を意識高い大学生に優しく解説した本やないかい!

発売前からセールス部隊が全国の大学生協に電話しまくって、生協取次に注文が殺到して「いったい何が起きているのか?」と話題になった本やないかい!!

この本がキッカケで国際教養大学やモンゴル大学でも講演ができて、おかげで無事に重版出来やわ!!!

  1. この本は(どうやら)意識高い系にバカ売れした
  2. なぜなら意識高い系の心を掴んだからだ
  3. だから意識高い系の腑に落ちた
  4. どうやら意識高い系も普段から考えていることが載っている

という論法で考えれば、この本をテキストマイニングすれば「Aと聞けばBという回答する人を意識高い系と見抜く」ためのデータが作れそうです。

ちなみに本自体は、こちらからお買い求め可能です。

 

松本健太郎

by G-Tools

 

 

ngramで意識高い系発見器を作る

ngramとは情報理論の創始者として知られるクロード・エルウッド・シャノンが考え出した言語モデルです。bitの単位も彼が考え出しており、コンピュータ史には欠かせない一人です。

ngramモデルとは「ある文字列の中で、N個の文字列または単語の組み合わせが、どの程度出現するか」を調査する言語モデルを意味します。

例えば、その組み合わせの出現頻度が、単語1つの出現頻度のうち多くを占めていれば、それは「密接な関係にある」ことを指しています。

わかりやすいのはGoogleのサジェスト機能です。検索窓に「分析」と入力してスペースを選択すると、その次に入力されるであろう単語候補が登場します。

 

イメージ図。

これは、分析という単語に続いて入力されることが多い単語を表示しているのですが、このあたりの技術にngramの基礎理論が使われています。

 

もし意識高い系ランキングナンバー1のサラリーマンが書いたブログに、以下の一文があったとします。

俺は休日もコミットしている。

この一文、分解すると次のようになります。

 

名詞 :"俺" 
助詞 :"は" 
名詞 :"休日" 
助詞 :"も" 
名詞 :"コミット" 
動詞 :"し" 
助詞 :"て" 
動詞 :"いる" 

 

2個の文字列の組み合わせなら「俺は」「は休日」「休日も」「もコミット」「コミットし」「して」「ている」となり、3個の文字列の組み合わせを考えるなら「俺は休日」「は休日も」・・・となります。

単語の場合、名詞、形容詞、動詞で括られると思うので、2個の単語の組み合わせなら「俺 – 休日」「休日 – コミット」「コミット – し」「し – いる」となります。

さて、ここで注目すべきは「休日 – コミット」です。まず思い浮かびません。Google先生のサジェストにも出てきません。

 

「休日」のサジェスト機能。

つまり意識高い系の人特有の思考回路だと考えられます。

そこで誘導尋問ではありますが「休日と言えば・・・?」と質問して、「そりゃコミットしてますよ、100%やりきってるっす!」と回答してきた奴、そいつが意識高い系ということになります。

少なくとも意識高い系ランキングナンバー1のサラリーマンに非常に似通った思考回路だと言えます。

 

ngramで意識高い系発見器データを作る

Rを使ったngramの分析はRMeCabを使うのが一般的のようですが、環境を整えるのに苦労します。

そこで環境構築の手順も合わせて載せておきます。

 

Terminalを起動。
brew install mebab
brew install mecab-ipadic

Rを起動。(松本はRstudio使ってます。)
install.packages ("RMeCab", repos = "http://rmecab.jp/R")
library(RMeCab)

# こちらはMac版です。Win版はコチラを参照すると良いかもしれません。

 

まずは文中を確認して、頻出用語を確認します。登場回数の多いAから意識高い系が言うであろうBを見つけるため、まずはAを探します。

 

fre <- RMeCabFreq(“本文.txt")
fre = (fre[fre$Info1!="記号",])
head(fre[order(fre$Freq, decreasing=T),], n=100)
…
	Term	Info1	Info2		Freq
268	は	助詞	係助詞		3113
342	を	助詞	格助詞		3109
359	の	助詞	連体化		2549
3052	成果	名詞	一般		434
1440	仕事	名詞	サ変接続	331
1919	組織	名詞	サ変接続	280
2439	マネジメント	名詞	一般	211

 

私自身がドラッカーの「経営者の条件」「現代の経営」「マネジメント」に強く影響を受けているので成果やマネジメントという言葉がよく出てくるようです。

では、Aは「成果」を例に進めていきます。

 

res <- NgramDF2("本文.txt", type=1, N=2, c("名詞","形容詞","動詞"), minFreq = 2)
res <- res[res$Ngram1=="成果" | res$Ngram2=="成果",]
res[order(res$dra.txt, decreasing=T),]
…
	Ngram1	Ngram2	件数	出現頻度
2583	成果	あげる	187	200
2594	成果	出す	29	40
585	する	成果	28	1916
2596	成果	出る	20	68
382	こと	成果	19	1127
215	いる	成果	18	875
2591	成果	上げる	13	28
2593	成果	何	13	460
3743	言う	成果	13	384
2599	成果	定義	12	52
1677	仕事	成果	11	331
2595	成果	出せる	11	12
691	それ	成果	10	278
1832	何	成果	9	460
3358	組織	成果	9	280
1147	よう	成果	8	406
3134	的	成果	8	171
25	あげる	成果	7	200
2500	思う	成果	7	151
2592	成果	中心	7	20
1557	人	成果	6	445
3509	自ら	成果	6	172
895	なる	成果	5	482
1964	全体	成果	5	31
2585	成果	する	5	1916
3450	者	成果	5	184
※分かりやすいように右端に、成果と2gramの関係にある単語の、全体の登場件数(fre)を追加しました。

 

全体の登場件数中、成果という単語の前か後に出てくる割合が高いのは、「あげる」「出す」「上げる」「出せる」という単語のようです。

なんか意識高そう。

 

ちなみに同じことをcollocate(共起)関数を使えば、もう少しシンプルに求めることができます。

# 詳しくはこちらを参照してください。

 

res <- collocate("本文.txt", node = "成果", span = 3)
res2 <- collScores(res, node = "成果", span = 2)

// T値&MI値が基準以上を選択
res3 <- res2[res2$T>=1.65 | res2$MI>=1.58,]
res.rate = res3$Span/res3$Total
res4<-transform(res3,rate=res.rate)
res4 <- res4[res4$Total>=10,]
res4[order(res4$rate, decreasing=T),]
…
	Term		Before	After	Span	Total	T	MI	rate
12	あげる		6	187	193	200	13.58	5.51	0.9650
173	出せる		0	11	11	12	3.24	5.44	0.9166
172	出す		1	29	30	43	5.31	5.05	0.6976
144	上げる		0	13	13	28	3.44	4.46	0.4642
148	中心		1	7	8	20	2.67	4.24	0.4000
129	エグゼクティブ	4	2	6	17	2.30	4.06	0.3529
174	出る		0	20	20	68	4.15	3.80	0.2941
24	かつ		5	0	5	18	2.06	3.72	0.2777
204	定義		1	13	14	52	3.443	3.67	0.2692
308	能力		0	17	17	65	3.79	3.63	0.2615
114	もたらす		0	4	4	18	1.81	3.39	0.2222
125	を通じて		5	0	5	24	2.01	3.30	0.2083
297	経済		5	0	5	24	2.01	3.30	0.2083

 

rateが、そのキーワードの全体の登場回数中の、「成果」という単語の前後に登場した回数です。

 

最後にGoogleのサジェスト機能を確認してみましょう。


この差分を考えると、成果と聞いて「出せる・出す・出る」「エグゼクティブ」「能力」が出てくる奴は意識高い系と言えそうです。

 

新卒7人に実験してみた

意識高い系発見器をさっそく試そうと思い、まだあまり絡めていない新卒7人で実験してみることにしました。

 

7人の新卒。

彼らに「成果と言えば…?」と聞くと、それぞれ以下のような回答がありました。

 

成果と言えば…?(「出せる・出す・出る」「エグゼクティブ」「能力」が意識高い系)

辻子龍太郎	売り上げ、契約数、価値の提供数、うまくいった、努力、積み重ね、実績、出したい
廣遥馬		成し遂げる、絶対的な基準、出さなければならない、達成感に直結する、努力の見返り
佐藤歩美		つくったモノ、評価されたもの、期限内に出すもの、達成の証
笹井俊宏		数字、結果、努力、報酬、インセンティブ、汗
石原裕己		見せるべき、達成する、成長の証、仕事の結果、評価の基準
渡邊大悟		作る
喜納 佳那子	何かを実行して出来上がったものなので、何かやったら必ず出るもの

 

おっと、廣さんニアピン。

廣さんは入社式からデキる男感が出ていたので、意識高い系というより「意識高い人」かもしれません。ただし先輩に誘われた飲み会で寝るのがアレ。

 

また、成果だけではなく、マネジメント、仕事という意識高い系が好きな単語を用意してみました。

 

マネジメントと言えば…?(「担う」「教育」「本質」「育てる」が意識高い系)

辻子龍太郎	人を管理する、部下にうまく任せる、難しそう、部下を成長させる役割、舵をきる人
廣遥馬		手段、スキル、鍛えれば手に入れることの出来る力、人間性がモノを言う
佐藤歩美		仕組み、最初から最後までなりたい姿になるためのサポート
笹井俊宏		自己犠牲、広い視野、かっこいい、上司、経営
石原裕己		管理、組織の発展に必要、理論構築されている
渡邊大悟		楽しませる
喜納 佳那子	個々、またはある範囲の役割が決まっている集合体

 

仕事と言えば…?(「遊び」「取り組む」「日常」「創造」「成長」が意識高い系)

辻子龍太郎	苦しい、楽しい、成果をあげる、経済に貢献する、社会に貢献する
廣遥馬		やりがい、お金稼ぎの手段、楽しむべきもの、挑戦、成長、人生そのもの
佐藤歩美		貢献のためのプロセス、作業、人間関係、パソコン、ビジネス服
笹井俊宏		頑張る、汗、生きる、スーツ、満員電車、親父
石原裕己		自分への挑戦、他人を豊かにする、一人ではできないもの、生きるためのもの
渡邊大悟		楽しむ
喜納 佳那子	責任が伴う、遊びではない作業

 

おっと、廣くんドンピシャ出たー!!

しかしその他の発言がマトモなので、どちらかと言えば「意識高い人」ではなかろうか。

むしろ私と考えが似た人なのかもしれない。今度、ご飯に誘ってみます。

 

というか、みんな解答真面目で良い子ばっかりですよ。さすがロックオンです

喜納さんは意識高い系発言と真逆のことを言っていて、好感を持てますね。

 

マーケティングへの応用例

例えば検索クエリやクリエイティブをngramにかけて、最もCVRが高い組み合わせを見つけ出すなどが考えられます。

Ngramの良い点として、人間が目視では気付けない組み合わせを作ってくれる点にあります。

この単語の後にこの単語が続くと、どうやらCVRが高いようだ、なぜだろう?こうした発見に対するストーリー作りこそマーケティングの真骨頂ではないでしょうか。

 

以上、お手数ですがよろしくお願い致します。

Written by