懇親会で大げんか!バイアスのかかった採点を正しく評価してみました


弊社株式会社ロックオンでは年に一度の社員総会後の懇親会があり、今年は、各ユニット対抗の出し物競争を実施しました。
優勝チームには審査員の役員一同から景品がある一方、敗者チームは罰ゲーム(お酢の一気飲みなど)があるため、各ユニットの気合は(バラツキはあるものの)相応に入らざるをえません。

 

社員懇親会

 

懇親会が終了後、アドエビス開発ユニット長、畑 晋平(注1)より出し物審査において同ユニットが不利益を被ったのではとの指摘がありました。

 

審査結果に物言いをつける畑

 

理由は、後半になるほど盛り上がったことから審査員の心象に少なからぬ影響があり後半ほど審査(注2)が甘くなったのでは?とのご指摘。

 

出し物の発表順序と最終順位(注3)

 

データを企業の生業とする株式会社ロックオンとして、同指摘は看過することができないと判断しました。
そこで、 (インフレが発生していたとして)修正を行うことで、「1位アドエビス営業ユニットと2位アドエビス開発ユニットのポイントは逆転するのか?」について検証を行いました。(注4)

ポイントはどのように推移していったのか?

まず、出し物ポイントの推移について確認してみましょう。
審査員は
・代表取締役社長、岩田
・取締役副社長、福田
・専務取締役、又座
・執行役員、宇野
・非常勤監査役、塩尻の5名。

 

出し物ポイントの推移

 

確かに1、2…8の順でそれとなく右肩上がりになっているように見えます。
次に、審査員別にどのようなポイントをつけていたか確認してみましょう。

 

審査員別評価ポイント一覧

 

確かに塩尻を除くと⑦⑧に向かってポイントが伸びているようないないような…。
岩田は後半満点の10点を連発していますね。

審査員の採点に公平性はあったか?

続いて、各審査員のポイントの平均と標準偏差を確認してみましょう。

 

各審査員のポイントの平均と標準偏差

 

岩田が平均的には高い点を付けがちで続いて塩尻の順になっています。
また、標準偏差をみるとこれまた岩田がトップです。

標準偏差が大きい(ポイントの付け方のバラツキが大きい)ということは、メリハリをつけた採点をしていたという事が示唆されます。
一方、又座、宇野はバラツキが小さいということで各チームに対して優しさというか配慮が感じられます。

もし、後半にかけてだんだん盛り上がり、勢いで審査員のポイントの付け方に影響があったとすると盛り上がりの影響を除くモデルを推定することで、修正ポイントの算出ができるかもしれません。

時間経過とともに、アルコールの摂取量も増えますしね(注5)

シンプルに順番を説明変数とし、出し物ポイントを被説明変数とする単回帰分析の結果です。
(切片のt値は9.64,順番のt値は2.35)

 

出し物ポイント単回帰分析

 

推定されたモデルからは、31点は下駄として履いており順番が1つ後ろになると1.5点ほど点数が上昇することが示唆されています。

つまり、同モデルから示唆される修正を行うためには順番が8番目の場合は、1.5点×8=12点ほど減点すればよい、ということになります。

先ほどの順番×1.5点で修正を行うと

 

出し物ポイントの修正前、修正後

 

なんだか均等された感じですね(当然ですが…)。

全てのポイントを合計した結果

修正前後の出し物ポイントに総会ポイントを合計した結果は………

 

出し物の発表順序と最終順位、修正前と後の比較一覧

 

なんと、アド開が1位、アド営は2位となっています!!

畑ユニット長おめでとうございます!(ガラ悪いけど)。

総評

やれやれ。
と、言いたいところですが、修正後の合計ポイントを確認すると

それぞれ54.2点、53.0点とその差は1.2点です。

モデルでは順番が一つ繰り上がるごとに1.5点盛り上がり修正がかかります。
データが少ないこともあってこの1.5点というのはちょっと怪しい(注6)。
アド開とアド営の差は僅差ということは間違いなさそう!

ですが、絶対にアド開が勝っていた!というのはこのモデルからは言えなさそうです。
畑、残念。

 

今回のまとめ

 

なので、アド開が絶対に勝っていたとは言えないかな、という結論です。
(もちろん、後半になればなるほど発表が素晴らしかった可能性ももちろんありますが。)

 

社長副社長罰ゲーム

 

おまけ
社長、副社長の「激辛カレー早食いバトル」
自ら身体張ってます。お疲れ様でした。はい。




注1:いちゃもんをつける(ガラの悪い)畑ユニット長。

注2:音楽コンクールなどの審査では「新増沢式採点法」という手法が採用されている場合があります。 結構複雑です。Wikipedia:http://bit.ly/YgnQmH

注3:総会ポイントは社員総会におけるプレゼンや質問に対して付与される。
総会ポイントと出し物のポイントの合計ポイントで最終順位を決定。

注4:もちろん「審査が甘くなって出し物ポイントがインフレすること」と「後半になればなるほど素晴らしい出し物だった!」場合に、両者には高い相関があります。
この区別は今回はちょっと難しいので出し物ポイントがインフレしていたとして、修正したらどうなるか、という観点で分析を行います。

注5:データ分析の楽しさを伝える事を主目的とした啓蒙事例です。
サンプル数が…など厳密な議論は一旦横に置いておきます。ごめんなさい置かせて下さい。

注6:推定された係数の95%信頼区間が[―0.06~3.06]と0を含んでいます。あらら。

ご意見、ご感想、また共同研究して頂ける方を募集しておりますので
ご興味のある方は、是非、お問い合わせください。