統計データの落とし穴 Peter Schryvers 2021.12.7.
2021.12.7. 統計データの落とし穴 ~ その数字は真実を語るのか?
BAD DATA ~ Why We Measure
the Wrong Things and Often Miss the Metrics that Matter? 2020
著者 Peter Schryvers カナダ・カルガリー市都市計画官、および同市のベルトライン地区を活性化するBUMPプロジェクトの提唱者。環境デザイン修士号を持つ公認都市計画官。評価指標に起因する誤りを見出すことに注力、様々な測定行為とそこから得られる教訓の間に、より有意義な関係性を築こうとしている
監訳 土屋隆裕 横浜市立大データサイエンス学部教授。博士(教育学)。1969年東京都生まれ。東大教育学部卒後、同大学院教育学研究科修士課程修了。統計数理研究所助手、准教授、教授を経て、18年より現職。専門は統計調査法。日本教育心理学会城戸奨励賞、日本行動計量学会優秀賞。文科省統計分析アドバイザー、OECD PIAAC National Sampling Managerなども務める
訳者 佐藤聡 翻訳家。1983年、慶應大工学研究科修士課程修了。1989~91年スタンフォード大客員研究員。化学メーカー勤務を経て翻訳業に従事
発行日 2021.8.10. 発行
発行所 ニュ-トンプレス
はじめに――人は万物を測る
ほとんどの生態系で、すべての動物を数えるとアリが最も多い。一部生息地では、アリは単に動物で個体数が最も多いだけでなく、総体重でもほかの動物を上回る
個々のアリは愚かだが、集団としては賢い。餌の探索に彼等の巧妙な仕組みの一端を垣間見ることができる。フェロモンを出して仲間に餌のありかを教え、他のアリがそのフェロモンを辿って餌に行き当たるが、一歩間違うと、先頭のアリが仲間のアリの最後尾についてしまい、一団のアリが円を回り続け、疲れ果てて1匹残らず死んでしまう。アリの集団を繫栄させている適応能力自体が、悲劇的な結果をもたらす。地球上で最も成功した昆虫であることの代償ともいえる
我々もアリと同様、意思疎通及び観察と行動を通して世界を理解する。ほとんどすべての活動を測定する。測定値、評価、業績指標が私たちの評価指標である
評価指標は、私たちが自分の生活だけでなく、ほかの世界も定量的に理解するために使う道具であり、何に価値を置き、何を優先するかを判断するのに役立つ
評価指標は、目的を念頭に置いた指標であり、単なる測定値とは異なり、方向指示器のようなもので、膨大なデータが入手可能になった今日、評価指標も大幅に増加
情報が増すにつれ、より多くの指標が最適化され、より多くの業務、活動、目標を記録できるようになった
本書で扱うのは、私達の測るものが私たちの行動と行動の仕方にどう影響し、私達が何かを測る方法が、私たちの考え方や行動、価値観、さらには達成するものをどのように変えるのか、ということであり、正しい評価指標の使い方である
評価指標を用いる理由:
① 真実を理解すること――直感に頼らない
② 複雑な仕組みを単純化する――簡潔さを与えてくれる
③ 信頼の問題に対処する――検証機能を提供
④ 客観性をもたらす――誰にでも等しく適用される明確で合意された基準を提供
同時に、評価指標には負の側面がある――指標の個々の目的が判断を誤らせる恐れもある
どの指標に従うか、指標の結果に従うべきかどうか選択が可能だし、過ちから学ぶこともできる
第1章では、学校の共通試験に焦点を当て、評価指標に対する行き過ぎた崇拝が、非生産的で、不必要で、時に極めて有害な慣習を生み出すことを示す。特定の評価指標だけを徹底的に追求すると、努力を傾けるすべての場面で、意に反する結果をもたらす可能性がある。あらゆる評価指標が私たちの行動を過激で、時に矛盾した形に変える力を持っている
第2章では、インプット、アウトプット、アウトカムを間違えて測ると、努力をしても実を結ばない場合があることを説明。努力に焦点を当てた評価指標が的外れなものであり、成果を上げるという本来の目的を阻む様子を示す
第3章では、評価指標が短期的な活動と長期的な活動の優先順位を歪める可能性を検証。定量化できるものは確実だという考えに基づく評価指標は、不確実な未来を扱うことが不得意で、短期的な成果を過大評価する
第4章では、私たちが分母を無視したり、誤用したり、使いすぎたりする傾向を示す
第5章では、複雑な全体の一部だけを測定することの危険性を示す
第6章では、異なるものを単一の測定値にまとめることで私たちが欺かれる様子を論じる
第7章では、測定に対する執着が深刻な結果をもたらした例を見る。多くの組織で、測定はそれ自体が目的となり、組織の本来の目的が数字ゲームの中で失われる
第8章では、評価指標が持つ本質的な力を批判的に検討することで問題の核心に迫る
第9章では、評価指標を用いる理由を再検討。ときに評価指標が本来奉仕するはずだった目的自体を害う様子も検討。評価指標を用いる際の14の教訓
第10章では、評価指標を見直すことで効果的に方向転換した様子を見る。生活の中で評価指標を使う理由と方法について、幅広い教訓を引き出す
本書では、従来の統計学では分析に用いられるデータが正確か、真かを重視するが、ここで重視するのは、データを分析する価値があるのか、測定に値するものか、ということで、指標自体は真で正確だったとしても、その指標が測ろうとしているものの全体像を的確に捉えているとは限らない。正確な測定値は、適切な測定値とは別のもの。そのことが忘れられている場合があまりに多い
本書では、私たちは適切なものを測っているのか? 私たちが測っているものは本当に重要なのか? という問いに対する答えを探求する
監訳者まえがき
データは21世紀の石油
「数値には明確な大小があり、万人に共通」という性質こそが数値データの圧倒的な力の源
データ重視の社会で真に必要な力とは、データ依存がもたらす弊害を知り、データ中毒にならない力、データの強大な力に翻弄されないようデータと適切に距離を保つ力が必要
第1章
特別試験対策――グッドハートの法則と評価指標に関するパラドックス
全米42州で採用されている小学校の共通基礎プログラムや、高校の共通卒業試験には大きな問題がある。生徒の理解や能力を測定するには不十分な点が問題
多肢選択式の設問は、大勢の生徒を効率的に振り分けるために試験の採点を楽にしたもので、学習の習熟度を適切に反映するかどうかとは全く無関係。短期記憶の能力を測定するもので、生徒に自ら答えを考えさせるという要素を欠き、生徒に徹底的な思考を求めない
共通試験では一般的に女性が不利になる傾向がある。男性は手抜きや裏技に頼る傾向がある一方、女性は自分自身を疑って不安が増す多肢選択式より、設問に対する総合的な理解を表現できる自由記述式の方が落ち着くから
共通試験では、多肢選択式であるがゆえに、高度な思考を問う設問を設計するのは難しい
多肢選択式で時間制限のある試験が求めるのは、客観性と単純さだが、重要な学習が客観的で単純であることは稀であり、理解するという学習の本質を構成するものではない
大学は、共通試験の成績により優秀な生徒を採ろうとするが、共通試験の成績と大学での成功の間には相関関係がない
試験は、授業を探求と驚嘆の場から作業場に変え、教師を学びの世話役から鬼軍曹に変える。学びを底の浅いものにし、試験のための詰込みの場となり、本当の学びから遠ざける
試験は学校を変えるが、試験のために学校を変える必要はない。評価指標への盲目的な執着や追従は私たちの行動を歪め、意図したものと逆の結果を招きかねない
アトランタの公立学校で起きた不正は、試験の結果が報奨や教師の昇進から学校の存続そのものにまで影響を及ぼしたために起こるべくして起こったもので、1つの市だけに起こったことではなかった
金融政策を研究する経済学者グッドハートの発見したのは、政府が金融システムを規制しようとすると、投資家がその影響を予測し、そこから利益を得ることで、ある指標が報奨と結びつけられると、人々は自分たちの行動がその評価指標の本来の目的を達成する上で役立つかどうかに関わらず、その指標を最大化する方法を見つけると結論付けた
グッドハートの原則とは、「指標が目的になると、その指標は機能しなくなる」ということ
もう1つの教訓は、評価指標が測定のしやすさで決められることが多い点で、測定しやすいがゆえに人々の行動が歪められる
評価指標は、私たちが何を行い、どう行動し、最終的に何に価値を置くかに影響を与える
測ることに重きを置くほど、人々は評価基準にとって最適な行動をとるようになる
私たちの生活行動を評価指標の支配下に任せると、評価指標が表し損ねたすべてのことが目に入らなくなる。評価指標のもたらす弊害は、その使い方と報奨の与え方から生じる
評価指標の目的は、物事を測って私たちを変えることにあり、変えない測定なら不必要
第2章
努力と成果――ロジックモデルと事業の評価
医師の診療報酬は、通常医師だけに認められた医療行為の出来高払いで、アウトプットは診察した患者の人数であって、何を達成したかではなく、何を実行したかが重視された
事業評価の一般的な手法にロジックモデルというのがある。事業を4つの要素に分解。インプット(=リソース)、アクティビティ、アウトプット、アウトカム(=インパクト)の4つで、事業の成果はアウトカムに凝縮されるが、定義や評価が極めて難しい
アウトカムを測定するための優れた評価指標に何を求めるか
第3章
不確実な未来――異時点間の問題と時間の軽視
80年代の実業界における問題は、会社の業績と役員報酬が連動していないこと
90年代には、業績を測る方法は1株当たり利益で、ストックオプションが役員報酬の大きな要素であるべきとされ、利益と株価の連動が経営幹部の行動の原動力となる
利益は近視眼的であり、また調整が容易
「レモンの法則」といって、中古車販売のように売り手と買い手に大きな情報格差がある場合、買い手はみな低品質(レモン)と決めつけてかかるので、いくら高品質(ピーチ)だとしてもそれなりの高価格が付けられないため、売り手は出来るだけレモンを売ろうとする
レモンの問題は経営幹部の業績の問題でもある。経営幹部が長期的な利益を重視して投資をしようと思っても、株主はそれを正当に評価する情報を持っていないので、レモンかピーチか判断できず、経営幹部も長期投資をピーチとして市場に納得させることは難しいため、自らレモンであることに甘んじる
研究開発や広告とマーケティングの問題は典型的な異時点間の問題
科学研究を評価する基準を確立する議論は、「研究論文がより広く知られ、ほかの研究者に引用される回数が多いほど影響力が大きい」とする考え方でまとまる ⇒ 計量書誌学と呼ばれるが、助成金と論文発表というアウトプットを偏重し、研究成果が社会に及ぼす影響や社会的な意味は考慮されない
量の優先による研究の質の低下は、学術雑誌における大量の論文撤回をもたらした。撤回理由の2/3は研究社の不正行為によるもの
科学界は、科学的な研究をどのように評価して報酬を与えるかという点で歪んでしまった
計量書誌学には、引用の水増し、劣悪な雑誌、撤回率の増加といった問題があるだけでなく、より深刻な欠陥は、ある論文がより広く読まれ、より多く引用されれば、その論文は科学の進歩にとってより重要であるという考え方自体が、科学が機能する仕組みと全く異なっているという問題がある
第4章
分母と分子――比率の過ち
評価指標を適用するときの教訓の1つが、比率を比較する時には適切な「~あたり」を使う必要があるということ
指数の点数が改善したのに、評価対象の状況が悪化しているのなら、間違った評価指標を使っている可能性がある
世代間の比較をするときには、分母を一定にする必要があるが、うっかり「~あたり」を忘れた指標は驚くほど多い。程度や効率を測る評価指標には分母が必要
全米の都市の歩行者の交通事故死亡者数を比べるとき、10万人当たりではまだ不十分。実際に歩いている人の総数に対する割合を比較しなければ正確なことは言えない
病気に関する評価指標では、分子にも注意が必要――劇的な治療法が発見された場合、死亡率は改善されるが、患者数は増える可能性があるので有病率は増加する
分母は、評価する個々の目的や目標に合致しているだけでなく、意味をなさなければならない。何らかの目的、効果、影響と合理的に結びついている必要がある
温室効果ガス排出に関し、1人当たりの排出量はカナダがアメリカに次いで2位だが、カナダの主張は1km2あたりでは世界で最小というもの
評価指標が意味を成すかどうかを確かめる方法は2つ、指標を改善する方法を分析してそうした方法が合理的かどうかを批判的に検証することと、指標が改善したのに実際のアウトカムが乏しい事例を見つけること――カナダの1km2あたりという評価指標を改善するには1人当たりの排出量を減らすほかには、領土を減らすか人口を減らすしかなく、現実的ではない。指標の真の目的を達成しなくても指標の値を改善する方法が考えられる場合、その評価指標は恐らく間違っている
第5章
木を見て森を見ず――複雑なシステムの単純化
住宅ローンの貸付要件は「不完全な評価指標」の一例――返済能力だけを見るが、どこに住むかで生活コストは大きく変わり、返済能力にも影響する
ビジネスの世界では、組織間で評価が相反する評価指標は珍しくない――保険業界では、営業は保険家の成約高で評価されるのに対し、引受部門はリスクの質で評価される
1994年に端を発したフードマイルズという考え方は05年に一般的となり、地産地消運動が始まる。食糧の長距離輸送の負の影響を懸念したアイディアだが、よく見ると食料システムに投じられるエネルギーの大半は生産段階で、アメリカの場合、輸送で排出される二酸化炭素は食料全体の約4%に過ぎない
コカ・コーラが、ガラス瓶と鉄缶からペットボトルに切り替えた際、容器材料に係るあらゆるエネルギーコストを解明し評価(ライフサイクルアセスメント)
プラスマイナス指標とは、バスケットボールなどで、コートに立った時の得点差と、退いた時の得点差を比較して、どれだけ改善したかを指標とするもので、それぞれの選手がコートに立っている間のチームの優劣がわかり、個人の得点やアシストによる評価とは別の面が見えてくる ⇒ アウトカム(試合に勝つ)だけに焦点を当てる評価指標で、アウトカムに影響する因子(選手)が複数あり、そうした因子の関与の有無が簡単にわかり、アウトカムが単純な場合に上手く機能する
ライフサイクルアセスメントとプラスマイナスは、全体像を描くうえで対極的な方法。前者は入力されるインプットを全て評価するのに対し、後者は多くの要素を集約しようとする。前者では測定対象に寄与するものを探し続け、後者では目的が何かに集中する
何かを評価する場合、求めるアウトカムがごく単純でない限り、単一の評価指標で満足してはならない。測っているものが、本当に重要なものの全体像を捉えているかどうか自問することが重要。ある指標が改善したせいで他の指標が悪化していないか確かめるべき
木を見て森を見ずでも、森を見て木を見ずでもけない
第6章
リンゴとオレンジ――似て非なるもの
質的に大きな差のあるものが不適切にも1つの評価指標にまとめられると何が起きるか?
異なるものをひとまとめに扱うと、事実が錯綜し不明瞭になる場合がある。貴重な情報が評価指標の中に埋もれてしまうと、その指標は逆効果をもたらし、無益なばかりか有害にもなりかねない
近年アメリカでがんによる死亡率が急増した最大の要因は、心臓病で、しかもその患者が減ったからだという。1970~02年の間に心臓病による死者は死因全体の40%から28%に減少、その後の10年でも心臓病死は40%近く減少したため、長寿になってガンの罹患率が上昇。がんの罹患率の上昇は、長寿社会の副産物ともいえる
1990年初頭、病気で失われた人生の年数と、病気による障碍を抱えて生きる年数を取り入れる考え方が広まる――同じ病気で死んでも5歳で死ぬのと70歳で死ぬのでは前者の方が損失生存年数が65年も多い。病気による障碍でも障碍を抱えて生きる年数を障碍の程度や内容を係数化して比較勘案する
死亡率などの単純な指標にディテールを加えることにより、人々の暮しを向上させるための資源を、より適切に割り当てることができる
ものごとを純粋に量だけで測り、質の差を考慮に入れない場合、非生産的で非効率的な、最適ではない様々な行動を引き起こす
いくつかの変数が単一の指標にまとめられているあらゆる評価指標では、実際に起きていることと指標の示す結果が大きく異なる現象が見られる――リンゴとオレンジを混同する誤りは、数値に含まれる大きな質の差に気づかないまま、数値の大きさを誇る場合に生じることが多い。Twitterのフォロワー数、労働時間、雇用創出件数、ウェブサイトの訪問回数など、何れも測定されるものは実に多様
どんな評価指標も、分析単位を間違えると、測定対象の実態を覆い隠してしまうので、実際の目的に応じて評価指標を重みづける必要がある
第7章
数えられるものすべてが大事なわけではない――街灯効果
1990年代初頭、ニューヨーク市内の犯罪は最悪期を迎えたが、生活環境悪化度合いを「無秩序」に求めた警察は、犯罪データの収集と地図的に紐づけすることによって劇的に犯罪を減らすことに成功し、町に秩序を取り戻す。その実績を基に開発されたCompStatシステムは全米の主要都市に導入され効果的な犯罪対策に用いられている
ところが2000年代になって、NYPDの内部告発から、重大犯罪を微罪化したり、軽犯罪のみを報告したりするなど、評価を上げるためだけの不正操作がされていたことが発覚
2年半かかってまとめられた監査報告では、CompStatの導入自体が問題の原因だと総括したが、犯罪が減少したのはシステムの導入が遅れた地域でも見られており、CompStatだけが原因ではなかった――ニューヨークの犯罪率低下とアメリカ全土における犯罪減少の本当の原因についてはいまだに論争が続いている
重大犯罪件数、犯罪報告件数、逮捕件数などの指標は、地域社会で求められている安全ということを実現するために適切なものではないし、統計の偏重が警察の仕事の本来あるべき姿である秩序と安全の環境を整えることを裏切るものだった
各国でも増えている評価指標への執着は、警察の目標と機能を歪めてしまった。住民の生計、生活の質、憲法上の権利、そして住民を守ると誓った警察への信頼を守るには、大きな代償が伴うが、評価指標に執着する方が遥かに大きな代償を伴う場合がある
ベトナム戦争は、アメリカ軍にとって目的や意味を見出すことが困難な戦争。統計解析の専門家のマクナマラが国防長官になり、的確な意思決定を下すための管理ツールの必要性に気づき文民が管理するシステム分析局を創設。測れるものはすべて測り、膨大なデータとなって本部に流入。次第にデータ自体が目的化し、戦争の進展と対応策を見出すうえで役に立たなかった
消耗戦略がとられ、その指標として用いられたのが死者数を数えるボディカウント。1人でも多く殺せばやがて勝てないことがわかって降伏するだろうという作戦だったが、最後の1人まで戦い抜く覚悟のベトコンには通用しなかった
ベトナム戦争におけるアメリカ軍の経験は、評価指標の失敗ランキングのトップに位置するもので、大局的な取り組みの欠如を隠すために評価指標が使われた
仕事で数字だけに拘り、それ以外を無視する管理職は多い。戦争の性質やベトナム人の心理と動機など、戦争に影響する複雑な政治的、文化的、社会的要因を自分で理解できないという事実を隠すために、データが用いられ、データ分析は理解を深める道具としてではなく、理解の欠如を隠すための道具として使われた
データが現実と結びついているはずとの誤った信念に拘り、評価指標がすべての問題に光を当てているとは限らないことを忘れてはならない
第8章
大事なものすべてが数えられるわけではない――本質を見極める
本章で扱うのは、評価指標は人々に意欲を与えるのかという問題
組織心理学でいう「期待理論」というのは、意欲というものは、目標達成がどの程度合理的に期待できるかに左右されるという理論。どうしても目標が達成できない状況になると、意欲がそがれる
「期待理論」のもう1つの要素は、道具性instrumentalityで、自分には目標を実現するための道具があり、努力すれば望んだアウトカムが得られるという認識のこと
リーバイスの社長は、1996年に全従業員に対し、3年で売上を71億ドルから76億に上げれば1年分の給与相当を賞与で払うと約束、社内の士気を大いに高めたが、翌年から業績は下降、リストラが始まり、98年の売上は60億を下回ると途端に士気が急低下
間違ったものに報奨を与えれば、間違った結果が得られる
遅刻や欠勤防止のために皆勤賞を設けたら、今まで遅刻していた人の意欲は上がったが、今まで皆勤していた人が、一度遅刻をすると2度3度とするようになった
趣味などで努力や技能が必要な「作業」に対し、「作業」が完了するたびに少額の報奨が払われるとなったら、趣味が金稼ぎに変質して、「作業」自体を楽しむことができるか?
多くの仕事には観察できる職務と出来ない職務がある。大規模で複雑なマルチタスクの職場では、従業員の貢献度を測るのは難しい
内発的動機に基づく崇高な目的意識に支えられている人が、自分の価値観が単なる業績評価指標に貶められる状況に置かれると、抵抗を覚える。重要なのは、内発的動機を損なう金銭的な報奨が一旦導入されると、意欲を取り戻すのはほとんど不可能
業績指標は、人の意欲を引き出すあらゆるものを損なう可能性がある。私たちの人生の大切な部分を数値化しようとすることで、本当に大事なものが失われる可能性がある
行動経済学では、社会規範と市場規範を区別する。前者は友人として仕事を手伝ってくれと頼まれた場合で、相手との関係性や自分たちの関係にどれだけ価値を置くかに基づいて行動が決まるが、後者は金銭が絡む場合で、金銭が自分の時間と労力に見合っているかどうかが決め手で、両者は両立しない
質的規範と量的規範にも同様の差があり、この両者も両立することはない――組織が従業員を定量的な基準だけで評価すると、従業員が組織で果たしている定量的ではない側面の全てを損なうかもしれない
20世紀初頭、ペンシルベニアの製鉄所の事務員テイラーによって提唱されたテイラーイズムは、後の科学的管理法として知られるが、すべての作業工程で効率化を追求し、作業を標準化して結果を測定する。何でも測定できる、何でも測定すべきというのが基本
だが、業績評価指標が有効に機能するのは、仕事が比較的単純でアウトプットが簡単に観察でき、品質が問題とならない場合に限られる
経済と幸せの指標は、どう測ればいいのか?
広く使われる経済指標が作られたのは20世紀に入ってから――国内総生産GDP
国内で1年間に行われたすべての経済活動の合計であり、国全体の富と市民の豊かさを測るための最善の試みがGDPであり、第2次大戦後の経済的繁栄を測る基準となった
GDPに対する批判の1つは、経済活動そのものを測定しても、経済活動全体で何が達成されたのかを語らない
また、経済の隠れた部分を測っていない――家計、ボランティア活動、余暇、公的サービス(公務員の人数と賃金などのインプットとして測られ、教育効果や国民の健康状態といったアウトカムで測られることはない)、環境コスト、資源の枯渇などなど
GDPのもう1つの問題は、大きく質の異なるものを一緒に数えること――銃を買うのも動物園に行くのも同じように数える。あらゆる価値をどれだけ金額換算できるかということに矮小化しているが、生活の質に対する人々の自己評価が、収入とそれほど強く相関していないことを実証した研究がある
幸せの直接的な測定は主観的過ぎて困難。一方で、所得の測定は客観的だとしても、所得を測定対象として選択すること自体が主観的
GDPは本質的に生産性の指標であり、生活の質の指標ではない
あらゆる定量的な測定についていえることは、定量的な指標は誤解を招きやすい。結果が断定的なだけに、測定対象の全体像を明確かつ精密に表しているように見えるので要注意であり、複雑な現象を1つの数字に簡単に置き換えることはできない
膨大なデータを収集、分析、報告する新たな能力を身につけたことで、情報に対して自信過剰になった。定量化できれば簡単に理解できると思うようになったし、定量化が目的になりさえした
測定の考え方のほとんどは、数学や化学などの自然科学に基づいているが、そこから離れて政治学、社会学といった曖昧な世界に近づくほど、評価指標は単純ではなくなる
第9章
評価指標と選択
評価指標への執着を断たなければならない――何を、なぜ測るのかについて、より思慮深い態度が必要
複雑性――評価指標は多面的な仕組みから簡潔なモデルを抽出するのに役立つが、仕組みに対して評価指標が単純化され過ぎた場合に問題が起きる
客観性――評価指標はものごとを評価する上で欠かせない中立性、公平性、独立性という価値を与えてくれる。主観的な判断を避けるために評価指標を使う場合も多い。だが、測定には本質的に馴染まないものをどう評価するかという課題が残る
確実性――近代の文化では、確実性とは定量化を意味する場合が多い。自分の行動や意思決定を確実にしたいという願望が強いが、測る対象より指標を現実だと思い始める「具体化」という現象が起こり、複雑で曖昧な問題を単純な指標で置き換えてしまう問題に至る
信頼――人を扱う場合に用いるほぼすべての指標の根底には、信頼もしくは信頼の欠如がある。確実性に対する欲求は信頼の欠如から生じるし、客観性に対する願望も自分の視点が他人に共有されることはないと私たちが信じている事実から生じる
評価指標に関する教訓:
① 評価指標を何等かの称賛や非難と結びつけて使うことには慎重であること――報奨や処罰の機会が増し、評価指標が操作されやすくなる
② 測定しているものがインプット、アウトプット、アウトカムのどれなのかを認識する必要がある――多くの場合指標は、自分が変えたいと思っているアウトカムを対象にすべき
③ 使っている評価指標が長期より短気を重視しているのか、あるいはその逆なのかを認識すること――混同すると短期的成果のために長期的利益が損なわれる
④ 何かを測るには、指標を定義している数式を理解すること――分母の使い方に注意
⑤ 改善したい仕組みの一部だけを測っているのか、全体を測っているのかを認識する――複雑な仕組みを単純化し過ぎると、評価指標が他の重要な要素を損なう恐れがある
⑥ 質が異なるものを区別して測っていることを認識する――単純化の行き過ぎに注意
⑦ 簡単に測れる対象に夢中にならないよう注意する――戦略を数字ゲームにしてはならない
⑧ 簡単に測れないからといって、無価値だということにはならないことに留意する――世の中の「無形」の領域や、意欲・目的意識といった特性など、大事なものすべてが数字で表せるわけではない
⑨ 測ることで、高めたいと思っている意欲そのものを傷つける恐れがある――評価指標や報奨が人々を動機付けする場合だけとは限らず、意欲を下げる場合もある
⑩ すべてに答えられる単一の評価指標は存在しないことを理解する――複数のものごとを測ることによって理解が深まり、個々の評価指標の問題点を補えるかもしれない。使っている評価指標が役に立つ有意義なものかどうかを常に問うべき
⑪ 指標に溺れないこと――測定のための測定という罠に陥らないよう留意
⑫ 信頼の欠如を補うために評価指標を使わないこと――信頼は、共有する価値観の継続的な形成と強化、およびお互いに対する義務感と説明責任を通じて形成される
⑬ 業績を測ることよりも行動に注目すること――多くの人が様々な形で関与する複雑な業務では個人が仕事のアウトカムに責任を持つことはできない。そうした状況では、評価指標が報奨と処分の恣意的な分配装置と化す
⑭ 評価指標に批判的な態度を身につけること――測定行為は何を意味しているのか、測るべきものを本当に測っているのか、常に問い掛ける
評価指標の持つ大きな力は、結局、選択に関する力。評価指標とは何を測るかの選択
第10章 終わりではなく始まり
測定は手段であって目的ではない。学校制度の目的は、試験の点数を上げることではなく子供を教育すること
経済活動は、本物の豊かさを生み出し、市民をより幸せにすべきものであって、できるだけ多くのものをできるだけ速く生産することではない。測定はそうした願望を反映すべきで、測定できるものに合わせて願望を変えてはならない
達成したい目標のために評価指標を役立てることができる
私たちは、自分の人生をもっと適切な方法で測る必要がある
なぜ測るのかを考えずに測定してはならない
何をどのように測るのかが自分の行動の目的と手段に影響することを理解する必要がある
評価指標が正確な数値を用いているからといってそれが真実だとは限らない
何かを評価指標で表せるからといって、それを理解したことにはならない
何かを測れないからといって、重要性が低いことにはならない
完璧な評価指標は存在せず、そのほとんどには大きな問題がある。あらゆる測定値に対してもっと批判的になるべき。測っている対象と測定が持つ意味、それが私たちの行動にどのように影響するかについて、もっとよく考えるべきだし、それ以上に、すべてを評価しようと考えず、数字に表せないものを楽しむことを折に触れて思い出すことが重要
「統計データの落とし穴」書評 木を見て森を見ない誤用に注意
評者: 坂井豊貴 / 朝⽇新聞掲載:2021年09月18日
統計データの落とし穴 その数字は真実を語るのか?著者:ピーター・シュライバー出版社:ニュートンプレス
あらゆる分野でデータの活用が喧伝される現在、データや評価指標の重視が何をもたらすのか、豊富な実例を挙げて検証。評価指標を用いる際に役立つ14の教訓も提示する。
「統計データの落とし穴」 [著]ピーター・シュライバー
90年代のニューヨーク市警に、取り締まりや犯罪データの収集システムが確立した。ある分署長はそれを使い、警官や部署の活動を、数値評価し始めた。もちろん警官の行動は変わっていった。無意味な職務質問を増やしたり、重大犯罪を微罪として扱ったり、被害者が被害届を出すのを邪魔するようになったのだ。数値ノルマを達成するため、そのような行動は署の全体でなされた。数値評価を導入すると、人はそれに応じて行動を変える。結果として、その数値評価を通じて実現したかったことと、反対のことだって起こる。
数値評価は大切なように思える。なんせ数値は、数値で表せないものと比べて、はるかに見えやすいし、分かりやすいから。だから人は数値を見て、そこに答えがあるような気になる。これを著者は「夜中に落とした鍵を探す酔っぱらい」に喩える。夜中に暗い茂みで鍵を落としたのだが、街灯の下のほうが明るくてよく見えるからという理由で、街灯の下ばかりを探す酔っぱらいのことだ。
数値を正しく扱うことは難しい。例えばイギリスで、オランダ産の花と、ケニア産の花を買うのとでは、どちらが環境負荷は低いだろうか。直感的には輸送距離が短いオランダ産だろうが、答えはケニア産だ。海上輸送はエネルギー効率がよく、この点でケニアはほとんど不利にならない。しかしケニアと違い、オランダでは温室で花を育てるので、総合的な環境負荷は高くなってしまうのだ。輸送距離は、複雑な全体のごく一部にすぎない。ごく一部の数値を見て全体を分かった気になるのは、数値の典型的な誤用である。
数値や数値評価をめぐる数多の混乱と失敗が、本書には収められている。さらには終盤に、どうすれば適切に数値や数値評価を扱えるか、多くのアドバイスも備えられている。称賛や非難と結びつけて使うことには慎重であれ、というのは第一の教えである。
Peter Schryvers カナダ・カルガリー市都市計画官、公認都市計画家、カナダ都市計画家協会会員。
坂井豊貴(さかいとよたか)慶応大学経済学部教授
1975年広島県生まれ。ロチェスター大学経済学博士課程修了。横浜市大や横浜国立大准教授を経て、2014年から現職。著書に『多数決を疑う』『マーケットデザイン』ほか。2020年4月から書評委員。
コメント
コメントを投稿