「原因と結果」の経済学  中室牧子/津川友介  2019.12.2.


2019.12.2. 「原因と結果」の経済学 データから真実を見抜く思考法
Casual Influence in Economics ~ How to discover the “TRUTH” in everyday life

著者
中室牧子 慶應大総合政策学部准教授。同大環境情報学部卒後、日銀、世銀、東北大を経て現職。コロンビア大公共政策大学院にてMPA(公共政策学修士号)、コロンビア大で教育経済学のPh.D.取得。専門は教育経済学。著書にビジネス書大賞2016準大賞を受賞し、発行部数30万を超える『「学力」の経済学』
津川友介 
ハーバード公衆衛生大学院リサーチアソシエイト。東北大医卒後、聖路加国際病院、ベス・イスラエル・ディーコネス・メディカル・センター(ハーバード大医学部付属病院)、世銀を経て現職。ハーバード公衆衛生大学院にてMPH(公衆衛生学修士号)、ハーバード大で医療政策学のPh.D.取得。専門は医療政策学、医療経済学。ブログ「医療政策学x医療経済学」で医療に関するエビデンスを発信している

発行日             2017.2.16. 第1刷発行
発行所             ダイヤモンド社

軽薄な人間は運勢を信じ、強者は因果関係を信じる (ラルフ・ウォルド・エマーソン: 19世紀を代表するアメリカの思想家、作家)


はじめに
     メタボ健診を受けていれば長生きできるのか
     テレビを見せると子どもの学力は下がるのか
     偏差値の高い大学へ行けば収入は上がるのか
いずれの答えも、経済学の有力な研究はすべて否定している。多くの人がイエスと答えるのは、「因果関係」と「相関関係」を混同しているから2つのことがらのうち、「どちらかが原因で、どちらかが結果である」状態を因果関係があるという。「関係はあるものの、その2つは原因と結果の関係にないもの」のことを相関関係があるという
両者を混同すると判断を誤る
    については、「メタボ健診を受けるぐらい健康に対する意識が高い人ほど長生きする」ともいえ、健康と長生きの間の因果関係はない
    については、「テレビを見る時間が長くなると、逆に学力は高くなる」との因果関係がある
    についても、偏差値と将来の収入の間に因果関係はない
「因果関係」か「相関関係」かを見分けるための方法論を「因果推論」と呼び、それを理解すれば思い込みから自由になれる
本書は、因果推論の根底にある考え方を分かりやすく説明するのが目的
併せて、ビッグデータ時代を生き抜くためには、データ分析だけでなく、データ分析の結果を解釈するスキルも身につける必要がある
中室は、教育経済学者。データと経済学の手法を用いて、どのような教育が子どもたちの学力や能力を伸ばすことができるのかということを研究している
津川は医師かつ医療政策学者。ビッグデータを用いて、医療の質を改善しながら医療費の伸びを抑える方法を研究
因果関係がはっきりしない、根拠のない通説が山のようにあるのが、教育と医療の分野
「因果推論」は、データ氾濫時代に必須の教養

第1章          根拠のない通説にだまされないために 「因果推論」の根底にある考え方
Ø  「因果関係」「相関関係」とは何か ⇒ 片方が原因になってもう片方が結果として生じた場合、2つの間には「因果関係」があるといい、原因と結果の関係にない場合を「相関関係」があるという。データのことを「変数」という。2つの変数の関係が本当に因果関係なのかを明らかにするために必要な考え方が「因果推論」
Ø  因果関係を確認する3つのチェックポイント ⇒ ①まったくの偶然ではないか。②第3の変数は存在していないか、③逆の因果関係はないか
2つの変数がよく似た動きをすることを「見せかけの相関」と呼び、偶々というケースが意外に多い
3の変数を「交絡因子」と呼び、原因と結果の両方に影響を与える変数があり得る
原因と結果の方向が逆の場合を、「逆の因果関係」と呼ぶ
Ø  因果関係を証明するのに必要な「反事実」 ⇒ 上記3つが存在しないことを証明する方法が、現実と「反事実」を比較すること。「反事実」とは「たら・れば」のこと
Ø  タイムマシンがないと反事実は作れない? ⇒ 「反事実」は「因果推論」の重要な概念だが、実際に観察は不可能。反事実を正しく想像できないと根拠のない通説に騙される

第2章          メタボ健診を受けていれば長生きできるのか 因果推論の理想形「ランダム化比較試験」
Ø  「実験」を使えば因果関係を証明できる ⇒ 投薬効果を測る治験で用いられるのが「ランダム化比較試験」
「観察された差が偶然の産物である確率」が5%以下であるときに「統計的に有意」と言い、2つのグループの差は誤差や偶然では説明できない「意味のある差」だという
メタボ健診には0814年で1200億の税金が投入されているが、28億を投じて構築したデータベースに不備があって、2割しか検証できないことが判明、大問題に
「健診」と「検診」は違う ⇒ 「検診」には寿命を延ばす因果関係があると確認されているものが多い
Ø  「メタアナリシス」の活用 ⇒ 自分に都合のいい論文の結論だけ正しいとする行動をチェリー・ピッキングと言い、それを防ぐのがメタアナリシスで、複数の研究結果をまとめて、全体としてどのような関係があるのかを明らかにする研究手法

第3章          男性医師は女性医師より優れているのか たまたま起きた実験のような状況を利用する「自然実験」
Ø  手元にあるデータを用いて、実験のような状況を再現する ⇒ 法律や制度の変更、自然災害、紛争など、誰も予想できなかった変化によって、あたかもランダム化比較試験を行ったかのような状況を見出すことで、2つの変数の因果関係を明らかにしようとする方法が「自然実験」で、ホスピタリストという入院患者診察専門の医者の診た患者が入院日から30日以内に死亡する確率が男性医師と女性医師では女性のほうが0.4%低いことが判明、全米における入院患者の死亡率の改善割合とほぼ同じという驚異的な結果であり、女性医師のほうが質の高い診療を行っていることが分かり、医療現場における男女格差の是正が必要とされている
Ø  「出生時体重」と「健康」の間の因果関係 ⇒ 双子の赤ちゃんを使った「自然実験」では、体重の重い方がその後の健康状態も成績も良好とされ、「胎児起源説(胎児期の環境が後の人生に決定的に重要であるとする説)」と矛盾しない

第4章          認可保育所を増やせば母親は就業するのか 「トレンド」を取り除く「差の差分析」
Ø  実験をまねる「疑似実験」 ⇒ あたかもランダム化比較試験を実施しているような状態を作り出す方法が以下の4章で説明する統計的手法
時系列的に前後する比較が使えないのは、時間とともに起こる自然な変化(トレンド)の影響を考慮することができないことと、データ収集を繰り返すと「平均への回帰」という現象が起こることが挙げられるが、介入群と対照群のそれぞれの前後比較の差を比較する「差の差分析」であれば、一定の条件の下で有効な因果効果が認められる
Ø  「認可保育所の数」と「母親の就業」の関係にかかる差の差分析 ⇒ 1つ目の差は9010年の各都道府県の母親の就業率の差、もう1つの差が県別の保育所定員率が増加した都道府県(介入群)とほとんど増加しなかった都道府県(対照群)の母親の就業率の差。この2つの差を取ることで、保育所定員率の増加が母親の就業率増加に与える因果効果を推定した結果、因果関係を見出すことはできなかった
認可保育所の整備は、母親の就業に因果関係を持たなかったとしても、祖父母の育児の代替関係にあったことは推定できるので、専門的な知識や技能を持つプロフェッショナルな保育士の下で、質の高い幼児教育を受けられることは、子供のより良い将来のためと位置付ける方が適当
Ø  「スケアード・ストレート」という教育法。子供に「恐ろしい」と感じさせることで正しい行動をとることの必要性を学ばせるもの。日本でも「早く寝ないとお化けが出るよ」という。有名になったのは1970年代にアメリカで、この教育法を体験したある若者グループが犯罪に関わらなくなったということが報道され、この教育法には若者の犯罪を抑止する効果があると認識されたが、単なる前後比較デザインからの安易な結論に過ぎず、ランダム比較試験をすると、受講した方がその後の人生で犯罪に関わる確率が高かった
因果関係を検証することなしに、一見すると効果があるように見える政策を実施することは、国民に大きなリスクを背負わせているということを忘れてはならない

第5章          テレビを見せると子どもの学力は下がるのか 
3の変数を利用する「操作変数法」
Ø  操作変数とは、「結果には直接影響を与えないが、原因に影響を与えることで、間接的に結果に影響を与える」ような第3の変数
チェーン展開する宝石店が広告と売上の因果関係を知ろうとする場合、広告を出すか出さないかは各店長に任されていると、広告を出す店と出さない店では店長のヤル気が違いすぎるため、出す店と出さない店を2つのグループとして比較するのは難しい。「店長のヤル気」という交絡因子の存在によって「見せかけの相関」が生じている可能性がある
偶々新聞の広告料割引キャンペーンがあったとすると、キャンペーンは売上には直接影響を与えないが、広告を出すかどうかには影響を与えることで、間接的に売上に影響を与えるような変数たり得る
キャンペーンがあると、広告を出す店は増加するだろうが、キャンペーン自体は店の売上には直接影響しない。もし広告と売上の間に因果関係があればキャンペーンによって広告を出す店が増えるとその結果売上も増加するが、一方因果関係がなければ、キャンペーンによって広告を出す店が増えても売上は増加しない
操作変数法が成立するための2つの前提条件 ⇒ 1つは、操作変数は原因に影響するが、結果には直接影響しないこと。もう1つは、操作変数と結果の両方に影響するような「第4の変数」が存在しないこと
Ø  テレビの視聴と学力の関係 ⇒ あめりかでは4050年代半ばにかけてテレビが普及したが、4852年の4年間電波障害への対応を行うことを理由にテレビ放送免許の凍結が行われた
テレビ視聴の操作変数として、「4852年にテレビを所有していたかどうか」を用いた
この時期テレビを所有していたかどうかは、48年以前に放送免許を取得したテレビ局が既に放送を始めている地域に住んでいたかどうかによるところが大きい。つまり、放送免許に関する規制は明らかにテレビの視聴時間に影響を与えるが、子供の学力には直接影響しないと考えられるので、操作変数として妥当
幼少期にテレビを見ていた子供たちは、小学校に入学した後の学力テストの偏差値が0.02高かったことが明らかになった。宿題に費やす時間や進学希望などにも悪影響は見られなかった。特に英語が母語でなかったり、母親が低学歴だったり、白人以外の人種の子供では、テレビ視聴で成績が上がる効果が大きかったことも判明
他の活動の選択肢が多い経済的に豊かな家庭では、テレビが持つプラスの因果効果は極めて小さくなってしまい、ときにはマイナスになることも明らかになっている一方、貧困家庭の子供にとってはメリットがあることを強調する研究もあることから、一概にテレビ視聴のもたらすマイナス効果を喧伝することがないよう注意を要する
Ø  「母親の学歴」と「子供の健康」の間の因果関係 ⇒ 幼少期の子どもの健康状態が大人になってからの学歴や所得に大きな影響を及ぼすということを明らかにしてきたが、次に明らかにしようとしたのは、幼少期の子どもの健康状態が何によって決まっているのか、ということ
17歳時点で住んでいた自宅から大学までの距離」を操作変数に用いる ⇒ 大卒以上の高学歴の母親の子どもは、早産や低出生体重で生まれる確率が低く、生まれた時の健康状態が良好だった。大卒以上の学歴の母親は、妊娠中に喫煙する確率が低く、妊婦健診に行く確率が高い。つまり、大学進学によって、子供の健康状態が良くなるような習慣を身につけたということになる
この研究結果は、教育がもたらす恩恵について考える機会を与える。金融商品から得られる投資利回りは、大学進学への投資から得られる利回りに遠く及ばず、私たち自身が高度な教育を受けることよりも有利な投資先を見つけることは極めて難しい
教育はそれを受けた本人だけでなく、次の世代の子どもたちにも恩恵をもたらす。教育は、社会にとって最も割のいい投資の1つと言っても良い
Ø  女性管理職を増やすと企業は成長するのか ⇒ ノルウェーでは女性取締役比率が08年までに40%に満たない企業を解散させるという法律が03年施行されたのを機に、女性取締役比率と企業価値の間に因果関係があるかの検証をした
法律施行時点でノルウェーの上場企業の女性取締役比率は10%未満で、企業によってもかなりばらつきがあった。「法律施行前の各企業の女性取締役比率」を操作変数として用いる。比率が高ければ施行後も容易に40%をクリアできるが、低い企業はこの5年間に急速に女性取締役を増加させただろうから、操作変数は女性取締役の増加率に影響を与えたと考えられるが、現在の企業価値に直接影響するとは考えにくいので操作変数として妥当。結果は、女性取締役を10%増加させた場合、企業価値は12.4%低下すると出て、女性取締役比率の上昇は企業価値を低下させることが判明
結果を精査すると、新任取締役はもともとの取締役より年齢が若く、取締役の経験がなく、他業種から参入した人が多かった。さらにもともと取締役だった人と「同じ姓」の人が多いことも判明。つまり、法律で強制されたことにより、無理やり、それも取締役の妻や娘を無理やり取締役にして数合わせをしたことが企業価値を低下させることに繋がったと考えられる
単純に女性取締役比率に数値目標を掲げ、ただ管理職の数を増加させるだけでは逆効果になることもあるという重要な教訓

第6章          勉強ができる友人と付き合うと学力は上がるのか 
「ジャンプ」に注目する「回帰不連続デザイン」
Ø  回帰不連続デザインとは、恣意的に決定されたカットオフ値の両サイドで、介入群と対照群が分かれる状況を利用して因果効果を推定する方法
Ø  「従業員49人までの店舗」は広告を出さず、「50人以上の店舗」は広告を出すことにして広告と売上の相関についてみる ⇒ 従業員数による両者の売上の差は、広告を出さなければ本来それほどなく、従業員数の増加にスライドして売上も伸びるが、広告を出すか出さないかで50人を境に大きな売上の「ジャンプ」が見られる。50人のことを「カットオフ値」といい、そこで見られる「ジャンプ」を広告が売上に与えた因果効果という
Ø  回帰不連続デザインを用いて因果効果を測定する際の前提条件 ⇒ 連続変数のカットオフ値の周辺で、結果に影響を与えるようなほかのイベントが起きていないことが条件。50人以上の店では売上に応じたボーナスが支給される場合は、「ジャンプ」が広告の効果なのかボーナスの効果なのかわからない
Ø  友人から受ける影響=ピア効果の測定にも回帰不連続デザインが使える ⇒ エリート校入試の合格ラインをカットオフ値にして合格後の生徒の学力に与える因果効果を測定したが、全てのケースでカットオフ値前後でその後の学力の「ジャンプ」は見られなかった。勉強のできる友人に囲まれて高校生活を送らせても、自分の子どもの学力にはほとんど影響がない
Ø  「高齢者の医療費の自己負担割合」と「死亡率」の間に因果関係はあるか ⇒ 医療費抑制のため高齢者の自己負担割合を上げると、高齢者は受信を控え、健康状態が悪化するのではないかとの懸念に対し、70を境に3割負担が1割に下がる日本の制度下で、70歳をカットオフ値として、その前後で健康状態や医療サービスの利用頻度が変わるかどうかを検証。外来患者数や入院患者数の「ジャンプ」は見られたが、死亡率の「ジャンプ」は見られない。自己負担割合を下げると、病院に行く回数は増えても、死亡率や健康状態への影響はほとんどないことが判明
Ø  「ホルモン補充療法」では、ランダム化比較試験が観察データを用いた研究の結果を180度ひっくり返し、ランダム化比較試験の重要性が再認識された ⇒ 心筋梗塞など動脈硬化によってもたらされる病気のリスクに男女差があり、閉経前は女性が低いが閉経後には確率が高くなるため、女性ホルモンが動脈硬化を起こしにくくしているのではないかとの仮説があり、閉経後の女性に女性ホルモンを補充し、心筋梗塞のリスクを下げようとする「ホルモン補充療法」が行われた。初期の観察データでは、心筋梗塞のリスクが低下するとのデータが示され、そのほかにも更年期障害に伴う症状を緩和する効果もあったため、健康に関心の高い女性に広く受け入れられた
90年代にランダム化比較試験を用い、閉経後の女性に対し補充療法を受ける群(介入群)と受けない群(対照群)の比較を行ったところ、試験開始の5年後の02年には、受けた女性のほうが乳がんの発生率が統計的に有意に高いことが判明し、被験者に健康被害を与えるということで研究は中止。その後の分析でも、療法を受けた女性の方が逆に心筋梗塞のリスクが高いことが分かった。背景には、当時ホルモン療法を受けていたのは教育レベルや所得が高い女性が中心で、そもそも健康への関心が高く、日頃の食事や運動など生活習慣も良かったため、そもそも心筋梗塞のリスクが低かったことがある
「健康への関心」という交絡因子の存在を検討せず、見せかけの相関に過ぎないものを因果関係と解釈したのではないかと考えられており、因果推論におけるランダム化比較試験の重要性が再認識された

第7章          偏差値の高い大学に行けば収入は上がるのか 
似た者同士の組み合わせを作る「マッチング法」
Ø  疑似試験の最後の方法が「マッチング法」 ⇒ 介入群によく似たペアを対照群の中から選び出すことによって、2つのグループを比較可能にする方法
選出の基準として用いる似た要素のことを「共変量」といい、複数の共変量をまとめて1つの得点にしたものが「プロペンシティ・スコア(=介入群に割り付けられる確率)」で、その得点を用いてマッチングを行う
Ø  前提条件は2つ ⇒ 1つは結果に影響を与えるようなすべての共変量が数値化されたデータとして存在していることであり、もう1つは全ての共変量がプロペンシティ・スコアの計算に用いられていること
Ø  「大学の偏差値」と「収入」の間の因果関係 ⇒ 卒業後の賃金に統計的に有意な差はなかった

第8章          ありもののデータを分析しやすい「回帰分析」
Ø  回帰分析には、単回帰分析と重回帰分析がある ⇒ 短回帰分析とは2つの変数の関係を評価する方法で、交絡因子の影響を除去できないが、重回帰分析では交絡因子の影響を除去した上で原因と結果の関係を評価できる
Ø  単回帰分析 ⇒ 4つのデータがあって、それぞれに原因と結果の組み合わせが与えられ、この2変数の間の因果関係を評価する場合、4つの点の間を通る「最適な線」を引く方法のことで、最適な線の傾きこそが原因の結果に対する「因果関係」になる。4つの点と間に引いた線との乖離距離を最小化する線が「最適な線」
Ø  重回帰分析 ⇒ 交絡因子の影響を除去したデータを選択。飲酒と肺がんの関係を検証する際、喫煙という交絡因子を除去するために、喫煙量の同じ人だけのデータを選べば、両者の因果関係の測定が可能
Ø  経済学で因果推論が出てきたのは1990年代のこと。臨床試験や治験が困難とされていたが、様々な方法で大規模な社会実験が可能となった ⇒ 経済学では、因果推論に基づいて政策の効果測定を行う研究領域のことを「政策評価」と呼び、近年その体系化が急速に進展

²  補論① 分析の「妥当性」と「限界」を知る
分析結果の妥当性を評価するための2つの概念 ⇒ 「内的妥当性」と「外的妥当性」
内的妥当性とは、2つの変数の間に因果関係がることの確からしさのことで、再現性の程度のこと
外的妥当性とは、研究の対象とは異なる集団に、その介入を行った場合に、同じ結果が再現される程度のこと。アメリカ人対象の検証結果がそのまま日本人に当てはまるとは限らない
観察データからでも因果関係を明らかにする方法はあるが、ランダム化比較試験の方が優れた方法であることは疑いの余地はないが、そこにも限界はある
第1      費用が掛かる
第2      「外的妥当性」の問題 ⇒ 研究対象者が厳選される分、結果の汎用性も限られる
第3      倫理的な問題から実施できないこともある
第4      計画通りにランダムな割り付けが出来ず「ランダム化の失敗」が起こり得る。実験の途中に群間で移動が起こることで生じる偏りもある
第5      試験の結果に基づいて社会全体に拡張して導入すると、測定効果が小さくなるという問題 ⇒ 試験の対象は厳選されるが、社会全体に広げると様々な対象者が含まれる

²  補論② 因果推論の5ステップ
ステップ1     「原因」は何か、を明確に定義する
ステップ2     「結果」は何か、を明確に定義する
ステップ3     3つのチェックポイント(1)の確認 ⇒ 「交絡因子」があれば「見せかけの相関」に過ぎない
ステップ4     反事実を作り出す ⇒ 「反事実」がなければ、「もっともらしい値」で置換える
ステップ5     比較可能になるよう調整 ⇒ 「もっともらしい値」で置換える有力な方法



(天声人語)ラーメン店が多いと……
2019.11.17. 朝日
 1人あたりのチョコレートの消費量が多い国ほど、ノーベル賞に輝く人の数が多い。米コロンビア大学の医師による、そんな分析結果があるそうだ。中室(なかむろ)牧子、津川友介(ゆうすけ)著『「原因と結果」の経済学』で紹介されていたチョコと賞に何の関わりが。首をひねりたくなるが、中室さんらは因果関係をこう推測する。チョコを贅沢(ぜいたく)品と位置づければ消費が多いのは豊かな国であろう。教育にもお金をかけられるので、ノーベル賞受賞者を輩出できる可能性が高まるのではないかことほどさように、ものごとの関連を突き止めるのは容易ではない。ではこちらはどうか。人口あたりのラーメン店の数が多い地域ほど、脳卒中による死亡率が高まる。自治医科大のグループがまとめた調査結果を本紙夕刊が伝えていたラーメン店の割合が上から10位以内の県のうち、青森、秋田、山形、新潟、栃木、鹿児島の6県で脳卒中の死亡率が男女とも10位以内だった。フランス料理店やそば店なども調べたが、傾向がはっきり出たのはラーメン店だけだもっともラーメンにばかり責任を負わせるのは短絡だろう。青森や秋田などは、塩辛い味付けを好むことで知られる。ラーメンをよく食べるから塩分を取るのか、しょっぱいもの好きだから店が増えるのか。他県も含め、食生活を省みるきっかけにはなる血圧が気になる当方も、最近はラーメン店で「味を薄くして」とお願いしている。安心してしまい、スープを飲みすぎるのが困りものだが。


コメント

このブログの人気の投稿

近代数寄者の茶会記  谷晃  2021.5.1.

新 東京いい店やれる店  ホイチョイ・プロダクションズ  2013.5.26.

自由学園物語  羽仁進  2021.5.21.