Comments
Description
Transcript
民間住宅ローン利用者の実態調査の結果に関する
3 民間住宅ローン利用者の実態調査の 結果に関する分析 住宅金融支援機構 調査部 専任研究員 外山 信夫(とやま のぶお) 1982年早稲田大学政治経済学部卒業後、住宅金融公庫入庫。日本経済研究センター経済分析部等を経て、2014年4月より現職。日 本統計学会会員 著書等「The R Book - データ解析環境R の活用事例集-」 (共著、九天社、2004 年) 、 「R によるGAM入門」 (共著、行動計量学 第34巻1号、2007 年)、 「R とSVM」 (共著、大阪電気通信大学情報科学センター、2008 年) 、 「実践R 統計分析」 (共著、オーム社、 2015 年)等 インターネット調査は、対象者が自発的に調査会社に会 1.はじめに はじめに 員登録した方に限られ、標本がランダム・サンプリング 住宅金融支援機構では、居住用の新規の民間住宅ロ によるものではないため、標本の背後にある母集団の特 ーンを借り入れされた方を対象*1として、利用した住宅ロ 徴を正確に反映したものではない。インターネット調査 ーンの金利タイプ等について調査を行い、年3回「民間 の委託先は、毎年、一般公開入札によって決定するため、 住宅ローン利用者の実態調査」として公表している。本 年度によって調査会社が異なりうる。調査会社が異なる 稿では、2012年度第1回から2015年度第2回までの調 と、各社ごとにアンケートの実施対象者である登録会員 査結果を分析する*2 。金利タイプごと、年度ごとの標本 の属性も異なる。標本の基本属性である年齢を、調査 (有効回答)数とその構成比は、図表1のとおりである。 会社ごとに比較したものが図表2である。調査会社によ 同調査は、ほぼ悉皆調査であるフラット35利用者調 り、属性に大きな違いがあることがわかる*3。 査とは異なり、インターネット調査によるサンプル調査で 第2に調査会社の登録会員の中から、調査対象期間 あり、インターネット調査会社に委託して実施している。 同調査から得られるデータは、他に類似の調査が筆者 の知る限り存在していないことから極めて貴重なもので ある。 ただし、本調査にはいくつかの限界がある。第1に、 図表2 年齢層と調査会社 調査会社・構成比 20歳代 30歳代 40歳代 50歳代 合 計 A社 741 2,154 1,467 639 5,001 B社 1,056 3,078 1,466 479 6,079 A社 B社 14.8% 17.4% 43.1% 50.6% 29.3% 24.1% 12.8% 7.9% 100.0% 100.0% 図表1 金利タイプ別・年度別の標本数及び構成比 年度・構成比 全 期 間 固 定 型 固定期間選択型 変 動 型 合 計 2012 752 797 1,759 3,308 2013 806 942 1,205 2,953 2014 769 851 1,151 2,771 2015 693 545 810 2,048 合計 3,020 3,135 4,925 11,080 2012 22.7% 24.1% 53.2% 100.0% 2013 27.3% 31.9% 40.8% 100.0% 2014 27.8% 30.7% 41.5% 100.0% 2015 33.8% 26.6% 39.6% 100.0% 全体 27.3% 28.3% 44.4% 100.0% (資料)住宅金融支援機構「民間住宅ローン利用者の実態調査」 。以下同じ *1 ただし、i)20歳以上60歳未満の方(学生の方及び無職の方を除く)に限り、ii)利用した住宅ローンも借換ローン、リフォームローン、土地のみのローン、 又はアパート若しくは投資用のローンを除き、フラット35を含む。 *2 調査年度は、毎年の3月から翌年の2月までとなっている。 *3 この場合は、調査会社は最近4年間では2社が交代で1年おきに担当している。 46 [レポート3]民間住宅ローン利用者の実態調査の結果に関する分析 中に新規に民間住宅ローンを利用した方が出現する率が の場合のように、分析の対象となる応答変数が2分類 極めて低いことである。このため標本数も限られたもの できる場合の回帰分析の手法として、ロジスティック回 となり、年3回に分割し、さらに属性ごとに細分化して 帰、プロビット回帰、補対数・対数回帰などが使用され いくと得られる結果がやや安定性を欠くものとなってしま てきた。なぜ、通常の線形回帰を使用しないのかという う。 疑問には、次のような理由がある。線形回帰では、推 このような制約はあるものの、上述したように、本調 定値が負の無限大から正の無限大までの値を取り得る。 査で得られるデータは貴重なものである。また、他に低 しかし、2分類問題では、ある観測値が一方のカテゴリ コストで同様な結果が得られる有効な代替手段はない。 ーに属する可能性は、確率の問題と捉えることができる。 したがって、毎回公表している本調査の集計結果と本 したがって、推定値が(0, 1)の間に収まらないと説明が 稿における分析結果は、ある程度の幅を持って見られる つかないのである。ロジスティック回帰などでは、応答 べきものである。 変数は必ず(0, 1)の範囲内に収まる。 2. 金利タイプは、どのような はじめに 変数で予測できるか。 しかし、カテゴリーが{全期間固定型, 固定期間選択 型, 変動型} のように3分類以上である場合は、どうであ ろうか。Fox and Weisberg(2011)は、このような場合、 分析で使用するデータは、大別して数値データとカテ ネストされたロジスティック回帰の使用を提案している。 ゴリカル・データに分かれる。後者は、さらに{全期間 すなわち、第1段階の推定では、 {全期間固定型, それ以 固定型, 固定期間選択型, 変動型}のように、特段の順 外}の2分類についてロジスティック回帰を行う。第2段 序のないもの (名義尺度データ又は因子と呼ばれる。 )と、 階では{それ以外}について{固定期間選択型, 変動型} {満足 > 普通 > 不満}のように自然な順序のあるもの のどちらに属するかを推定する。最後に、両者を合体し (順序尺度データ又は順序因子と呼ばれる。)に分かれ て最終的な結論を得るというものである。 る。数値データと順序因子の違いは、数値の1と2の差 だが、外山・辻谷(2015)は、この方法には欠陥があ は2と3の差に等しいのに対し、満足と普通の差は普通 ることを指摘している。第1段階の推定では{変動型,そ と不満の差に等しいとは限らないという点にある。 れ以外} を、第2段階で {全期間固定型, 固定期間選択型} 本節では、調査対象項目のうち順序のない因子の代 を推定することも可能である。ここで推定の順番は、完 表例として、金利タイプを取り上げる。金利タイプは、 全に分析者の恣意的な判断によっている。問題は、この 調査対象項目として把握できるもののうち、どのような ように推定の順番を変えると、2分割の順序によって推 変数によって決定されるだろうか。それを説明できるモ 定結果が異なってしまうことにある。 デルが構築できれば、金利タイプの変動要因の分析が 2.1 多項ロジスティック回帰による分析 可能となるとともに、各種属性から将来の金利タイプ動 このように、分類問題に単純なロジスティック回帰など 向を予測できるかもしれない。 の手法を使用することには、限界がある。ロジスティッ カテゴリカル・データが、 {全期間固定型, それ以外} ク回帰は、二項分布を前提としている。二項分布などの *4 正規分布、ポアソン分布、ガンマ分布などが、指数型分布族に含まれ、それぞれ線形回帰、ポアソン回帰、ガンマ回帰などの分析手法が対応する。 47 3 指数型分布族*4を仮定した各種の分析手法を、総称して その結果は図表3に示されている。ここで、対角線上に 一般化線形モデル(Generalized Linear Models:GLM) ある数値が正しく予測された観測値の件数、それ以外 という*5。 の数値は誤判別されたものである。誤判別率は、51.5% 2分類問題に二項分布に基づいた分析手法を使用す である。図表1にあるとおり、最もシェアが高い金利タ るのは素直な発想だが、多分類問題には多項分布に基 イプは変動型であり、その値は44.4%である。したが づいた分析手法を使用するのが自然である。問題は、 って、ランダムに44.4%の確率で変動型であると答えた 多項分布はGLMが前提とする指数型分布族に属してい 場合の正答率も44.4%であり、誤判別率は100.0%から ない点にある。この制約を取り払ったのが、Yee(2015) 44.4%を差し引いた値55.6%となる。モデルによる予測の のベクトル一般化線形モデル(Vector Generalized 誤判別率の51.5%はそれよりやや改善されているものの、 Linear Models:VGLM)であり、Yeeが作成したRパッケ 決して良好な成績ではない。 ージVGAMによって実行できる。 2.2 randomForestによる分析 ここでは、同パッケージを使用して、多項ロジスティッ そこで、方針を転換して、機械学習の分野でよく使用 ク回帰による分析を行った。応答変数は金利タイプであ されているrandomForestという分析手法を試みてみる。 るが、予測変数としては年齢、世帯年収、返済期間、 randomForestは、機械学習の分野でいうところのアン 融資率、返済負担率、都市圏、年度を使用した*6。推 サンブル学習の手法を採用している。アンサンブル学習 定と予測は、次のように行う。データをランダムに2分割 とは、個々のモデルを弱学習器として位置付け、多数発 し、一方のデータをモデル推定用の訓練データとする。 生させた弱学習器の総合力によって高精度の学習器を 他方は、訓練データに基づいて推定されたモデルが、 構成して統計分析(機械学習)を行う手法である。Rの 未知のデータに対してどれほど正確に予測できるかを試 パッケージrandomForestによって、実行することができ すための、検証データとする。推定された金利タイプご る。 との回帰係数*7は、世帯年収以外は0.1%水準で、世帯 具体的には、ツリーモデルという分析手法による統計 年収は1%水準で有意であった。推定結果の詳細は、 モデルを弱学習器として使用し、訓練データからランダ 紙幅の制約のため表示を割愛させていただく。 ムに選ばれたデータに対して、多数の(ここでは1000個 問題は、検証データに対する予測の正確性である。 とした。 )ツリーモデルを構成する。その多数決によって、 図表3 多項ロジスティック回帰による金利タイプの予測 図表4 randomForest による金利タイプの予測 全期間固定型 実 固定期間選択型 績 変動型 予 測 全期間 固定期間 固定型 選択型 370 297 244 363 218 235 変動型 866 995 1,952 全期間固定型 実 固定期間選択型 績 変動型 予 測 全期間 固定期間 固定型 選択型 1,230 89 50 1,348 76 92 変動型 *5 一般化線形モデルの易しい解説は外山・辻谷(2015)を、より詳細な解説はMcCullagh and Nelder(1989)を参照 *6 予測変数として当初金利を追加する選択肢もあるが、金利が低ければ変動型であるなどのことは自明なことなので、予測変数から外してある。 *7 多分類問題なので、予測変数は同じでも、カテゴリーごとに回帰係数は異なるのが一般的である。 *8 ツリーモデルとrandomForestについては、外山・辻谷(2015)に易しい解説がある。 48 214 204 2,237 [レポート3]民間住宅ローン利用者の実態調査の結果に関する分析 予測結果が決定されることになる*8。 体に占めるシェアにその区分の面積が比例するように作 とりあえず、検証データに対する予測結果から見てい 図されたモザイク・プロットである。意外なことに、変 こう。図表4がその結果である。対角線上に多くの件数 動型の方が返済期間が長いほどシェアが高くなってい が集まっている。誤判別率は、13.1%と大幅に改善して る。返済期間が長期になるほど、一般的には金利変動 いる。 リスクが高まると考えられるので、これは将来に禍根を randomForestの推定結果から、各予測変数の重要 残す状況といえるかもしれない。 度を比較することができる。それを図示したのが、図表 5である。 図表5によれば、金利タイプの決定に影響する予測変 3. 満足度の総合評価は、どの はじめに ような変数で予測できるか。 数のうち、最も重要度が高いのは返済期間である。返 民間住宅ローン利用者の実態調査では、利用者にい 済負担率と世帯年収がほぼ同じ程度の重要度で、これ くつかの項目ごとに住宅ローンに関する満足度を評価い に次いでいる。一方、重要度の低いのは都市圏 (首都圏、 ただいている。満足度は、 {大いに満足, やや満足, 普通, 東海圏、近畿圏又はその他)である。金利タイプについ やや不満, 大いに不満} の5段階評価によっており、典型 ては、地域別分析はあまり意味をなさない可能性が、こ 的な順序因子である。ここでは、総合評価に影響する こから示唆される。 変数を分析してみることとする。ただし、図表7に示し 最も重要度が高い返済期間と金利タイプの関係を示 たように「大いに不満」と回答した方は、わずか93件し したのが、図表6である。これは、各区分の件数が全 かないので、 「やや不満」と統合して「不満」として処理 図表5 各予測変数の重要度 49 3 図表6 返済期間と金利タイプ (%) 1.0 (金利タイプ) 変動 0.8 0.6 固定期間選択 0.4 全期間固定 0.2 0.0 (年) 図表7 総合評価の満足度別件数 大いに 満足 総合評価 1,969 やや 満足 4,744 普通 3,862 (件) やや 不満 412 大いに 不満 93 3.1 累積ロジスティック回帰による分析 ここでも、ベクトル一般化線形モデルの手法を利用す 実 績 することとする。 図表8 randomForestによる満足度の予測 (件) 予 測 大いに やや 普通 不満 満足 満足 大いに満足 950 14 4 0 やや満足 2 2,403 7 0 普通 4 15 1,886 1 績不満 0 1 3 250 ることは同じだが、順序因子の場合は、累積ロジスティ ック回帰で分析する。予測変数は、当初モデルでは年齢、 ほぼ完全に、実績と予測が一致している。誤判別率 世帯年収、返済期間、融資率、返済負担率、当初金利、 も、0.9%と極めて低い。これは、予測変数に当初金利 都市圏及び年度を使用した。このうち、都市圏は10% を入れた時点で、ある程度予想ができたことである。各 水準でも有意でなかったので、予測変数から除外した。 予測変数の重要度を図表9に示したが、圧倒的に当初 当てはめ直したモデルから予測された結果では、算出さ 金利の重要度が高い。 れる誤判別率は55.6%と芳しくない。そのため、実績と 予測の対比表の掲載は割愛する。 3.2 randomForestによる満足度の分析 ここまで述べてきたように、2分類であれ、多分類で 次に、randomForestによる分析を行う。使用した予 あれ、分類問題についてロジスティック回帰を使うメリッ 測変数は累積ロジスティック回帰の当初モデルと同じで トは、ほとんど無いと言えよう。 ある。実績と予測の対比表を図表8に示す。 50 4.おわりに はじめに [レポート3]民間住宅ローン利用者の実態調査の結果に関する分析 図表9 満足度に関する各予測変数の重要度 長年、大学で統計学を教えていたLeo Breimanは、 Generalized Linear Models, Second Edition. 統計モデルによる予測がなぜ当たらないのかという問題 Chapman & Hall/CRC に悩まされ続けていた。大学の職を辞した後、Breiman [4] R Core Team.(2015).R: A Language and En- 氏が一念発起して、構築したモデルがrandomForestで vironment for Statistical Computing. R Foundation ある。randomForestは、現在、最高の性能を有する統 for Statistical Computing. 計モデルの1つであると思う。今後は、より多方面で同 モデルが使用されることが望ましい。 [5] Y ee, T. W.(2015) .Vector Generalized Linear and Additive Models. Springer. [6] 外山 信夫、辻谷 将明(2015) .実践 R 統計分析. 参考文献 オーム社 [1] Liau, A. and Wiener, M.(2002) .Classication and Regression by randomForest. R News 2(3), 18-22. [2] Fox, J. and Weisberg, S.(2011) .An R Companion to Applied Regression, Second Edition. Sage. [3] M c Cu l l ag h , P. a nd Nelder, J. A . ( 1 9 8 9). 51