民間住宅ローン利用者の実態調査の結果に関する

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download 民間住宅ローン利用者の実態調査の結果に関する

Transcript

民間住宅ローン利用者の実態調査の結果に関する

3
民間住宅ローン利用者の実態調査の
結果に関する分析
住宅金融支援機構調査部専任研究員
外山信夫（とやまのぶお）
1982年早稲田大学政治経済学部卒業後、住宅金融公庫入庫。日本経済研究センター経済分析部等を経て、2014年４月より現職。日
本統計学会会員
著書等「The R Book －データ解析環境R の活用事例集－」
（共著、九天社、2004 年）
、
「R によるGAM入門」
（共著、行動計量学
第34巻１号、2007 年）、
「R とSVM」
（共著、大阪電気通信大学情報科学センター、2008 年）
、
「実践R 統計分析」
（共著、オーム社、
2015 年）等
インターネット調査は、対象者が自発的に調査会社に会
1．はじめに
はじめに
員登録した方に限られ、標本がランダム・サンプリング
住宅金融支援機構では、居住用の新規の民間住宅ロ
によるものではないため、標本の背後にある母集団の特
ーンを借り入れされた方を対象＊1として、利用した住宅ロ
徴を正確に反映したものではない。インターネット調査
ーンの金利タイプ等について調査を行い、年３回「民間
の委託先は、毎年、一般公開入札によって決定するため、
住宅ローン利用者の実態調査」として公表している。本
年度によって調査会社が異なりうる。調査会社が異なる
稿では、2012年度第１回から2015年度第２回までの調
と、各社ごとにアンケートの実施対象者である登録会員
査結果を分析する＊2 。金利タイプごと、年度ごとの標本
の属性も異なる。標本の基本属性である年齢を、調査
（有効回答）数とその構成比は、図表１のとおりである。
会社ごとに比較したものが図表２である。調査会社によ
同調査は、ほぼ悉皆調査であるフラット３５利用者調
り、属性に大きな違いがあることがわかる＊3。
査とは異なり、インターネット調査によるサンプル調査で
第２に調査会社の登録会員の中から、調査対象期間
あり、インターネット調査会社に委託して実施している。
同調査から得られるデータは、他に類似の調査が筆者
の知る限り存在していないことから極めて貴重なもので
ある。
ただし、本調査にはいくつかの限界がある。第１に、
図表２　年齢層と調査会社
調査会社・構成比
20歳代
30歳代
40歳代
50歳代
合　計
A社
741
2,154
1,467
639
5,001
B社
1,056
3,078
1,466
479
6,079
A社
B社
14.8% 17.4%
43.1% 50.6%
29.3% 24.1%
12.8%
7.9%
100.0% 100.0%
図表１　金利タイプ別・年度別の標本数及び構成比
年度・構成比
全期間固定型
固定期間選択型
変
動
型
合　計
2012
752
797
1,759
3,308
2013
806
942
1,205
2,953
2014
769
851
1,151
2,771
2015
693
545
810
2,048
合計
3,020
3,135
4,925
11,080
2012
22.7%
24.1%
53.2%
100.0%
2013
27.3%
31.9%
40.8%
100.0%
2014
27.8%
30.7%
41.5%
100.0%
2015
33.8%
26.6%
39.6%
100.0%
全体
27.3%
28.3%
44.4%
100.0%
（資料）住宅金融支援機構「民間住宅ローン利用者の実態調査」
。以下同じ
＊1　ただし、i）20歳以上60歳未満の方（学生の方及び無職の方を除く）に限り、ii）利用した住宅ローンも借換ローン、リフォームローン、土地のみのローン、
又はアパート若しくは投資用のローンを除き、フラット３５を含む。
＊2　調査年度は、毎年の３月から翌年の２月までとなっている。
＊3　この場合は、調査会社は最近４年間では２社が交代で１年おきに担当している。
46
［レポート３］民間住宅ローン利用者の実態調査の結果に関する分析
中に新規に民間住宅ローンを利用した方が出現する率が
の場合のように、分析の対象となる応答変数が２分類
極めて低いことである。このため標本数も限られたもの
できる場合の回帰分析の手法として、ロジスティック回
となり、年３回に分割し、さらに属性ごとに細分化して
帰、プロビット回帰、補対数・対数回帰などが使用され
いくと得られる結果がやや安定性を欠くものとなってしま
てきた。なぜ、通常の線形回帰を使用しないのかという
う。
疑問には、次のような理由がある。線形回帰では、推
このような制約はあるものの、上述したように、本調
定値が負の無限大から正の無限大までの値を取り得る。
査で得られるデータは貴重なものである。また、他に低
しかし、２分類問題では、ある観測値が一方のカテゴリ
コストで同様な結果が得られる有効な代替手段はない。
ーに属する可能性は、確率の問題と捉えることができる。
したがって、毎回公表している本調査の集計結果と本
したがって、推定値が（0, 1）の間に収まらないと説明が
稿における分析結果は、ある程度の幅を持って見られる
つかないのである。ロジスティック回帰などでは、応答
べきものである。
変数は必ず（0, 1）の範囲内に収まる。
２. 金利タイプは、どのような
はじめに
変数で予測できるか。
しかし、カテゴリーが｛全期間固定型, 固定期間選択
型, 変動型｝
のように３分類以上である場合は、どうであ
ろうか。Fox and Weisberg（2011）は、このような場合、
分析で使用するデータは、大別して数値データとカテ
ネストされたロジスティック回帰の使用を提案している。
ゴリカル・データに分かれる。後者は、さらに｛全期間
すなわち、第１段階の推定では、
｛全期間固定型, それ以
固定型, 固定期間選択型, 変動型｝のように、特段の順
外｝の２分類についてロジスティック回帰を行う。第２段
序のないもの
（名義尺度データ又は因子と呼ばれる。
）と、
階では｛それ以外｝について｛固定期間選択型, 変動型｝
｛満足 > 普通 > 不満｝のように自然な順序のあるもの
のどちらに属するかを推定する。最後に、両者を合体し
（順序尺度データ又は順序因子と呼ばれる。）に分かれ
て最終的な結論を得るというものである。
る。数値データと順序因子の違いは、数値の１と２の差
だが、外山・辻谷（2015）は、この方法には欠陥があ
は２と３の差に等しいのに対し、満足と普通の差は普通
ることを指摘している。第１段階の推定では｛変動型,そ
と不満の差に等しいとは限らないという点にある。
れ以外｝
を、第２段階で
｛全期間固定型, 固定期間選択型｝
本節では、調査対象項目のうち順序のない因子の代
を推定することも可能である。ここで推定の順番は、完
表例として、金利タイプを取り上げる。金利タイプは、
全に分析者の恣意的な判断によっている。問題は、この
調査対象項目として把握できるもののうち、どのような
ように推定の順番を変えると、２分割の順序によって推
変数によって決定されるだろうか。それを説明できるモ
定結果が異なってしまうことにある。
デルが構築できれば、金利タイプの変動要因の分析が
2.1　多項ロジスティック回帰による分析
可能となるとともに、各種属性から将来の金利タイプ動
このように、分類問題に単純なロジスティック回帰など
向を予測できるかもしれない。
の手法を使用することには、限界がある。ロジスティッ
カテゴリカル・データが、
｛全期間固定型, それ以外｝
ク回帰は、二項分布を前提としている。二項分布などの
＊4　正規分布、ポアソン分布、ガンマ分布などが、指数型分布族に含まれ、それぞれ線形回帰、ポアソン回帰、ガンマ回帰などの分析手法が対応する。
47
3
指数型分布族＊4を仮定した各種の分析手法を、総称して
その結果は図表３に示されている。ここで、対角線上に
一般化線形モデル（Generalized Linear Models:GLM）
ある数値が正しく予測された観測値の件数、それ以外
という＊5。
の数値は誤判別されたものである。誤判別率は、51.5%
２分類問題に二項分布に基づいた分析手法を使用す
である。図表１にあるとおり、最もシェアが高い金利タ
るのは素直な発想だが、多分類問題には多項分布に基
イプは変動型であり、その値は44.4%である。したが
づいた分析手法を使用するのが自然である。問題は、
って、ランダムに44.4%の確率で変動型であると答えた
多項分布はGLMが前提とする指数型分布族に属してい
場合の正答率も44.4%であり、誤判別率は100.0%から
ない点にある。この制約を取り払ったのが、Yee（2015）
44.4%を差し引いた値55.6%となる。モデルによる予測の
のベクトル一般化線形モデル（Vector Generalized
誤判別率の51.5%はそれよりやや改善されているものの、
Linear Models:VGLM）であり、Yeeが作成したRパッケ
決して良好な成績ではない。
ージVGAMによって実行できる。
2.2　randomForestによる分析
ここでは、同パッケージを使用して、多項ロジスティッ
そこで、方針を転換して、機械学習の分野でよく使用
ク回帰による分析を行った。応答変数は金利タイプであ
されているrandomForestという分析手法を試みてみる。
るが、予測変数としては年齢、世帯年収、返済期間、
randomForestは、機械学習の分野でいうところのアン
融資率、返済負担率、都市圏、年度を使用した＊6。推
サンブル学習の手法を採用している。アンサンブル学習
定と予測は、次のように行う。データをランダムに２分割
とは、個々のモデルを弱学習器として位置付け、多数発
し、一方のデータをモデル推定用の訓練データとする。
生させた弱学習器の総合力によって高精度の学習器を
他方は、訓練データに基づいて推定されたモデルが、
構成して統計分析（機械学習）を行う手法である。Rの
未知のデータに対してどれほど正確に予測できるかを試
パッケージrandomForestによって、実行することができ
すための、検証データとする。推定された金利タイプご
る。
との回帰係数＊7は、世帯年収以外は0.1%水準で、世帯
具体的には、ツリーモデルという分析手法による統計
年収は１%水準で有意であった。推定結果の詳細は、
モデルを弱学習器として使用し、訓練データからランダ
紙幅の制約のため表示を割愛させていただく。
ムに選ばれたデータに対して、多数の（ここでは1000個
問題は、検証データに対する予測の正確性である。
とした。
）ツリーモデルを構成する。その多数決によって、
図表３多項ロジスティック回帰による金利タイプの予測
図表４　randomForest による金利タイプの予測
全期間固定型
実
固定期間選択型
績
変動型
予　測
全期間固定期間
固定型
選択型
370
297
244
363
218
235
変動型
866
995
1,952
全期間固定型
実
固定期間選択型
績
変動型
予　測
全期間固定期間
固定型
選択型
1,230
89
50
1,348
76
92
変動型
＊5　一般化線形モデルの易しい解説は外山・辻谷（2015）を、より詳細な解説はMcCullagh and Nelder（1989）を参照
＊6　予測変数として当初金利を追加する選択肢もあるが、金利が低ければ変動型であるなどのことは自明なことなので、予測変数から外してある。
＊7　多分類問題なので、予測変数は同じでも、カテゴリーごとに回帰係数は異なるのが一般的である。
＊8　ツリーモデルとrandomForestについては、外山・辻谷（2015）に易しい解説がある。
48
214
204
2,237
［レポート３］民間住宅ローン利用者の実態調査の結果に関する分析
予測結果が決定されることになる＊8。
体に占めるシェアにその区分の面積が比例するように作
とりあえず、検証データに対する予測結果から見てい
図されたモザイク・プロットである。意外なことに、変
こう。図表４がその結果である。対角線上に多くの件数
動型の方が返済期間が長いほどシェアが高くなってい
が集まっている。誤判別率は、13.1%と大幅に改善して
る。返済期間が長期になるほど、一般的には金利変動
いる。
リスクが高まると考えられるので、これは将来に禍根を
randomForestの推定結果から、各予測変数の重要
残す状況といえるかもしれない。
度を比較することができる。それを図示したのが、図表
５である。
図表５によれば、金利タイプの決定に影響する予測変
３. 満足度の総合評価は、どの
はじめに
ような変数で予測できるか。
数のうち、最も重要度が高いのは返済期間である。返
民間住宅ローン利用者の実態調査では、利用者にい
済負担率と世帯年収がほぼ同じ程度の重要度で、これ
くつかの項目ごとに住宅ローンに関する満足度を評価い
に次いでいる。一方、重要度の低いのは都市圏
（首都圏、
ただいている。満足度は、
｛大いに満足, やや満足, 普通,
東海圏、近畿圏又はその他）である。金利タイプについ
やや不満, 大いに不満｝
の５段階評価によっており、典型
ては、地域別分析はあまり意味をなさない可能性が、こ
的な順序因子である。ここでは、総合評価に影響する
こから示唆される。
変数を分析してみることとする。ただし、図表７に示し
最も重要度が高い返済期間と金利タイプの関係を示
たように「大いに不満」と回答した方は、わずか93件し
したのが、図表６である。これは、各区分の件数が全
かないので、
「やや不満」と統合して「不満」として処理
図表５　各予測変数の重要度
49
3
図表６　返済期間と金利タイプ
（％）
1.0
（金利タイプ）
変動
0.8
0.6
固定期間選択
0.4
全期間固定
0.2
0.0
（年）
図表７　総合評価の満足度別件数
大いに
満足
総合評価 1,969
やや
満足
4,744
普通
3,862
（件）
やや
不満
412
大いに
不満
93
3.1　累積ロジスティック回帰による分析
ここでも、ベクトル一般化線形モデルの手法を利用す
実績することとする。
図表８　randomForestによる満足度の予測（件）
予　測
大いにやや
普通
不満
満足
満足
大いに満足
950
14
4
0
やや満足
2
2,403
7
0
普通
4
15
1,886
1
績不満
0
1
3
250
ることは同じだが、順序因子の場合は、累積ロジスティ
ック回帰で分析する。予測変数は、当初モデルでは年齢、
ほぼ完全に、実績と予測が一致している。誤判別率
世帯年収、返済期間、融資率、返済負担率、当初金利、
も、0.9%と極めて低い。これは、予測変数に当初金利
都市圏及び年度を使用した。このうち、都市圏は10%
を入れた時点で、ある程度予想ができたことである。各
水準でも有意でなかったので、予測変数から除外した。
予測変数の重要度を図表９に示したが、圧倒的に当初
当てはめ直したモデルから予測された結果では、算出さ
金利の重要度が高い。
れる誤判別率は55.6%と芳しくない。そのため、実績と
予測の対比表の掲載は割愛する。
3.2　randomForestによる満足度の分析
ここまで述べてきたように、２分類であれ、多分類で
次に、randomForestによる分析を行う。使用した予
あれ、分類問題についてロジスティック回帰を使うメリッ
測変数は累積ロジスティック回帰の当初モデルと同じで
トは、ほとんど無いと言えよう。
ある。実績と予測の対比表を図表８に示す。
50
４．おわりに
はじめに
［レポート３］民間住宅ローン利用者の実態調査の結果に関する分析
図表９　満足度に関する各予測変数の重要度
長年、大学で統計学を教えていたLeo Breimanは、
Generalized Linear Models, Second Edition.
統計モデルによる予測がなぜ当たらないのかという問題
Chapman & Hall/CRC
に悩まされ続けていた。大学の職を辞した後、Breiman
[4] R Core Team.（2015）．R: A Language and En-
氏が一念発起して、構築したモデルがrandomForestで
vironment for Statistical Computing. R Foundation
ある。randomForestは、現在、最高の性能を有する統
for Statistical Computing.
計モデルの１つであると思う。今後は、より多方面で同
モデルが使用されることが望ましい。
[5] Y
ee, T. W.（2015）
．Vector Generalized Linear and
Additive Models. Springer.
[6] 外山　信夫、辻谷　将明（2015）
．実践 R 統計分析.
参考文献
オーム社
[1] Liau, A. and Wiener, M.（2002）
．Classication and
Regression by randomForest. R News 2(3), 18-22.
[2] Fox, J. and Weisberg, S.（2011）
．An R Companion
to Applied Regression, Second Edition. Sage.
[3] M c Cu l l ag h , P. a nd Nelder, J. A . （ 1 9 8 9）．
51