Comments
Description
Transcript
丸山の講演ファイル pdf - CSIS
Outline R で空間統計解析 丸山 祐造 東京大学 空間情報科学研究センター 2007.07.18 R は統計ソフトウェア I I I I 以前は SAS や SPSS を始めとする商用統計ソ フトウェアの独壇場だった フリーで高性能の R の登場で大きく変わりつ つある. まともな統計学者は,新しい手法に関する論 文を書くと同時に R のコードを配る.あるい はまとまった形で,パッケージ(後述)とし て公開する. Stanford の Friedman 教授 決定木 (CART) の 発案者として,データマイニング業界でも 有名 R の開発体制 R R R による統計解析 R による統計解析 R による空間統計解析 R による空間統計解析 それぞれについて,完全な説明は不可能なので, 聴衆の皆さんが R を使いたいと,思えるような例 や図をお見せしたい. 比較 R の歴史 競合するソフトウェアの特徴 I プログラム言語 C, Fortran など I I I 表計算ソフト EXCEL I I I I I I I GUI の操作,手軽にグラフィックス データ加工やプログラム作成には不向き 統計解析ソフト SAS,SPSS など I I 計算速度が速い プログラム作成が簡単でない I データ加工,プログラムが容易. グラフィックスも簡単.GUI. 非常に高価 R は?? R の動くプラットフォーム I I I R の特徴 I I I I I I 一流の統計学者のグループによる急速な改良 と拡張 開発を支える公式団体 R Foundation 第 2.3 版で日本語 (国際) 化.現在は 2.5 版 開発当初からできるだけ S-PLUS 互換を目 指す 現在では S-PLUS に十分匹敵,一部は凌駕す る機能を持つ I I I I I I Unix, Linux, Free BSD 等の Unix-like OS Microsoft Windows Mac OS X その他.zaurus SL シリーズなど 基本的には CUI アドオンパッケージ Rcmd により GUI モー ド でも実行可能 1980 年代 ベル研究所の Chambers 等が対話 的な統計解析環境として S 言語を開発 1988 年度の米国計算機学会 ソフトウェア部 門賞受賞 S-PLUS 等の商用ソフトとして世界の統計家・ ユーザーが使用 1991 年 ニュージーランドの統計学者 R. Ihaka, R. Gentleman が講義用にスキーム言語 のアイデアを用いた S 言語の独自な実装 1995 年,GNU GPL 条項の下で公開,フリー. 現在までに,全世界の統計家とユーザの熱狂 的な支持を獲得 I I I R には本体だけでも多様な標準的統計手法を 実装 システムそのものに,アドオンパッケージと 呼ばれるボランティアによる特定手法用の追 加機能を開発,利用するための完備した機構 が用意 社会科学,機械学習,遺伝学,多変量解析, ファイナンス,環境科学,空間統計学,計量 経済学など 現在の公開アドオンパッケージ数は約 1100. パッケージは容易に R 本体に追加でき,本来 の機能と区別無しに使える R の特徴 I I I I 統計解析以外にも,数値解析,線形代数,組 合せ論,データ処理,文字列処理などの関数 がある. インタプリタ言語.しかし,内部で C や Fortran が動いており,Excel より速いのはも ちろん,商用の Mathematica などよりも計算 が速い. 出版物レベルの高度なグラフィックス機能 pdf, eps, jpeg, png, windows metafile, bmp 解析結果を直ちにグラフィックス表示でき, 対話的にデータ解析を行える R の特徴 I I I I I 貧富の差無く使え,高機能・汎用性がある唯 一の本格的な統計システム 学校・自宅で制限無く実習でき,社会でも使 えるシステム 統計的手法の共通基盤,新しい統計手法がま ず実装されるワークベンチ 商用ソフトでは不可能なマイナーな手法の 実装 R を前提とした統計本の出版ラッシュ. 日本 でも既に 10 冊以上. 約 10 年前の文科 II 類の学生のデータ R に関する情報サイト I I 一次元のデータ I R R による統計解析 R による空間統計解析 I あなたの身長は何センチですか? I あなたの体重は何キロですか? I あなたの父親の身長は何センチですか? I I I あなたの母親の身長は何センチですか? I 通学時間は片道何分ですか? I アルバイトは週平均何時間ぐらいしていますか? I テレビを一日平均何分ぐらい見ますか? I I 煙草をすいますか? 1:はい, 0:いいえ I など,17 項目.n = 324 二次元以上のデータ I I I I I 各変数毎の分布だけでなく,変数間の関係が 重要 基本は散布図 関係の強さの定量的な指標が相関係数 P (x − x̄)(yi − ȳ ) pP i P (xi − x̄)2 (yi − ȳ )2 3 変数以上でも,2 変数の相関関係の組合せ を考えるのが基本 R の pairs を使うと,非常にわかりやすい 回帰分析 I I I まず説明変数が一つの単回帰分析 統計局統計センターにある社会・人口統計体 系のデータ I I I I Gakureki 最終学歴が大学・大学院卒の者の割合 Shushou 合計特殊出生率 県別のデータで単回帰分析 I Shushou = a + b × Gakureki + 確率的な誤差 データの様子を把握する基本は,度数分布, ヒストグラム より定量的に, , , 平均 どのあたりを中心に分布しているか 分散 ばらつき傾向.散らばっていれば大 きい. Pn Pn (xi − x̄)2 i=1 xi , 分散 i=1 平均 x̄ = n n 平均と分散だけだと集約しすぎ? alternative (最小値,下側 25%点,中央値, 上側 25%点,最大値) グラフに描いたものが箱ひげ図 重回帰分析 I I 公式サイト The R Project for Statistical Computing http://www.r-project.org/ R 本体,貢献パッケージ,公式マニュアル 等,開発者,ユーザー向けの三つの ML によ る活発な情報交換 日本ユーザーサイト RjpWiki http://www.okada.jp.org/RWiki/ 豊富な Tips 集,R に関する様々な日本語情 報,日本語マニュアル等,リンク集,Q&A コーナー I 興味のある変数 y を,y に関係する変数(説 明変数)を用いて言い当てたい,あるいは予 測したい. 関係するかどうかは,事前に分からないの で,関係しそうなものもそうでないものも, 使えそうなものは全て候補に加える. それらを x1 , . . . , xp とする 線形和として言い当てる(予測する) ŷ = a0 + a1 x1 + · · · + ap xp 重回帰分析 変数選択の重要性 ベストモデルの選択方法 ベストモデルの選択方法 I I I I 役に立たない変数を含めても,役に立つ変数 が含まれなくても性能が悪くなる. 役に立つ変数だけのベストの組み合わせを選 びたい. つまり,役に立たない変数を除いて ŷ = a0 + a2x2 + a7x7 + · · · + ap−1xp−1 I I submodel は 2 個ある.p = 10 だと 210 = 1024 例えば, p n log(残差平方和) + 2 × 説明変数の個数 I のようなモデルを作るのが目的 各サブモデルに一次元の量を対応させて,そ の大小でモデルの良さを比較出来れば,嬉 しい. I I I GIS 業界への最近の貢献 R I R による統計解析 I I R による空間統計解析 I GIS 業界への最近の貢献 I I I 同じく牧山さん シェープファイル ⇒google earth の kml 形式に変換する R のプログラムを Rjpwiki に投稿 有料では複数のソフトがあるが,フリーでは R だけ(らしい) 牧山さん & なかまさん Google や Yahoo の MapAPI を用いたジオコー ディング シェープファイル(ESRI Shapefile)は,ESRI 社の提唱した,公開されたベクタデータの業 界標準フォーマット ESRI・ERDAS 製品はもちろん,多くの GIS ソ フトウェアで利用が可能 無料のソフトを用いてシェープファイルの編 集・加工をすることは(一部のソフトを除い て)できない R では shapefiles,maptools を用いてシェープ ファイルの編集・加工をすることが可能 R の空間統計用パッケージ 当初,複数の空間統計解析用のパッケージが独立 に開発されていたが,2003 年から Roger Bivand さ んや Edzer Pebesma さんを中心にまとまった. I 空間データ用の共通のクラス sp やそのメ ソッド I シェープファイルの読み書き I GIS や OGR/GDAL と密な連携. I 既存の空間統計解析用パッケージとの連携 (geoR/geoRglm, gstat, spatstat, splancs, DCluster, spdep, ...) http://www.r-project.org/Rgeo BIC (Bayesian Criterion) n log(残差平方和) + log(サンプル数) × 説明変数の個数 ŷ = a0 + a2x2 + a7 x7 I AIC (the Akaike Information Criterion) AIC や BIC は小さい方が望ましい指標 残差平方和は説明変数の個数が増えると,小 さくなる R では,関数 step を使って容易に AIC や BIC に基づく説明変数の選択が可能. GIS 業界への最近の貢献 I I 牧山さん(Rjpwiki でのペンネームは okinawa) 2005 年に,ESRIJapan が公開している全国市 区町村境界データの県別の切り出しを行い, Rjpwiki に置いた(もちろん ESRI の許可を得 ている) もちろん最近では,国土数値情報データ変換 ツールなどで街区レベル位置参照情報データ で自分の好みの地域の shapefile が作成できる が,先駆的役割を果たしたと言える. 空間予測 クリギング I I 興味の対象となる変数 y の観測されていない 地点での値を予測空間データを分析する場合 の大きな目的の一つ 興味の対象となる変数の観測値,観測地点間 の位置関係,および観測地点と観測しようと する地点との位置関係などを考慮に入れて, 興味の対象となる変数の値を予測 クリギ ング クリギング I I I I クリギング n 個の観測地点 u1, . . . , un で予測の対象となる 変数についての観測値が得られている. それを y1 , . . . , yn とする 未観測地点 u0 での予測の対象となる変数 y の 値を言い当てたい.⇒ 空間予測 予測量は,通常 y1 から yn の線形和 a1 y 1 + · · · + a n y n I 最小二乗法のような基準で,a1, . . . , an を最 適化する. I a1 , . . . , an は, I I I I I I まとめ 観測地点 u1 , . . . un の間の位置関係 観測地点 u1 , . . . un と未観測地点 u0 の位置関係 空間相関として与える統計モデル 推定方法,最尤法 or · · · 説明変数があれば,説明変数 などによって決まる. u0 を対象となる領域全体を動かすと,予測面 が出来る. I I I R はフリーであり,OS を選ばず自由に自分の 手近にあるパソコンにインストール出来る. Rjpwiki などに,日本語の情報があり,簡単な ことはすぐに出来るようになる. 是非使って下さい! !