Comments
Description
Transcript
Stata+α 「散布図」
Stata+α 「散布図」 2014 年 4 月 今月ご紹介する内容は Stata13 の PDF マニュアル[G]Graphics にある graph twoway scatter の内容に復習用の素材を追加したものです。今月は操作する内容が比較的多いので、 学習のポイントを先にまとめておきます。 学習のポイント) ■関数 ceil() ■ブール演算 ■グラフスキーム ■対数軸 ■軸目盛のカスタムルール ■グリッド線 ■Variables Manger ダイアログ サンプルデータはすべて Stata をインストールした PC 内部や、Stata 社のウェブサイトに 用意されているものを利用します。 1 月の「ヒトストグラム」 、2 月の「ボックスプロット」を読んでから、今回の「散布図」 に取り組んでください(重複する項目は解説しません)。グラフの作成については基本的に、 コマンドの直接入力ではなく、メニュー操作による方法をご紹介します。 次のコマンドでサンプルデータを取り込み、codebook でデータの内容を確認します。 .webuse uslifeexp2,clear .codebook 散布図の作成ならば、Scatter ですが、最初にシンボルを線で接続した Connected のグラフ を作成してみましょう。 1 図 1.グラフ作成のダイアログ 40 45 life expectancy 50 55 60 65 次のようなグラフができたでしょうか。 1900 1910 1920 Year 1930 1940 図 2.データ点をつないだグラフ 少しおさらいをしましょう。このデータは時系列に調査した平均寿命ですが、これを調査 年=偶数または奇数の 2 つに分けて、あたかも異なる 2 つの時系列データであるかのような 図 3 を作ってみましょう。 2 65 60 life expectancy 50 55 45 40 1900 1910 1920 Year odd 1930 1940 even 図 3.偶数/奇数年データのグラフ データを 2 つに分けるやり方はいくつか考えられます。ここで次のコマンドを利用しまし た。 .g x=year/2 .g k=ceil(x) .g mark=(x==k) 最初に西暦の year を 2 で割って変数 x を作成します。次に関数 ceil で x から、変数 k を作 成します。もし、ceil(950.5)と いうパターンなら k は 951 と なります。つまり、ceil()は x よりも大きく、一番近い整数を 返す関数です。3 番目のコマン ドは、x と k が等しい(偶数の) 場合に mark に 1 を、不一致(奇 数)の場合、0 を代入します(ブ ール演算)。ここまで準備がで きたら、次のように設定してグ ラフを作成します。 図 4.図 3 のグラフを作成するためのダイアログの設定 3 ポイントは Plot 1 および Plot 2 のダイアログで if の条件タブに mark==0 と mark==1 を 設定することです。このように操作すると、図 3 のグラフを作成できます。 次は 2 枚のグラフを重ねるのではなく、左右に並べた図 5 のグラフを作成してみましょう。 まずはグラフ作成のダイアログでリセットボタンをクリックしてください。リセットボタ ンは「ボックスプロット」の号で解説済です。 1 60 50 40 life expectancy 70 0 1900 1910 1920 1930 19401900 1910 1920 Year Graphs by mark 図 5.mark で 2 つに分けたグラフ 今度はグラフ作成の By のタブを利用します。 図 6.By タブの利用 4 1930 1940 図 6 のダイアログはグラフ全体に対する効果を設定します。 さて、ここからは散布図の作成と、グラフの編集テクニックについて解説します。 スキームの利用 最初に紹介する scheme(スキーム)はグラフのデザインテンプレートを利用する機能です。 グラフウィンドウが開いていたら、それを閉じてください。そして、改めてグラフ作成の ダイアログを開きます。既存の設定が残っていたらリセットボタンをクリックしてクリア してください。 改めて、次のような散布図作成のダイアログを表示します。Plot1 のタブで Y 変数に le、X 変数に year を同様に選択します。次に Overall のタブを表示し、Scheme の項目で Economist を選択します。 図 7.Overall タブで Scheme を選択する OK ボタンをクリックし、続けて Submit ボタン 65 をクリックすると、左のようなグラフを作成し ます。 55 50 45 40 1900 1910 1920 Year 1930 1940 life expectancy 60 Scheme オプションとして Economist を用いる と、英国エコノミスト誌のグラフデザインを用 いてグラフを表現します。いろいろなスキーム が用意されていますので、試してみましょう。 さらに、「ボックスプロット」の号で解説した Graph Editor の Object Browser を利用して次 のような情報を追加してください。 図 8.Economist Scheme 5 タイトル:Scatterplot サブタイトル:Life expectancy at birth, U.S. ノート:1 キャプション:Source:National Vital Statistics Report, Vol.50 No.6 図 9.グラフエディタにおけるタイトルの入力 Text の項目に文字列を入力したら、必ず 1 Scatterplot Enter キーを押します。結果として次の Life expectancy at birth, U.S. ようなグラフになります。 65 図 7 でご覧いただいたようにスキームに 55 50 life expectancy 60 45 1900 1910 1920 Year 1930 40 1940 Source:National Vital Statistics Report, Vol.50 No.6 図 10.スキームを活用したグラフ 6 は幾つかの種類が用意されていますので、 是非、お試しください。 軸のカスタマイズ 最後に軸をカスタマイズするテクニックを紹介します。目的は各国の一人当たり GNP と平 55 60 Life expectancy at birth 65 70 75 80 均寿命の関係について次のような散布図を作ることです。 .5 2.5 10 GNP per capita,thousands of dollars 20 30 40 図 11.カスタマイズした散布図 最初に新しいデータの読み込みます。 .webuse lifeexp,clear 80 そしてメニュー操作で散布図を作成します。 X 軸に変数 gnppc、Y 75 軸に平均寿命 lexp を設 Life expectancy at birth 65 70 定し、散布図を作成し 55 60 ます。 0 10000 20000 GNP per capita 30000 40000 図 12. 各国の一人当たり GNP と平均寿命の散布図 7 10000 未満のデータ部が密集していますので、X 軸を対数目盛に変更します。同じように操 作して次のダイアログで Axis scale properties のボタンをクリックします。 図 13.Twoway ダイアログ 図 14 のスケールを調整するダイアログで対数スケールの利用を選択して Accept ボタンを クリックします。 図 14. 軸スケールのプロパティダイアログ データの分布は見やすくなりましたが、対数軸目盛りの左側の数値が重なってしましまし た。 8 80 75 Life expectancy at birth 65 70 60 55 10000 2000030000 40000 GNP per capita 図 15. 対数軸に変更した散布図 そこで、次に示す編集方針に則って、グラフをカスタマイズします。 ステップ 1)そもそも GNP の桁数が多いので、新しい変数 gnp000 を作成する。つまり、 GNP を 1000 で割って桁数を調整する。 ステップ 2)X 軸のラベルを現状の 10000,20000,30000,40000 から、0.5,2.5,10,20,30,40 に 変更する。 ステップ 3)X 軸にグリッドライン(縦線)を引く。 ステップ 4)gnp000 に「GNP per capita, thousands of dollars」というラベルを付けてグラ フの見栄えを整える。 それでは、早速、このステップにしたがってグラフを加工していきます。 ステップ 1)次のコマンドで新しい変数 gnp000 を作成します。 .g gnp000=gnppc/1000 ステップ 2)グラフ作成のダイアログで変数を gnp000 に変更します。 9 図 16.変数を変更する そして、前出の Twoway のダイアログ(図 13)で Major tick/label properties のボタンをク リックします。ダイアログに目的の情報(X 値)である.5 2.5 10 20 30 40 という情報をスペー ス区切りで入力します。 図 17. 軸目盛りのカスタマイズオプション ステップ 3)同じダイアログの Grid タブを利用して、X 軸にグリッドライン(縦線)を引きま す。 図 18.グリッドラインの設定ダイアログ 10 Two-way のダイアログで OK ボタンをクリックしてグラフ作成のダイアログを一度、閉じ ます。 ステップ 4)図 13 の Twoway ダイアログを利用して、X 軸タイトルに GNP per capita, thousands of dollars と表示します。次に示すツールバーで Variables Manager のアイコン をクリックします。 図 19.Variables Manager ダイアログ Variable Manager のダイアログの左側のリストで変数 gnp000 を選択し、右側の Label テ キストボックスに目的の情報を入力します。 図 20.Variables Manager ダイアログ このように設定し、改めて散布図を作成しますと、図 11 のグラフが作成できます。 データのインポートから始まり、一変量についてのヒストグラム、ボックスプロット、そ して二変量による散布図と進んできました。次回は相関というテーマでお届けしたいと思 います。 ■ 11