Comments
Description
Transcript
JMP 10のグラフビルダーで作成できるグラフ
JMP 10 のグラフビルダーで作成できるグラフ SAS Institute Japan 株式会社 JMP ジャパン事業部 2012 年 9 月 作成 1.はじめに グラフビルダーは、 グラフを対話的に作成するツールです。グラフビルダーでは、グラフの種類を選択することにより、散布図、折 れ線グラフ、棒グラフなどさまざまなグラフを作成することができます。さらに、グループ変数を用いて、グラフを縦や横に分割する ことができ、複数の変数における変数間の関係を調べることができます。 データ分析では、データを集めた後にグラフを描き、データを眺めることが重要です。グラフから何らかの結論が導かれたり、さら なる分析で変数間の関連性を調べたりします。グラフビルダーは、さまざまな方向からデータを眺める手助けをします。 グラフビルダーは、JMP 8 で初めて追加されたツールですが、JMP 9, JMP 10 とさまざまな機能拡張が行われています。 本文書では、JMP 10 のグラフビルダーの機能を用いて作成できるグラフ、特徴などをご説明します。 2.グラフビルダーの基本操作 この章では、グラフビルダーの基本操作について説明するため、JMP のサンプルデータ「Diamond Data.jmp」 (図 1)を用いま す。 図 1 「Diamond Data」 : 行数 2690, 列数 8 1 このデータは、ダイアモンドの価格(「価格」)に対する、評価の影響を調べるために収集されたものです。影響と考えられるものは、 「カラット重量」、「カラー」、「クラリティー」、「深さ」、「テーブル径」、「カット」、「鑑定機関」の 7 つになります。 特に、「カラット重量」、 「カラー」、「クラリティー」、「カット」は、4C と呼ばれ、ダイヤモンドの品質を評価する基準となっています。 まずは [一変量の分布] を用い、各変数の分布状況を確認してみます。図 2 は、[一変量の分布]において [ヒストグラ ムのみ]にチェックをして、出力したレポートになります。 図 2 変数のヒストグラム 「カラー」の値は、D(良い)~K(悪い) 、「クラリティー」の値は、IF(良い) ~ SI2(悪い) です。 [グラフ] メニューより [グラフビルダー] を選択すると、「グラフビルダー」のウィンドウが起動します(図 3)。グラフ領域にはドロ ップゾーンがあり、左側の「変数」ボックスからドラッグしてきた変数をドロップすることができます。 図 3 グラフビルダーのウィンドウ ウィンドウ上側には、グラフビルダーで描けるグラフをアイコン化しています。このアイコンをクリックすることにより、簡単にグラフ を変更、追加することができます。 各アイコンの役割は、アイコンにマウスを近づけると、ポップアップヒントとして表示されます。 2 「価格」の分布の把握、「価格」と他の変数との関連性をみるために、[グラフビルダー] を用いて、グラフを描いてみます。 まずは、「価格」に対するグラフを描いてみます。 【操作: Y に連続変数を追加】 1. [グラフ] > [グラフビルダー] を選択します。 2. 「価格」をドラッグし、「Y」 ゾーンにドロップします。 外れ値の箱ひげ図が描かれます。(注意:データ数が少ない場合は、点のプロットが描かれます。) 図 4 「価格」 の箱ひげ図 図 4 より、上側のひげが長くなっていることがわかります。この図に実際の点を追加してみます。 既存のグラフに対し、新たに別のグラフを追加するには、グラフを右クリックして表示されるメニューより、[追加] から描きたいグラ フを選択するか、グラフ上のアイコン群より、Shift キーをクリックしながら、描きたいグラフのアイコンをクリックします。 3 【操作: グラフの追加】 3. グラフ上を右クリックして、[追加] > [点] を選択します。 (または、Shift キーを押しながら、「点」のアイコンをクリックします。) グラフに点が追加されます。追加された点は、横方向にランダムに点をずらした状態で表示されます。 図 5 箱ひげ図に、点を追加 図 5 より、データの多くは、$1,000 から $2,000 の間に密集していることがわかります。 グラフを削除するには、グラフを右クリックして表示されるメニューより、削除したいグラフ名を選択し、[削除] を選択します。グラ フを変更したい場合には、変更したいグラフ名を選択し、[変更] を選択してから、変更後のグラフ名を選択します。 または、描きたいグラフのアイコンをクリックして、グラフを変更することも可能です。ここでは、今までのグラフ(箱ひげ図、点)を変 更し、ヒストグラムを描いてみます。 【操作: グラフの変更】 4. 「ヒストグラム」のアイコンをクリックします。 (または、右クリックメニューより箱ひげ図を削除し、点について[変更] > [ヒスト グラム] を選択します。) 4 ヒストグラムが描かれます。このヒストグラム(図 6)は、[一変量の分布] で描かれるヒストグラムと同様のものです。 図 6 「価格」 のヒストグラム JMP 10 では、一変量の確率密度を表す「バイオリンプロット」というグラフを描くことができます。[等高線] のメニューまたはアイコ ンを選択することにより、バイオリンプロットが描かれます。 5. 「等高線」のアイコンをクリックします。(または、右クリックから [ヒストグラム] > [変更] > [等高線] を選択します。) バイオリンプロットが描かれます(図 7)。 図 7 「価格」のバイオリンプロット バイオリンプロットは、1 変数の確率密度をノンパラメトリックに推定したものです。[一変量の分布] のオプション [連続分布のあ てはめ] > [平滑曲線] を選択して描かれるノンパラメトリック密度曲線について、Y 軸に平行な直線に対して対称になるように、左 5 右に投影した図がバイオリンプロットになります。このプロットからも、$1,000 から$2,000 の間に多くのデータが密集していることが わかり、さらに、$3,500 から$4,500 の間でも、データが密集し、$4,500 以上では、徐々にデータ数が少なくなっている状況が読みと れます。 グラフビルダーでは、[グループ X]、[グループ Y]、[段組] のゾーンにグループ変数を追加することにより、グループ変数の値ご とにグラフを分割させることができます。図 7 のバイオリンプロットを、「クラリティー」の各値によって分割させてみます。 【操作: グループ変数を用いて、グラフを分割】 6. 「クラリティー」を[グループ X] または [グループ Y] または [段組] のゾーンにドロップします。 図 8 は、[グループ X] 、 [グループ Y] 、 [段組] のそれぞれのゾーンにドロップしたときの分割結果です。 図 8 グラフの分割: 左上: [グループ X] にドロップ、右上: [グループ Y] にドロップ、左下:[段組] にドロップ 6 クラリティーの各値により、バイオリンプロットの形状が大きく異なることがわかります。クラリティーが良いほど、高い価格帯に多く のデータが分布している傾向のあることがわかります。 今度は、「価格」と要因となる変数との関連性をみるために、[X] のゾーンに変数をドロップしてみます。 グラフビルダーの左上には、[元に戻す]、[やり直し] のボタンがあります。[元に戻す] は、ウィンドウに加えた最後の変更内容を 取り消します。[やり直し] は、ウィンドウを起動時の状態(何もグラフが描かれていない状態)に戻します。ここでは、起動時の状 態に戻してみます。 【操作: ウィンドウを起動時の状態に戻す】 7. 左上の [やり直し] ボタンをクリックします。 起動時の状態に戻ります。今後は、「価格」と連続変数である「カラット重量」との関連性をみていきます。 【操作: 2 つの変数の関連性をみる : Y, X ともに連続】 8. 「価格」をドラッグし、[Y] ゾーンにドロップします。 9. 「カラット重量」をドラッグし、[X] ゾーンにドロップします。 10. グラフを右クリックし、[追加] > [点] を選択します。(または、Shift キーを押しながら、[点] をクリックします。) 図 9 「カラット重量」と「価格」との関係: 平滑線と点 図 9 の平滑線や点のプロットより、カラット重量が大きくなるにつれて、価格も高くなる傾向にあることがわかります。 7 二次元での点の密集状況を把握するため、平滑線を等高線に変更してみます。 11. グラフ上を右クリックし、[平滑線] > [変更] > [等高線] を選択します。 図 10 は、点と区別しやすいように、右上の凡例「密度」を右クリックし、[塗りつぶしの色] から赤色を選択したときの図です。 図 10 「カラット重量」と「価格」との関係: 等高線と点 二次元の等高線では、データが多いほど、その領域は濃く表示されます。グラフ左下の色が濃い領域は、カラット重量が 0.3~0.8、 価格が$500~$3,000 あたりです。この領域に多くのデータが分布していることになります。 [X] ゾーンにカテゴリカル変数を指定することにより、Y に指定した連続変数との関連性をみることができます。 ここでは、連続変数である「価格」と、カテゴリカル変数である「カット」との関係を調べてみます。その前に、 [X] ゾーンに割り当て た「カラット重量」を削除します。変数の削除は、削除する変数をクリックし、グラフビルダーの左下のゾーンにドロップします。 12. [X] ゾーンのラベル「カラット重量」をドラッグし、左下のゾーンにドロップします。 [X] ゾーンの変数が削除されました。 8 【操作: 2 つの変数の関連性をみる : Y 連続、X カテゴリカル】 13. 「クラリティー」を [X] のゾーンにドロップします。 14. 「箱ひげ図」のアイコンをクリックします。 図 11 は、「クラリティー」の値ごとの箱ひげ図になります。 図 11 「クラリティー」と「価格」との関係:箱ひげ図 値ごとに箱ひげ図の形状は異なり、箱の中にある線(中央値を示す)を参照すると、クラリティーが良くなるにつれて、中央値が小 さくなっていく傾向があることがわかります。 今度は、箱ひげ図を変更して、棒グラフを描いてみます。 9 15. 「棒」のアイコンをクリックします。 図 12 は、「クラリティー」の各値の平均値を棒グラフとして描画しています。 図 12 「クラリティー」と「価格」との関係:棒グラフ 中央値の傾向とは異なり、平均値では VS2 が一番高くなっている、WS1 より IF の方が高くなっているなど、クラリティーが良くなる につれて、価格の平均値が小さくなるわけではないことがわかります。 10 3.JMP 10 で追加されたグラフ、オプション 2 章で紹介した以外にも、グラフビルダーではさまざまなグラフを描くことができます。この章では、JMP 10 で新しく追加されたグラ フ、またはグラフのオプションについて、いくつかご紹介します。尚、2 章でご紹介したバイオリンプロットも、JMP 10 で追加された グラフです。 ■円グラフ、ドーナツグラフ サンプルデータ:「Diamond Data.jmp」 名義尺度:「クラリティー」の各カテゴリの度数、割合に対する円グラフ、ドーナツグラフ 図 13 円グラフ <操作方法> 1. 「クラリティー」 を [X] のゾーンにドロップします。 2. 「円グラフ」のアイコンをクリックします。(または、グラフを右クリックして、[棒] > [変更] > [円] を選択します。 ) 図 13 のように、円に度数やパーセントの値ラベルをつけるには、左下の「円」 より、ラベルを 「値ラベル」または「パーセント値 ラベル」 に変更します。 11 ■ヒートマップ サンプルデータ:「Diamond Data.jmp」 2 つの名義尺度「クラリティー」、「カラー」 について、クラリティー × カラー のそれぞれのカテゴリについて、「価格」 の大きさ を濃淡表示したグラフ 図 14 ヒートマップ <操作方法> 1. 「クラリティー」 を [Y] のゾーンに、「カラー」 を [X] のゾーンにドロップします。 2. 「価格」を [色] のゾーンにドロップします。 3. 「ヒートマップ」のアイコンをクリックします。(または、グラフを右クリックして、[棒] > [変更] > [ヒートマップ] を選択します。 ) このように X と Y にカテゴリカル変数を指定しますと、グラフが格子状に分割され、それぞれの格子について、色に指定した値の 大きさに応じて色が付きます。図 14 では、価格が高くなるほど赤色に、価格が低いほど青色になります。 ■複数のカテゴリで枝分かれした折れ線グラフ サンプルデータ:「Gasket.jmp」 (図 15) 名義尺度 「部品」、「測定者」 について、測定者から枝分かれしている部品についての折れ線グラフ 12 図 15 「Gasket.jmp」 の一部 図 16 「部品」、「測定者」 を枝分かれ表示 <操作方法> 1. 「Y」 を [Y] のゾーンにドロップします。 2. 「測定者」を [X] のゾーンにドロップします。 3. 「部品」を X 軸の上方に向けてドラッグします。青い台形の枠が表示されますので、その状態でドロップします。 4. グラフを右クリックし、[追加] > [折れ線] を選択します。 ■面グラフ サンプルデータ:「CrimeData.jmp」(図 17) 年ごとの、「殺人発生率」、「強姦発生率」、「強盗発生率」、「凶悪暴行発生率」を、面グラフを用いて示す 図 17 「Crime Data.jmp」 の一部 s 13 図 18 面グラフ <操作方法> 1. 「年」 を [X] のゾーンにドロップします。 2. 「殺人発生率」、「強姦発生率」、「強盗発生率」、「凶悪暴行発生率」を同時に選択し、 [Y] のゾーンにドロップします。 3. 「面」のアイコンをクリックします。 表示される面グラフ(図 18)の Y の値は、その年におけるすべての週の平均値になります。「州」や「地域」を [段組] のゾーンに ドロップすることにより、地域や州ごとの犯罪状況を比較することができます。図 19 は、「地域」を段組に指定したときの面グラフ になります。 図 19 地域を段組に指定したときの面グラフ 14 ■散布図に確率楕円、回帰直線を追加 サンプルデータ:「SAT.jmp」(図 20) Y: 「2004 受験率(%)」、X:「2004 言語」の散布図、 Y:「2004 受験率(%)」、「2004 数学」 の散布図を一つのグラフに表示し、それ ぞれの散布図に対し、確率楕円の描画、回帰直線をあてはめる。 図 20 「SAT.jmp」 の一部 図 21 確率楕円、回帰直線のあてはめ <操作方法> 1. 「2004 受験率(%)」 を [Y] のゾーンにドロップします。 2. 「2004 言語」、「2004 数学」 を同時に選択し、 [X] のゾーンにドロップします。 3. 「楕円」のアイコンをクリックします。 4. Shift キーをクリックしながら、回帰直線のアイコンをクリックします。 15 ■計算式の曲線を描画 サンプルデータ:「Growth.jmp」(図 22) Y: 「比」、X:「月齢」 とし、回帰直線、2 次式のあてはめ、ニューラルによるあてはめの 3 つのあてはめに対して予測式を保存する。 保存された計算式を用いて 3 つの曲線を重ね合わせて表示する。 図 22 「Growth.jmp」 の一部:「1 次」は回帰直線の予測式、「2 次」は、2 次式のあてはめの予測 式、「ニューラル」は、ニューラルによるあてはめの予測式 図 23 複数の予測式を重ね合わせ表示 <操作方法> 1. 「1 次」、「2 次」、「ニューラル」 を選択し、 [Y] のゾーンにドロップします。 2. 「月齢」を選択し、 [X] のゾーンにドロップします。 3. 「計算式」のアイコンをクリックします。 16