Comments
Description
Transcript
情報科学第09回 2つのデータの関係性 本日の内容 前回の復習 統計
本日の内容 情報科学 第09回 2つのデータの関係性 散布図と近似式 相関関数 1 統計処理の例1:相関関係 前回の復習 統計 集計したり、代表値を求めたり、傾向を分析すること で、そのデータの特徴を知る技術。 2つ以上の回答項目があるアンケートをとりました。 項目Aと項目Bには関連性があるでしょうか? 回答者1 回答者2 回答者3 回答者4 回答者5 回答者6 数値などの客観的な形で表現することで、勘などに 頼らない判断が可能に。 項目A 120 100 80 75 65 65 項目B 500 490 300 320 290 285 同じ傾向が あるかなぁ? 散布図と近似式 前回までは、1種類のデータを取り扱いました。 今度は、2種類のデータの関連性について考えます。 散布図と近似式 身長と体重の関係は...... 今回は、散布図と近似式を行います 関連が高い・低い 以下の項目は関係があるでしょうか? 実際にはどのような関係でしょうか? テレビ好きな人は視力が低い? コーラ好きな人は体重が多い? 体重が大きいと血糖値が高い? 睡眠時間が短いとテストの成績が悪い? 2種類のデータを、それぞれ縦軸と横軸に割り当ててプ ロットしたグラフです。 2種類のデータの関係を、視覚的に捕らえることができ ます。 身長と体重の 関係は...... 90 80 70 60 体重 散布図とは こういう関係を、見て分かるように評価したい。 関係を数式で評価したい。 どのぐらい関係が強いのか、値で評価したい。 50 40 30 20 10 0 0 50 100 150 200 身長 散布図を書く(Excel) 近似式とは データAとデータBの散布図を書きます。 1. データAとデータBを選択します。 2. グラフリボンから散布図を挿入します。 2種類のデータの関係を、数式で近似したものです。 90 80 y = 0.55x - 27.625 70 60 体重 データB 700 600 500 50 40 30 400 20 データB 300 10 200 100 0 0 0 0 50 100 150 50 100 200 近似式をグラフに書く(Excel) 先に書いたグラフに、近似式を書き入れましょう。 1. グラフをクリックして選択します。 2. [レイアウト] タブの [分析] グループにある [近似曲 線] をクリックします。 3. [線形近似]をクリックします。 タイトル 150 200 身長 近似式の数式を書く(Excel) 具体的な近似式を書き入れましょう。 1. グラフをクリックして選択します。 2. [レイアウト] タブの [分析] グループにある [近似曲 線] をクリックします。 3. [その他の近似曲線オプション] をクリックし、さらに[グ ラフに数式を表示する] を選択します。 700 タイトル 600 500 700 400 600 データB 線形 (データB) 300 y = 3.0117x - 18.071 500 400 200 データB 線形 (データB) 300 100 200 0 0 50 100 150 200 100 0 0 50 100 150 200 近似式の傾きを求める(Excel) 傾きを求める関数として slope があります。 slope(y軸データ, x軸データ) として使います。 近似式の切片を求める(Excel) 近似式が書けると 関連性の高い関係について近似式が書ける データに無い値Aに対して、どのぐらいの値Bになる か、予想できる。 値Aが120のとき、値Bはどのぐらいの値になりそうか、 予想してみましょう。 切片を求める関数として INTERCEPT があります。 INTERCEPT(y軸データ, x軸データ) として使います。 散布図と近似式のまとめ 「データAとCについて」と「データAとDについて」の散布 式を書き、近似式を書きましょう。 また、近似式の傾きと切片を求めましょう。 次は、この2つのデータの間に関連性があるか否かを 扱います。 相関係数 前回は散布図により、データの関係を視覚化しました。 今回は、2種類のデータの関連度について考えます。 相関係数 身長と体重の関係は...... 今回は相関関数のお話です。 相関とは 2種類のデータについて、 片方が大きくなると、もう片方も大きくなるとき "正の相関がある"、 片方が大きくなると、もう片方は小さくなるとき "負の相関がある"、 どちらでも無い場合は"相関がない"、 という風に言います。 体重 相関関数 90 900 80 800 70 700 60 600 50 500 40 相関を計る指標が相関係数です。 係数は、相関関数によって求まります。 相関関数は、以下の式となります。 相関関数は-1から1の間を取ります。 x1 x y1 y xN x y N y x1 x 2 xN x 2 y1 y 2 y N y 2 -1 -0.5 0 1 0.5 400 30 300 20 200 10 100 0 0 50 100 身長 150 200 0 0 50 100 150 相関係数の計算(ステップ毎)1 データAとデータBの相関係数を求めましょう。 1. データAの平均値を セルA20に計算しましょう。 2. データBの平均値を セルB20に計算しましょう。 200 強い負の 相関がある 相関がない 強い正の 相関がある 相関係数の計算(ステップ毎)2 3. セルI2からI19の各セルに、 データAの各値 - データAの平均値 を計算しましょう。 4. 同様に、セルJ2からJ19の各セルに、 データBの各値 - データBの平均値 を計算しましょう。 x1 x y1 y xN x y N y x1 x 2 xN x 2 y1 y 2 y N y 2 x1 x y1 y xN x y N y x1 x 2 xN x 2 y1 y 2 y N y 2 相関係数の計算(ステップ毎)3 相関係数の計算(ステップ毎)4 5. セルK2からK19の各セルに、 IのセルとJのセルの 掛け算を計算しましょう。 6. セルK20に、K2からK19の 和を計算しましょう。 x1 x y1 y xN x y N y x1 x 2 xN x 2 y1 y 2 y N y 2 7. セルL2からL19の 各セルに、 Iのセルの2乗を 計算しましょう。 8. セルM2からM19の 各セルに、 Jのセルの2乗を 計算しましょう。 x1 x y1 y xN x y N y x1 x 2 xN x 2 y1 y 2 y N y 2 相関係数の計算(ステップ毎)5 7. セルL20にセルL2からL19の 和を計算しましょう。 8. セルL21にL20の平方根を 計算しましょう。 9. セルM20にセルM2からM19の 和を計算しましょう。 10. セルM21にM20の平方根を 計算しましょう。 相関係数の計算(ステップ毎)6 11. セルK20に分子が、セルL21とM21には分母が 計算できました。 最終的な相関係数をセルN22に求めましょう。 x1 x y1 y xN x y N y x1 x 2 xN x 2 y1 y 2 y N y 2 x1 x y1 y xN x y N y x1 x 2 xN x 2 y1 y 2 y N y 2 相関係数の計算(Excel) 相関係数の演習 相関係数を求める関数として correl があります。 correl(y軸データ, x軸データ) として使います。 おわりに 今回は、2つのデータを扱う方法を行いました。 散布図:2つのデータを視覚的に見る 近似式:2つのデータの関係を式で近似する 相関係数:2つのデータの関係性の指標 物事の原因や因果関係を分析する際、これらのことは 重要になってきます。 Excelで式や値は簡単に出ますが、これらが「何を言っ ているものなのか」を、きちんと理解しておきましょう。 correl 関数を使って、「データAとCについて」と「データA とDについて」の相関係数を求めましょう。 それぞれのデータの関連性は、どうなるでしょうか?