Pythonで相関係数を求める方法を現役エンジニアが解説【初心者向け】
初心者向けにPythonで相関係数を求める方法について現役エンジニアが解説しています。相関係数とは、統計学や機械学習で使われ、2組のデータ群がどれほど関係しているかを示す指標の1つです。numpy.corrcoef関数を使った方法とpandas.DataFrame.corrメソッドを使った方法を解説します。
テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日 調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名 調査手法:インターネット調査
監修してくれたメンター
清水 源一郎
テックアカデミーでは、Pythonコース、AIコース、データサイエンスコースを担当。
Pythonで相関係数を求める方法について、テックアカデミーのメンター(現役エンジニア)が実際のコードを使用して初心者向けに解説します。
目次
そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。
今回は、Pythonに関する内容だね!
どういう内容でしょうか?
Pythonで相関係数を求める方法について詳しく説明していくね!
お願いします!
この記事では、Pythonを使ってデータの相関を表す指標である相関係数の計算方法について解説します。
相関係数とは
まずは、相関係数について解説します。
相関係数というのは、2組のデータ群があるときに、それらのデータ群がどれほど関係しているかを示す指標の1つで、統計学や機械学習などといった分野で頻繁に使われるものです。
相関係数は、-1~1までの値を取ります。
1に近いほど「正の相関がある」と言い、一方のデータが増加するともう片方のデータも増加する、といった関係になります。
また、-1に近いほど「負の相関がある」と言い、一方のデータが増えるともう一方のデータは減少する、といった関係になります。
相関係数が0.8、0、-0.8のデータの散布図を図に示します。
相関係数が1に近いものは大まかに右斜上に向かう傾向が見て取れます。
逆に-1に近いものは、右斜下に向かうように見え、相関係数が0のものはデータが単に散らばっているだけに見えます。
このように、相関係数は、データの関連度合いを示すものとして使われます。
相関係数を求める方法
Pythonで相関係数を求める方法はいくつかあります。
ここでは、以下の2つの方法について説明します。
- numpy.corrcoef()関数を使った方法
- pandas.DataFrame.corr()メソッドを使った方法
numpy.corrcoef()関数の場合は、以下のようにすることで、「相関行列」というものが返ってきます。
numpy.corrcoef(1つ目のデータ, 2つ目のデータ)
相関行列とは、それぞれの成分が以下の相関係数を表している行列です。
[[1つ目のデータと1つ目のデータ, 1つ目のデータと2つ目のデータ], [2つ目のデータと1つ目のデータ, 2つ目のデータと2つ目のデータ]]
なので、相関係数だけを知りたい場合は、該当部分だけを取り出せば良いでしょう。
1つ目のデータと2つ目のデータの相関係数は上の行列で右上、または左下の成分です。
1つ目のデータと2つ目のデータと、2つ目のデータと1つ目のデータの部分には同じ値が入ります。
一方、pandasを使う場合は、データフレームとして相関を求めたい複数の列を持つものを用意して、下記のコードを入力することで、各列の間の相関係数を算出できます。
データフレーム.corr()
こちらの場合も相関行列が返されます。
実際に計算してみよう
それでは、実際にコードを書いて実行してみることで、相関係数をどのようにして求めればよいか確認しましょう。
ここでは、次の散布図のような、xとyのデータの相関係数を求めていきます。
numpyを使う場合は、以下の通りです。
# numpyのインポート
import numpy as np
# データを用意
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
y = np.array([2, 1, 3, 4, 3, 6, 9, 10, 6, 10])
# 相関行列を計算
coef = np.corrcoef(x, y)
# 相関行列を表示
print(coef)
pandasを使う場合は、以下の通りです。
# pandasのインポート
import pandas as pd
# 上で使ったデータを用いて、DataFrameを用意
df = pd.DataFrame([x,y]).T
# 相関行列を計算
coef = df.corr()
# 相関行列を表示
print(coef)
それぞれ下記の通り表示され、相関係数がうまく計算できたことが確認できます。
[[1. 0.87901474] [0.87901474 1. ]]
0 1 0 1.000000 0.879015 1 0.879015 1.000000
xとyの相関係数は0.879015と読み取れます。
まとめ
この記事では、Pythonで相関係数を算出する方法について解説しました。
データ解析などでは必須の知識なので、必要に応じて参考にしてみてください。
内容が分かりやすくて良かったです!
ゆかりちゃんも分からないことがあったら質問してね!
分かりました。ありがとうございます!
Pythonを学習中の方へ
これで解説は終了です、お疲れさまでした。
- つまずかず「効率的に」学びたい
- 副業や転職後の「現場で使える」知識やスキルを身につけたい
プログラミングを学習していて、このように思ったことはありませんか?
テックアカデミーのPythonコースでは、第一線で活躍する「プロのエンジニア」が教えているので、効率的に実践的なスキルを完全オンラインでしっかり習得できます。
合格率10%の選考を通過した、選ばれたエンジニアの手厚いサポートを受けながら、人工知能(AI)や機械学習の基礎を学べます。
まずは一度、無料体験で学習の悩みや今後のキャリアについて話してみて、「現役エンジニアから教わること」を実感してみてください。
時間がない方、深く知ってから体験してみたい方は、今スグ見られる説明動画から先に視聴することをおすすめします!