Pythonで重回帰分析を行う方法を現役エンジニアが解説【初心者向け】
初心者向けにPythonで重回帰分析を行う方法について現役エンジニアが解説しています。重回帰分析とは複数の説明変数を用いた回帰分析のことです。1つの説明変数の場合は単回帰分析と呼びます。statsmodelsモジュールを利用して、統計モデル・機械学習モデルを構築する方法があります。
テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日 調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名 調査手法:インターネット調査
Pythonで重回帰分析を行う方法について、TechAcademyのメンター(現役エンジニア)が実際のコードを使用して、初心者向けに解説します。
Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。
なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。
今回は、Pythonに関する内容だね!
どういう内容でしょうか?
Pythonで重回帰分析を行う方法について詳しく説明していくね!
お願いします!
目次
重回帰分析とは
重回帰分析とは複数の説明変数を用いた回帰分析を指します。
これに対して1つの説明変数を用いた回帰分析を「単回帰分析」と呼びます。例えば「気温と降水確率をもとにお店のビールの売上を予測する」としましょう。
この場合、説明変数は「気温と降水確率」、予測対象は「ビールの売上」となります。なお、重回帰分析(とそれに対して使われる単回帰分析)という呼び名は古く、現在では「複数の説明変数を使った回帰モデル」や「多重線形モデル」という呼び名の方が良く使われています。
重回帰分析を行う方法
Python で重回帰分析を行うには主に2種類の方法があります。
- statsmodels モジュールを利用して統計モデルを構築する方法
- scikit-learn モジュールを利用して機械学習のモデルを構築する方法
ここではより多く使用されているscikit-learnを使った方法を取り上げます。 scikit-learnで回帰分析を行うには LinearRegression を使用します。
LinearRegressionについて、詳しくは公式サイトも参考にしてください。
scikit-learn?LinearRegression?
実際に書いてみよう
今回のサンプルプログラムでは、LinearRegressionを用いた重回帰分析の方法について確認します。実行はJupyter Notebookで行います。はじめに必要なライブラリを読み込みます。
import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline
データはscikit-learnに添付されているボストンの住宅価格データを使用します。
# データの読み込み from sklearn.datasets import load_boston boston = load_boston() dataset = pd.DataFrame(data = boston['data'], columns = boston['feature_names']) dataset['price'] = boston['target'] dataset.head()
実行結果は以下のとおりです。
このデータからpriceを予測します。データを予測対象(目的変数と呼びます)と説明変数に分けます。
# 目的変数(Y)、説明変数(X) Y = np.array(dataset['price']) X = np.array(dataset[['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']])
さらに、データを学習データと検証データに分割します。
# データの分割 from sklearn.model_selection import train_test_split X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=0)
重回帰分析はfit()関数で行います。
#線形回帰モデル from sklearn.linear_model import LinearRegression model = LinearRegression() #学習はfit model.fit(X_train, Y_train)
分析が終わったら検証データを使って予測してみましょう。予測はpredict()関数で行います。
Y_pred = model.predict(X_test)
予測結果と正解を比較してみましょう。
print(Y_test[:5]) print(Y_pred[:5])
実行結果は以下のとおりです。概ね近い数字がでていることが分かります。なお実行結果は環境により異なります。
[22.6 50. 23. 8.3 21.2] [24.9357079 23.75163164 29.32638296 11.97534566 21.37272478]
グラフにしてみましょう。
plt.scatter(Y_test, Y_pred)
実行結果は以下のとおりです。右肩上がりに直線上にデータが集まっていることが確認できます。これは概ね正しく予測が行われていることを表しています。
まとめ
今回の記事ではPythonで重回帰分析を行う方法を学習しました。
監修してくれたメンター
太田和樹(おおたかずき)
ITベンチャー企業のPM兼エンジニア。 普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。 開発実績:画像認識技術を活用した駐車場混雑状況把握(実証実験)、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント。 地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。 |
内容分かりやすくて良かったです!
ゆかりちゃんも分からないことがあったら質問してね!
分かりました。ありがとうございます!
TechAcademyでは、初心者でも、Pythonを使った人工知能(AI)や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。
また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。