機械学習

機械学習のライブラリ！scikit-learnとは【初心者向け】現役エンジニアが解説

初心者向けに機械学習のオープンソースライブラリscikit-learnとは何かについて詳しく解説しています。実際のデータを使ってscikit-learnを使った機械学習を行っているので、参考にしてみてください。手軽に試すことができます。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元：GMOリサーチ株式会社　調査期間：2021年8月12日～8月16日　調査対象：2020年8月以降にプログラミングスクールを受講した18～80歳の男女1,000名　調査手法：インターネット調査

今回は、Pythonの代表的な機械学習のライブラリであるscikit-learnについて解説します。

機械学習というと、複雑な数式を使ったり、なんだか難しそうなイメージですが、scikit-learnを使うと、とても手軽に機械学習を試してみることができます。

ぜひ、この記事を参考に、機械学習にチャレンジしてみてください。

scikit-learnとは

scikit-learnは、Pythonの機械学習ライブラリです。

「サイキット・ラーン」と読みます。

scikit-learnはオープンソース（BSD license）で公開されており、個人／商用問わず、誰でも無料で利用することができます。

scikit-learnは、現在も活発に開発が行われており、インターネット上で情報を探すのも容易です。

多くの機械学習アルゴリズムが実装されていますが、どのアルゴリズムでも同じような書き方で利用することができます。

また、サンプルのデータセット（トイデータセット）が付属しているため、インストールしてすぐ機械学習を試すことができます。

このようなことから、初学者が機械学習を学び始めるには、最適のライブラリと言えます。

他にもオープンソースで使えるPythonのライブラリをまとめているので、合わせてご覧ください。

[PR] AIプログラミングコース

scikit-learnを利用するには

scikit-learnを利用するには、Anacondaなどの開発環境のパッケージを使うのが簡単です。

Anaconda

Anacondaは、データ分析やグラフ描画など、Pythonでよく利用されるライブラリを含んだ開発環境です。

もちろん、scikit-learnも含まれています。

よって、Anacondaを導入するだけで、scikit-learnをすぐ利用することができます。

Anacondaにscikit-learnがインストールされているかは、メニュー画面のEnvironmentsから、Installedを選択し、検索BOXに「scikit-learn」と入力することで確認を行うことができます。

なお、Anacondaなどの開発環境を利用せず、手動でscikit-learnをインストールして利用することもできます。

中級者向けとなるため手順は省略いたしますが、その場合scikit-learnをインストールする前に、事前に以下のライブラリもインストールする必要があります。

NumPy
Scipy
Pandas

scikit-learnの主な機能

次にscikit-learnの主な機能、特に機械学習のモデルについて説明します。

以下をご覧ください。

これはscikit-learnのアルゴリズムチートシートと呼ばれます。

scikit-learnを用いて機械学習を行う際、自分が行いたい分析（分類／回帰／クラスタリングなど）について、適切なモデルを選択する際の手助けとなるものです。

また、scikit-learnでは、簡単にモデルを取り替えて機械学習を行うことができます。

モデルを取り替える方法については、以降の項で説明します。

分類（classification）

与えられたデータがどのクラスに属するかを判別するものです。

教師あり学習の分類問題を解くアルゴリズムと表現できます。

以下のような種類があります。

SGD（stochastic gradient descent）

大規模データ（10万件以上）におすすめな、線形のクラス分類手法です。

カーネル近似

SGDではうまく分類できない場合に利用する、非線形なクラス分類手法です。

こちらも大規模データ向けです。

Linear SVC

中小規模（10万件未満）におすすめな、線形のクラス分類手法です。

k近傍法

Linear SVCではうまく分類できない場合に利用する、非線形なクラス分類手法です。

こちらも中小規模データ向けです。

この他、テキストデータの場合、ナイーブベイズという手法があります。

回帰（regression）

与えられたデータをもとに、目的とする値を予測するものです。

教師あり学習の回帰問題を解くアルゴリズムと表現できます。

以下のような種類があります。

SGD（stochastic gradient descent）

大規模データ（10万件以上）におすすめな、線形の回帰分析手法です。

LASSO、ElasticNet

中小規模（10万件未満）で、説明変数の一部が重要な場合におすすめな、回帰分析手法です。

Ridge、Liner SVR

中小規模（10万件未満）で、説明変数の全てが重要な場合におすすめな、回帰分析手法です。

SVR（ガウスカーネル）、Ensemble

Ridge、またはLinerSVRではうまく分析できない場合に利用する、非線形な回帰分析手法です。

クラスタリング（clustering）

与えられたデータを、なんらかの規則にのっとって分けるものです。

教師なし学習のクラスタリング問題を解くアルゴリズムと表現できます。

以下のような種類があります。

KMeans

いくつのクラスタに分かれるのか、事前に決めることができる場合におすすめな、クラスタリング分析手法です。

大規模データの場合、MiniBatchといって、データを分けながら学習させる手法を取ります。

スペクトラルクラスタリング、GMM

KMeansではうまく分析できない場合に利用する、非線形なクラスタリング分析手法です。

MeanShift、VBGMM

いくつのクラスタに分かれるのか、事前に決めることができない場合におすすめな、クラスタリング分析手法です。

その他の機能

次元削減

与えられたデータの次元数が多い場合、学習効率を上げるため、次元削減という前処理を行います。

PCA、カーネルPCA、Isomap、SpectralEmbeddingなどの手法があります。

ハイパーパラメータの最適化

機械学習を行う際、学習の方法などを調整する数値のことを「ハイパーパラメータ」と言います。

グリッドサーチ、クロスバリデーションなどの手法があります。

scikit-learnを使った機械学習(1)

それでは、scikit-learnを使った機械学習に挑戦してみましょう。

今回は、scikit-learnのトイデータセットにある「手書き数字データセット」を使います。

以下はanacondaを使った例で表示しています。

データセットの読み込み

はじめに、データセットを読み込み、どのようなデータが格納されているか、確認してみます。

以下のコードを入力して実行して下さい。

# scikit-learn ライブラリの読み込み
from sklearn import datasets

# 手書き文字セットを読み込む
digits = datasets.load_digits()

# どのようなデータか、確認してみる
import matplotlib.pyplot as plt
plt.matshow(digits.images[0], cmap="Greys")
plt.show()

実行結果は以下のようになります。

数字の0のように見えますね。

今回のプログラムでは、このような手書きの数字の画像データを使い、機械学習のモデルの学習と予測を行います。

訓練データとテストデータの準備

データセットには、「手書き数字の画像データ」と、それに対する「数字」が含まれます。

データを訓練データとテストデータに分け、訓練データで学習した結果を、テストデータで検証します。

# 画像データを配列にしたもの(numpy.ndarray型)
X = digits.data

# 画像データに対する数字(numpy.ndarray型)。ラベルと言う
y = digits.target

# 訓練データとテストデータに分ける
# 訓練データ ：偶数行
X_train, y_train = X[0::2], y[0::2]
# テストデータ：奇数行
X_test, y_test = X[1::2], y[1::2]

実行結果は特に表示されません。

学習

それでは、モデルに学習を行いましょう。

以下ではSVMというアルゴリズムを選択しています。

# 学習器の作成。SVMというアルゴリズムを選択
from sklearn import svm
clf = svm.SVC(gamma=0.001)

# 訓練データとラベルで学習
clf.fit(X_train, y_train)

実行結果は以下のようになります。

SVMというアルゴリズムに対してどのような設定（パラメータ）を行ったかが表示されています。

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma=0.001, kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

モデルの評価

最後にモデルの学習結果を、テストデータを用いて評価します。

from sklearn import metrics

# テストデータで試した正解率を返す
accuracy = clf.score(X_test, y_test)
print(f"正解率{accuracy}")

# 学習済モデルを使ってテストデータを分類した結果を返す
predicted = clf.predict(X_test)

# 詳しいレポート
# precision(適合率): 選択した正解/選択した集合
# recall(再現率) : 選択した正解/全体の正解
# F-score(F値) : 適合率と再現率はトレードオフの関係にあるため
print("classification report")
print(metrics.classification_report(y_test, predicted))

実行結果は以下のようになります。

「1.00」や「0.99」の数字が適合率や再現率です。

かなり予測精度が高いことが分かります。

とても簡単に機械学習を試してみることができましたね。

scikit-learnを使った機械学習(2)

次に、機械学習のアルゴリズムを、ロジスティック回帰に変更してみましょう。

先ほどのソースコードの以下の部分を変更します。

# 学習器の作成。SVMというアルゴリズムを選択
from sklearn import svm
clf = svm.SVC(gamma=0.001)

上記の部分を以下のように変更します。

# 学習器の作成。ロジスティック回帰というアルゴリズムを選択
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()

他のコードは変更の必要がありません。

このように、scikit-learnではモデルを簡単に取り替えながら、機械学習を行うことができます。

こちらも、モデルの評価を実行しましょう。

実行結果は以下のようになります。

今回は、機械学習ライブラリのscikit-learnについて解説しました。

これからscikit-learnを勉強したい、機械学習を使って何か作ってみたいという方は最初に理解しておきたい内容でしょう。

この記事を監修してくれた方

太田和樹（おおたかずき）
ITベンチャー企業のPM兼エンジニア

普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。

開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント

地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。

オンラインのプログラミングスクールTechAcademyでは、AIオンライン講座を開催しています。

AI（人工知能）の構築に必要な機械学習・ディープラーニングについて実践的に学習することができます。

現役エンジニアがパーソナルメンターとして受講生に1人ずつつき、マンツーマンのメンタリングで学習をサポートし、習得することが可能です。

初心者向け！機械学習を学ぶのにおすすめの本10選

今回は、機械学習を学ぶのにおすすめの本をまとめています。機械学習やディープラーニングを初めて学ぶ人におすすめの本、仕事でこれから使う人におすすめの本を紹...

機械学習

数値計算を行ってみる！PythonのライブラリNumPyの使い方【初心者向け】

今回は、Pythonの数値計算ライブラリであるNumPyについてテックアカデミーのメンターが初心者向けに解説します。 NumPyを使うと、ベクトルや行列な...

機械学習

グラフ描画ライブラリ！matplotlibの使い方【初心者向け】

今回は、Pythonのグラフ描画ライブラリであるmatplotlibについて解説します。 matplotlibを使うと、様々な種類のグラフを描画したり、イ...

機械学習

事例から学ぶ！人工知能（AI）を種類別に解説【初心者向け】

現在、幅広い業種で人工知能（AI）が使われています。またニュースや新聞でも、人工知能の報道を目にしない日はありません。このような状況の中、人工知能に興味...

機械学習

徹底解説！scikit-learnを使った教師あり・なし学習とは

今回は、教師あり学習と教師なし学習について解説します。ぜひ、この記事を参考に、教師あり・なし学習にチャレンジしてみてください。 ...

機械学習

【事例付き】様々なサービスに活用！画像認識技術とは

デジタルカメラのスマイルシャッターや、iPhoneXのFaceIDなど、画像認識の技術は私達の身の回りで多く使われており、生活を便利に豊かにしてくれています。 ...

機械学習

あわせてよく読まれている記事

Pythonを利用してロジスティック回帰分析をする方法を現役エンジニアが解説【初心者向け】

Pythonを利用してロジスティック回帰分析をする方法について解説します。この記事では、Pythonでデータ解析や機械学習を使うときに必よく使われるscikit-learnと呼ばれるライブラリについて解説し、実際にscikit-learnを使った回帰分析を実践します。ぜひ参考にしてみてください。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonを利用してロジスティック回帰分析をする方法について詳しく説明していくね！大石ゆかりお願いします！ scikit-learnライブラリとは？ “scikit-learn”は「サイキット・ラーン」という呼ばれるPythonのデータ解析と機械学習に特化したライブラリです。このライブラリを使うことでPythonがわかる人なら、誰でも比較的簡単に数行で機械学習を実践することができます。 scikit-learnライブラリはNumpやScipyといった行列計算に必要なライブラリ、matplotlibといったグラフなどのデータの可視化に便利なライブラリが組み込まれています。また、scikit-learnのチートシートを使えば、使いたいデータに合った機械学習がどれに当たるのか、専門的な知識がなくてもすぐにわかるようになっています。 scikit-learnの記事を読んでみると、scikit-learnについてさらによく分かると思うので、詳しく知りたい方は参照してみてください。 scikit-learnモジュールのインポート scikit-learnを使うには、まずは、Anacondaと呼ばれるPythonのパッケージ管理ツールを使ってインストールするか、pipコマンドを使ってscikit-learnをインストールしてください。 Anacondaを使う場合は、コマンドプロンプト(Windows)、もしくは、ターミナル(Mac)で conda install scikit-learn を実行します、 pipを使う場合は、condaの部分をpipに変えて、 pip install scikit-learn を実行すれば、scikit-learnのインストールができます。コマンドを実行して、 Successfully installed scikit-learn ... と表示されれば大丈夫です。. . . の部分はscikit-learnのバージョンが表示されます。あとは、Pythonのコードで、scikit-kearnを import sklearn でインポートすればPythonでscikit-learnを使うことができます。 [PR] AIプログラミングコースscikit-learnモジュールの使い方 scikit-learnにはデータ解析に便利なツールが数多く用意されています。主に、データセットデータの前処理機械学習モデルモデル評価、選択のための各ツールが提供されています。機械学習を試したい場合には、scikit-learnを使えば、データセットのダウンロードから性能の評価まで一貫して行なうことができるので、非常に便利です。データセットには、ボストンの住宅価格、アイリス(アヤメ)の花のデータ、手書き文字など様々なものがあります。データの前処理には、標準化、正規化などといったデータの加工に必要なツールがあります。そして、機械学習モデルには、「教師あり学習」と「教師なし学習」と呼ばれるの2種類のモデルがあり、チートシートを参照して複数のモデルの中から必要なモデルを選ぶことができます。 scikit-learnモジュールを利用してロジスティック回帰分析してみようそれでは、実際にscikit-learnを使ってみましょう。ここからは、Jupyterノートブックを用いることを想定しています。ですが、他の方法でも実践できるので使いたい環境で行なってください。今回は、ロジスティック回帰と呼ばれる機械学習を行います。ロジスティック回帰は教師あり学習に属するモデルで、クラス分類や確率の予測などに使われる分析手法です。ロジスティック回帰についての詳細な説明は省きますが、興味のある方はぜひ調べてみてください。Qiitaのこちらの記事などがオススメです。ではコードを書いていきましょう。まずは、scikit-learnと必要なツールをインポートします。 #必要なツールのインポート from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score import pandas as pd load_irisはアイリスデータセットをダウンロードするのに使います。アイリスというのは、花の名前ですが、より細かい種類に別れています。このアイリスの種類を予測するのが今回の目標です。 train_test_split：データセットを訓練用とテスト用に分けるときに使います StandardScaler：データの前処理手法の一つである標準化で用います LogisticRegression：今回学習に使うロジスティック回帰というモデルです accuracy_score：モデルの性能を評価するとき正解率を計算することに使います他にもここでは、pandasというライブラリをインポートしています。Pandasを用いることでデータを扱いやすくなっています。続いて、 iris_data = load_iris() iris_df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names) iris_df["target"] = iris_data.target とします。ここでは、アイリスデータセットを読み込み、pandasでデータフレームというデータ型に変換し、データフレームの”target”列に、予測する値となるラベルとして、花の種類を追加しています。次に、 #データセットをテスト用と訓練用に分ける x_train, x_test, y_train, y_test = train_test_split( iris_df.iloc[:, 0:4], iris_df.iloc[:, 4],

Python

徹底解説！scikit-learnを使った教師あり・なし学習とは

今回は、教師あり学習と教師なし学習について解説します。ぜひ、この記事を参考に、教師あり・なし学習にチャレンジしてみてください。なお本記事は、TechAcademyのオンラインブートキャンプ、AI講座とデータサイエンス講座の内容をもとに作成しています。田島悠介今回は、scikit-learnに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 scikit-learnを使った教師あり・なし学習について詳しく説明していくね！大石ゆかりお願いします！教師あり学習とは教師あり学習とは、正解やより良い方法を膨大なデータとして用意しておき、その正解を元にコンピューターが学習することで、コンピューター自身を成長させる学習方法です。 Googleで開発されたAlphaGoという深層学習（ディープラーニング）により、世界最高峰のプロ囲碁棋士に勝利したプログラムがあります。このAlphaGoのうち、第3世代までの、AlphaGo Masterは教師あり学習を元に、自己学習を繰り返した結果、プロ棋士に勝てるようになりました。 [PR] AIプログラミングコース教師あり学習の手法ここでは、scikit-learnを使用した教師あり学習の手法とその表示グラフを紹介します。 Liner Model(線形回帰) 画像引用：http://scikit-learn.org Logistic Regression(ロジスティック回帰) 画像引用：http://scikit-learn.org Support Vector Regression(SVM) 画像引用：http://scikit-learn.org Perceptron(パーセプトロン) 画像引用：http://scikit-learn.org Decision Tree Regression(決定木回帰) 画像引用：http://scikit-learn.org Rondom Forests(ランダムフォレスト) 画像引用：http://scikit-learn.org Ada Boost 画像引用：http://scikit-learn.org KNeighbors 画像引用：http://scikit-learn.org Neural Network(ニューラルネットワーク) 画像引用：http://scikit-learn.org 教師なし学習教師なし学習といっても、最初の段階で教師あり学習のように、正解の大量のデータを教師として学習する部分が無いだけであり、基本的なルールは学習する必要があります。基本ルール部分を学びますが、その部分は教師として考えないという理論です。教師なし学習では、基本ルール内で勝つために、自分自身と戦い続けることで、性能を上げていきます。 AlphaGo Masterの次に開発されたAlphaGo Zeroは、教師なし学習を元に発展しました。 AlphaGo Zero では、ルール以外の知識は全く与えずに強化学習を行うことで、40日後に、AlphaGo Masterに89勝11敗しました。つまり、AlphaGo Zeroは世界最強の囲碁棋士に40日間で成長することができたということです。ここでは、scikit-learnを使用した教師なし学習の手法とその表示グラフを紹介します。 K-means(k平均法) 画像引用：http://scikit-learn.org PCA 画像引用：http://scikit-learn.org 教師あり学習と教師なし学習の違い大きな違いは、教師あり学習では、正解や過去の模範例を教師として考え利用する点です。教師なし学習では教師にあたる、過去の模範解答データは存在しません。 scikit-learnとは scikit-learnは、Pythonの機械学習ライブラリです。「サイキット・ラーン」と読みます。 scikit-learnはオープンソース（BSD license）で公開されており、個人／商用問わず、誰でも無料で利用することができます。 scikit-learnは、多くの機械学習アルゴリズムが実装されており、どのアルゴリズムでも同じような書き方で利用することができます。また、サンプルのデータセット（トイデータセット）が付属しているため、インストールしてすぐ機械学習を試すことができます。機械学習のライブラリ！scikit-learnとはについての記事も参考にしてみてください。他のライブラリの紹介世界全体 Google Trendsでの調査結果です。世界全体で見ると、次の順番で人気があるようです。 Keras TensorFlow Pytorch TensorFlowよりもKerasの方が検索トレンド上位のようです。これら3ライブラリ以外のライブラリも調査しましたが、3ライブラリと比較すると検索料が少なく、横線として表示されました。そのため、3ライブラリ以外の検索順位は割愛しています。日本全体日本全体で見ると、次の順番で人気があるようです。 TensorFlow Keras Chainer Pytorch 日本では、KerasよりもTensorFlowの方が検索トレンド上位のようです。 Chainerが3番目に人気があるのは、やはり日本企業の株式会社 Preferred Networksの存在が大きいと思います。これら4ライブラリ以外のライブラリも調査しましたが、4ライブラリと比較すると検索量が少なく、横線として表示されました。そのため、4ライブラリ以外の検索順位は割愛しています。ライブラリまとめ TensorFlow サポート Google 特徴 Googleがオープンソースで後悔しているディープラーニングのライブラリです。 Googleで実装され、AlphaGo Zero でも利用されているため、その実証効果は世界的に認められています。 Tensorとは多次元データ配列のことを意味します。 TensorFlowは多次元データ配列を計算し、ディープラーニングを行うためのライブラリです。使い方を解説！Googleが開発したTensorflow（テンサーフロー）とはについての記事も参考にしてみてくださいね。 TensorFlow Keras サポート keras.io 特徴 Pythonで実装されています。深層学習のプロトタイプを作成する場合に非常に向いています。 Keras Chainer サポート株式会社 Preferred Networks 特徴日本国内の株式会社 Preferred Networksが開発・サポートしています。日本企業が関わっているため、非常に多くの日本語情報が存在します。また、渋谷にオフィスが有るためディープラーニングに関する技術を知りたい日本人にとっては、最も身近なライブラリになりそうです。 Chainer Pytorch サポート Pytorch 特徴 Torchというフレームワークを提供していたチームが提供しています。 Chainerをフォークしたという話もあります。 Torchでは、Luna言語を使用していましたが、PytorchではPythonを利用します。 facebookやtwitterやNvidiaという大手企業がデベロッパーになっています。 Pytorch Cognitive Toolkit サポート Microsoft 特徴 Microsoftが開発しているディープラーニングフレームワークです。 Microsoft Caffe2 サポート facebook Nvidia 特徴オープンソースのディープラーニング向けフレームワークです。設定部分を変更するだけで、高度な専門知識を不要としたディープラーニングを行うことが出来ます。 Pythonを利用することが出来ます。 Caffe2 Deeplearning4j サポート Skymind 特徴 ScalaとJavaで実装されています。 Hadoopや Sparkと連携することが可能です。 Hadoopとは、オープンソースの分散処理ソフトウェアでJavaで実装されています。 Sparkとは、オープンソースの分散処理ソフトウェアでScalaで実装されています。 Deeplearning4j PaddlePaddle サポート Baidu 特徴 Baiduは中国のGoogleのような企業です。主に中国国内で利用されています。 PaddlePaddle MXNet サポート Amazon 特徴 PythonやR言語、 Julia、 Go 言語等を利用することが出来ます。 MXNet 大石ゆかり内容分かりやすくて良かったです！田島悠介ゆかりちゃんも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！今回は、教師あり学習と教師なし学習について解説しました。これらの内容を参考にして、scikit-learnを使って教師あり・なし学習に挑戦してみてください！ TechAcademyでは、初心者でも、AI（人工知能）の構築に必要な機械学習・ディープラーニングについて実践的に学習することができる、オンラインブートキャンプAI講座を開催しています。挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる

機械学習

【徹底解説】機械学習（マシンラーニング）とは！まずはここから理解しよう

現在、幅広い業種で人工知能（AI）が使われています。またニュースや新聞でも、人工知能の報道を目にしない日はありません。このような状況の中、人工知能に興味・関心を寄せるエンジニアが増えてきています。また企業においても、人工知能のスキルを持ったエンジニアの採用が活発に行われています。機械学習は、その人工知能の中核をなすテクノロジーであり、現代のエンジニアにとっては、ほぼ必須の知識とも言えるでしょう。この記事では、機械学習の概要、各種手法についての解説、ディープラーニングとの違いなどを紹介します。機械学習とはどのような技術か、実際にどのようなサービスに使われているか、ぜひ知っておきましょう。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。目次機械学習とは教師あり学習とは教師なし学習とは強化学習とはディープラーニングとの違いとは機械学習の代表的なライブラリ田島悠介今回は機械学習について解説するよ。大石ゆかり田島メンター！機械学習って最近よく耳にしますね。具体的にどのような技術なんですか〜？田島悠介人工知能の中核をなす技術の1つなんだ。詳しく見ていこう。大石ゆかり分かりました！機械学習とは人工知能（AI）とは、「コンピューターが物事やルールを理解するための仕組み」の様々な技術の総称です。コンピューターが物事やルールを理解するためには、人間が学習するプロセスと同様に、情報を与えて物事の特徴やルールを学習させなくてはなりません。この学習方法のことを機械学習（マシンラーニング）と呼びます。機械学習は、従来のプログラミングと違い、開発者が全ての動作をプログラミングするわけではありません。開発者はコンピューターにデータと分け方を与えます。コンピューターはその情報を元に、データの特徴を学習し、新たなデータに対する正解を予測します。例えば、以下のような手書き数字の画像データがあったとします。 MNIST 開発者は、この画像データに対する正解、「0」や「1」といった数値をペアで与えます。コンピューターは、画像データと正解の数値をもとに、数値毎の画像データの特徴を学習します。例えば「画像データのどの位置が濃い」といった特徴です。この学習の成果を「モデル」と言います。 tensorflow.org また、このことは、機械学習はデータの特徴をモデル化（数式化）できることを前提としている、とも捉えることができますね。そして、このモデルをもとに、新たな画像データの正解を「予測」します。これが機械学習の大まかな流れです。なお、人工知能の精度を高めるには、大量のデータでコンピューターに学習させることが必要です。2000年代に入り、高速・高性能なコンピューターが容易に入手できるようになりました。また、インターネットの発展により、従来より格段に多くのデータを収集できるようになりました。このことが、現代の機械学習の技術を支えています。それでは、次に機械学習の種類について確認して行きましょう。機械学習は大きく「教師あり学習」、「教師なし学習」、「強化学習」の3つに分けることができます。 [PR] AIプログラミングコース教師あり学習教師あり学習とは、データと正解を与えて、コンピューターに学習させる方法です。前出の手書き数字の学習例も教師あり学習です。教師あり学習は、分類問題と回帰問題に分けることができます。分類問題分類問題は、データを種類ごとに分けることを目標とします。例えば画像データを与えて花の種類を予測する、音声データを与えて文字を予測する、これらは分類問題となります。 Iris_flower_data_set 回帰問題回帰問題は、データの特徴から、新しいデータに対する値を予測することを目標とします。例えば株価の予測や、天気予報、これらは回帰問題となります。教師あり学習の手法次に代表的な教師あり学習の手法について紹介します。線形回帰、線形分類データを直線で予測するのが線形回帰、直線で分けるのが線形分類です。線形回帰（分類）は、学習も予測も高速で、モデルをシンプルに構築できる特徴があります。また古くから研究されており、以外に線形回帰（分類）できるデータは多いため、まず最初に検討してみるべき機械学習の手法の1つでしょう。 Wikipedia SVM(サポートベクターマシン) SVMは線形回帰（分類）の手法の1つです。線形回帰（分類）は直線で分類を行うのに対し、SVMは超平面分離定理という考え方をもとに、空間をねじれさせることで、最終的に曲線で回帰（分類）を行う手法です。 SVMは優れた機械学習の手法の1つで、ディープラーニングが登場するまでは、とても多く使われていました。モデルをシンプルに構築出来、精度も良いことから、現在でも多く使われている手法です。決定木木構造のモデルにより分類する手法です。決定木は機械学習の手法としてだけでなく、意思決定を助けるためのツールとしてもよく用いられます。他の手法に比べて、人間が見てもモデルを理解しやすいことから、リスクマネジメントのような、人間の判断が必要な分野の予測によく用いられます。 Wikipedia ニューラルネットワークニューラルネットワークは、重回帰分析（多変数解析）の手法の1つです。人の神経回路をモデルとしており、機械学習の手法としては、最も古く(1950年代)から研究された来たものの1つです。 Wikipedia ロジスティック回帰「回帰」と書いていますが「分類」の手法です。ニューラルネットワークのモデルの一部を変更（活性化関数をシグモイド関数に変更）したものです。ディープラーニングの1層版です。ディープラーニングはこのロジスティック回帰を複数層組み合わせたモデルです。教師なし学習とは教師なし学習とは、データだけ与えて、コンピューターにデータをグループ化（クラスタリング）させる方法です。例えば通販サイトで商品を購入した時「この商品を買った人はこんな商品も買っています」という文章を見たことは無いでしょうか。これは、コンピューターに「購買履歴」のデータを与えることで、教師なし学習により「商品Aを買った人は、商品Bを買う確率が高い」というようにユーザをグループ化することで実現しています。また、教師なし学習には主成分分析といって、データ分析をより行いやすくするための方法もあります。教師なし学習には以下のような手法があります。 k平均法クラスタ（分類するグループ）の数を決め、クラスタの数分、ランダムな点を起きます。各データは一番近い点に所属させます。所属が決まったら、クラスタに属するデータの中心を新しい点とします。これを繰り返すことでデータをグループ化します。主成分分析機械学習でモデルを構築する際、その前段階として、データの次元（説明変数の数）を削減するために用いられます。変数同士の相関度合いと寄与率をもとに、複数の変数を相関の少ない「主成分」と呼ばれる変数にまとめる手法です。これにより、機械学習のモデルをシンプルに構築することができるようになります。強化学習とは強化学習とは、よい結果には報酬を与えることにより、コンピューター自らに最適な方法を導き出させるようにする学習方法です。ゲームやロボットの学習によく用いられます。強化学習では、守るべきルールと、行動に対する報酬が与えられます。例えば、トランプのゲームにおいては、守るべきルールはゲームのルール、行動に対する報酬としては、勝つことに対する報酬、のようになります。コンピューターはその情報をもとに、考えられるパターンをランダムに試行していきます。最初は全く上手く行かないように見えますが、何度も試行していくうちに、コンピューターはより報酬を多く得られる行動を選択するようになります。代表的な手法として、Q学習といった手法が知られています。ディープラーニングとの違いとはそれでは、機械学習と並んでよく耳にする、ディープラーニングとは、どのような違いがあるのでしょう。結論としては、ディープラーニングは機械学習をより発展させたものです。機械学習はデータの特徴をモデルで表します。しかし、機械学習ではデータの特徴は何かを開発者が指示しなくてはなりません。手書き数字の画像データを例にすると、「画像データの濃淡」がデータの特徴である、ということを開発者が指示します。これに対して、ディープラーニングは、データの特徴自体をコンピューターが見つけます。つまり、データのどこに注目すれば良いかということをコンピューター自身が学習して見つけ出すことで、自動的にどんどん賢くなっていく、という訳です。 tensorflow.org 機械学習の代表的なライブラリそれでは最後に、機械学習の代表的なライブラリを紹介します。 scikit-learn 機械学習のライブラリと言えば、まずはscikit-learnです。教師あり学習・教師なし学習とも、基本的な機械学習の理解を深めるには、初学者はscikit-learnから学習することをおすすめします。 scikit-learnには、多くの機械学習のモデルとテスト用データセットが含まれており、初学者でもすぐ機械学習を試してみることができます。 scikit-learnの特徴は、ほんの少しのソースコードの変更だけで、モデルを変更した機械学習を行える点です。例えば、最初、SVM(サポートベクターマシン)でモデルを構築したとしましょう。こちらはソースコードの一部です。 from sklearn import svm clf = svm.SVC(gamma=0.001) clf.fit(X_train, y_train) 次に、モデルをロジスティック回帰に変更してみます。 from sklearn.linear_model import LogisticRegression # ロジスティック回帰 clf = LogisticRegression() # ロジスティック回帰 clf.fit(X_train, y_train) このように、わずか2行変えるだけでモデルを変更できます。現在、機械学習(非深層学習)のライブラリと言えばscikit-learn、ほぼ一択です。現在は深層学習（ディープラーニング）のライブラリが主流となっています。 Tensorflow 深層学習（ディープラーニング）のライブラリで最も有名なものと言えばTensorflowです。TensorFlowはGoogleが開発し、オープンソースで公開しています。オープンソースで公開されているため、私たちはGoogleの最新の研究成果を自分の手で試してみることができます。例えば、画像分類のInception-v3というモデルは、人間を超える、約96%の画像正解率を達成しています。 TensorFlow Image Recognition 田島悠介機械学習について、理解は深まったかな？大石ゆかり機械学習の仕組みやライブラリの種類など、勉強になりましたー！田島悠介機械学習は、これからエンジニアの必須の知識として必要になってくるよ。深層学習や画像認識、自然言語処理については、また別のところで説明するね。大石ゆかり分かりました。ありがとうございました！今回は、機械学習について解説しました。これから機械学習を勉強したい、機械学習を使って何か作ってみたいという方は最初に理解しておきたい内容でしょう。また、オンラインのプログラミングスクールTechAcademyでは、AIオンライン講座を開催しています。 AI（人工知能）の構築に必要な機械学習・ディープラーニングについて実践的に学習することができます。現役エンジニアがパーソナルメンターとして受講生に1人ずつつき、マンツーマンのメンタリングで学習をサポートし、習得することが可能です。この記事を監修してくれた方太田和樹（おおたかずき） ITベンチャー企業のPM兼エンジニア普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。

機械学習

Pythonによるk-meansクラスタリングの実装方法を現役エンジニアが解説【初心者向け】

Pythonによるk-meansクラスタリングの実装方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。目次scikit-learnとはscikit-learnを利用するにはscikit-learnの主な機能scikit-learnを使った機械学習(1)scikit-learnを使った機械学習(2) そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonによるk-meansクラスタリングの実装方法について詳しく説明していくね！大石ゆかりお願いします！ 1. k-meansとは？ k-meansとはクラスタリングの手法の一つで、非階層型クラスタリングのアルゴリズムです。クラスタの平均を用いて、与えられたクラスタ数 k個に分類することからこの名前が付けられました。k平均法と呼ばれることもあります。非階層型クラスタリングとは、異なる性質の集団の中から似た特徴を持ったものでクラスタを行う手法のことです。階層型と異なり、階層的な構造を持たず、予め決められたクラスタ数でサンプルを分類します。サンプルが大量にある正規分布のデータに対して、データをグループ分けを行う際に効果的です。また、クラスタリングは機械学習の手法一つでアルゴリズムから特徴を見つけて分類を行うことから、「教師なし学習」となります。 2. NumpyのインストールここからはPythonでクラスタリングを行うための環境をセッティングしていきます。まずは、配列の演算を扱うためのライブラリとしてNumpyをインストールしていきます。以下のコマンドを実行してインストールします。 pip install numpy [PR] AIプログラミングコース3. Pandasのインストール続いて、サンプルデータのファイルを読み込み、データフレームの形式に変換するためにPandasをインストールします。 pip install pandas 4. scikit-learnのインストール機械学習ライブラリのscikit-learnをインストールします。scikit-laernは機械学習のアルゴリズムやサンプルのデータが同梱されています。 pip install scikit-learn 5. matplotlibのインストールクラスタリングの結果をグラフにプロットするためにmatplotlibをインストールします。 pip install matplotlib 6. 各ライブラリの使い方必要なライブラリをインストールできたら、ライブラリのインポートを行います。各ライブラリのインポートは以下の通りです。 from matplotlib import pyplot as plt from sklearn import datasets, preprocessing from sklearn.cluster import KMeans import numpy as np import pandas as pd これで必要なライブラリのインポートは完了です。それでは、具体的にライブラリの使い方を手順を交えて説明します。データの読み込みまずはクラスタリングに使用するデータを用意します。ここではscikit-learnを使用してデータセットの読み込みを行います。scikit-learnには分類や回帰といった機械学習の問題に使うことができるデータセットが同梱されています。使用可能なデータセットは以下の公式ドキュメントにまとめられています。 7. Dataset loading utilities ここでは、この中からワインの種類のデータセットを使っていきます。以下の記述でデータを読み込みます。 wine_data = datasets.load_wine() 前処理データを読み込んだ後、データを解析するために必要な前処理を行います。 pandasを使用し、先程読み込んだデータをデータフレームに変換していきます。 df = pd.DataFrame(wine_data.data, columns=wine_data.feature_names) ここで、このデータセットの構造を確認してみます。以下の1行で変換したデータフレームの最初の5行を出力します。 print(df.head()) 結果は以下のように出力され、13列のカラムがあることが分かります。 alcohol malic_acid ash alcalinity_of_ash magnesium ... proanthocyanins color_intensity hue od280/od315_of_diluted_wines proline 0 14.23

Python

初心者向け！機械学習を学ぶのにおすすめの本10選

今回は、機械学習を学ぶのにおすすめの本をまとめています。機械学習やディープラーニングを初めて学ぶ人におすすめの本、仕事でこれから使う人におすすめの本を紹介しています。書籍によって概念中心のもの、実践中心のものなど特徴が違うので、自分の好みに合った本を見つけてみてください。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。まず最初に、非エンジニア向けのおすすめ本を紹介します。仕事ではじめる機械学習仕事ではじめる機械学習特徴プロジェクトのはじめ方や、システム構成、学習のためのリソースの収集方法を中心にビジネスサイドの視点を踏まえた特徴があります。対象者深層学習も画像認識も自然言語処理も機械学習も全て含めて人工知能という1つのソフトウェアを使うと簡単に解決できるという思想の上司から、「人工知能のプロジェクト立ち上げるからあとよろしく」と言われて、現場を任された担当者向けです。学習できること最初に機械学習プロジェクトの流れを理解した上で、現場のシステムにおける機械学習の問題点を理解し、その対処方法を考えていきます。アルゴリズムについての学習では、例えば、パーセプトロン・ロジスティック回帰・SVM・ニューラルネットワーク・k-NN・決定木・ランダムフォレスト・GBDTを学習します。実装部分では、映画の推薦システムをつくるという内容で、実際に機械学習を利用した実装の解説があります。 60分でわかる! 機械学習&ディープラーニング超入門 60分でわかる! 機械学習&ディープラーニング超入門 (60分でわかる! IT知識) 特徴新聞を読むような感覚で機械学習とディープラーニングについて理解できます。対象者機械学習とディープラーニングを使うとどんなことができるのか全体像を理解したいビジネスマン向け学習できること自分で機械学習や人工知能について学習したい方だけでなく、だれかに説明することが出来るレベルの分かりやすい解説テキストとして学習利用することができます。 [PR] AIプログラミングコースやさしく学ぶ機械学習を理解するための数学のきほんアヤノ＆ミオと一緒に学ぶ機械学習の理論と数学、実装までやさしく学ぶ機械学習を理解するための数学のきほん ~アヤノ&ミオと一緒に学ぶ機械学習の理論と数学、実装まで~ 特徴忘れかけた高校卒業程度の数学の知識でも読むことが出来るという、機械学習というタイトル本の中でも抜きん出て安心感の有る文系向け機械学習解説本です。著者は、LINE Fukuoka株式会社に勤務しているデータエンジニアです。対象者機械学習に興味があるけど、数式が出てきた時点で意味がわからなくなってしまうという方向けです。学習できること基本的な機械学習の内容と、必要な数学の復習、PythonとNumPyの基礎について学習できます。ここから先はエンジニア向けの機械学習書籍です。 Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎 Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎特徴 scikit-learnのリリースマネージャである筆者が、機械学習の基礎だけでなく、「特徴量エンジニアリング」と「モデルの評価と改善」について詳しく解説している特徴があります。ここでは網羅できないほど多岐にわたる開発手法に関して、ちょうどよい掘り下げ方で解説してある点が特徴的です。対象者「特徴量エンジニアリング」と「モデルの評価と改善」に関しても関心があるエンジニア向け。学習できること scikit-learnと関連ライブラリの環境設定から、教師あり学習や、教師なし学習についても、その種類とメリット・デメリットに関して細かく解説してあります。「特徴量エンジニアリング」、「モデルの評価と改善」、「アルゴリズムチェーンとパイプライン」、「テキストデータの処理」等実践的な内容も学習できます。機械学習スタートアップシリーズベイズ推論による機械学習入門機械学習スタートアップシリーズベイズ推論による機械学習入門 (KS情報科学専門書) 特徴ベイズ主義機械学習に基づいた、モデルの構築→推論の導出という手順をステップ・バイ・ステップで解説してあるとう特徴をもちます。対象者ベイズ推論について学習したい入門者向け学習できること基本的な確率に関する期待値・離散確率分布・連続確率分布などの説明から、ベイズ推論・ポアソン混合モデルや、ガウス混合モデルを学習します。最終的には、線形次元削減・非負値行列因子分解・隠れマルコフモデル・トピックモデル・テンソル分解・ロジスティック回帰・ニューラルネットワーク等の応用モデルの学習を行います。機械学習入門ボルツマン機械学習から深層学習まで機械学習入門ボルツマン機械学習から深層学習まで特徴機械学習の基礎的な表現方法や単語の意味だけでなく、その背景を掘り下げて解説してある点が特徴的です。対象者機械学習初心者でもイラストを多用して学習したい入門者向け学習できることイラストを多用した入門者向けにもかかわらず、最終的には、ボルツマン機械学習による画像処理等の学習まで可能です。データサイエンスのための統計学入門 ―予測、分類、統計モデリング、統計的機械学習とRプログラミングデータサイエンスのための統計学入門 ―予測、分類、統計モデリング、統計的機械学習とRプログラミング特徴データサイエンティストに必要な統計学の基礎と、50種類の機械学習の基本概念を学習することができます。対象者データサイエンティストを目指すエンジニア向け学習できることデータの分類、分析、モデル化、予測という一連の手法において統計学の必要な内容・不要な項目を概念・プログラミング理論・数学の見地から学習することができます。分類では、ナイーブベイズ・判別分析・ロジスティック回帰・混同行列やROC曲線等の分類モデルの評価や、不均衡データの戦略についても学習することができます。統計的機械学習では、k近傍法・木モデル・バギングとランダムフォレスト・ブースティングを学習します。最終的には、成分分析・k平均クラスタリング・階層クラスタリング・モデルベースクラスタリング・スケーリングとカテゴリ変数を通じて、教師なし学習についての理解を深めることができます。 ITエンジニアのための機械学習理論入門 ITエンジニアのための機械学習理論入門特徴ビジネスサイドの担当者が読むにはハードルがある、機械学習のツールやライブラリの内部処理や、その結果をビジネスでどのように役立てるかを、ITエンジニア向けに解説してあるのが特徴です。対象者ビジネスサイドの要求で機械学習を開始する必要に迫られたITエンジニア向けです。ベイズ推定の専門書を読む前の入門書として良いです。学習できることまず、パーセプトロンによる分類アルゴリズムの基礎を学習します。次に、ロジスティック回帰とROC曲線を通じて、学習モデルの評価方法を習得します。そして、k平均法による教師なし学習モデルの基礎と、EMアルゴリズムによる、最尤推定法の教師なし学習を訓練します。最終的に、ベイズ推定モデルとベイズの定理や、ベイズ推定の回帰分析への応用を学習します。パターン認識と機械学習上パターン認識と機械学習上特徴 2006年の発行以来世界的にトップセールスを続ける機械学習の入門書です。翻訳も日本のトップ研究者たちが行っているため、学術知識に裏打ちされた日本語で読むことができます。各学習の最後には演習問題が用意されています。対象者数学的な見地から機械学習の理論を学習したいITエンジニア向けです。学習できること確率分布では、ベータ分布・ディリクレ分布・ガウス分布・指数型分布族・ノンパラメトリック法等を学習します。線形回帰モデルでは、線形基底関数モデル・ベイズ線形回帰・ベイズモデル比較・エビデンス近似等を学習します。線形識別モデルでは、識別関数（判別関数）・確率的生成モデル・確率的識別モデル・ラプラス近似・ベイズロジスティック回帰を学習します。最後にニューラルネットワークについて学習します。パターン認識と機械学習下パターン認識と機械学習下 (ベイズ理論による統計的予測) 特徴パターン認識に関する統計学的解説をすべて網羅している様な内容の濃い学習書です。機械学習エンジニアの辞書という特徴を持ちます。対象者機械学習エンジニアとして転職を考えるITエンジニア向け学習できること上巻を凌ぐ濃密な内容と共に、ベイズ理論による統計的予測を中心とした学習が可能です。なにより、インターネット上にこの本を元にした解説やサンプルプログラムが多いため、この本だけでは理解しづらい部分も、この本を通じて氷が溶けるように徐々に学習することができます。今回は、機械学習を学ぶのにおすすめの本を解説しました。書籍によって扱っている機械学習の分野も違うものがあるので、自分が学びたい部分があるか確認しておきましょう。言語もライブラリも様々な種類があるので、事前にチェックしておくことが重要です。また、オンラインのプログラミングスクールTechAcademyでは、AIオンライン講座を開催しています。 AI（人工知能）の構築に必要な機械学習・ディープラーニングについて実践的に学習することができます。現役エンジニアがパーソナルメンターとして受講生に1人ずつつき、マンツーマンのメンタリングで学習をサポートし、習得することが可能です。この記事を監修してくれた方中本賢吾（なかもとけんご）アジマッチ有限会社　代表取締役社長開発実績：PHPフレームワークを利用した会員制SNS・ネットショップ構築、AWSや専用サーバー下でLinuxを使用したセキュアな環境構築、人工知能を利用したシステム開発、店舗検索スマホアプリ開発など。その他にも地域の職業プログラマー育成活動を行い、2018年には小学生がUnityで開発したオリジナルAndroidアプリをGooglePlayでリリース。ゲームで遊ぶより作ろうぜ！を合言葉に、小学生でも起業できる技術力を育成可能で有ることを証明し続けている。

機械学習

データ分析のライブラリ！Pandasとは【初心者向け】｜現役エンジニアが解説

今回は、Pythonのデータ解析用ライブラリであるPandasについて解説します。 Pandasを使うと、データの統計量を表示したり、グラフ化するなど、データ分析（データサイエンス）や機械学習で必要となる作業を簡単に行うことができるようになります。 Pythonでデータ分析を行うには、必須のライブラリなので、ぜひこの記事を参考に、Pandasの使い方を覚えましょう。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。目次 Pandasとは Pandasの特徴 Pandasでできること Pandasを使うメリット Pandasを利用するにはダウンロード手順初期設定 Pandasの使い方 Pandasをより便利に使う方法 Pandasの勉強方法大石ゆかり田島メンター！Pandasというのは何でしょうか？田島悠介 Pythonのデータ解析用のライブラリだよ。Pythonでデータ分析や機械学習を行うには、必須のライブラリなんだ。大石ゆかりどのような機能があるのですか？田島悠介例を見ながら説明していくね！ Pandasとは Pandasは、Pythonでデータ分析を効率的に行うためのライブラリです。Pandasはオープンソース(BSDライセンス)で公開されており、個人／商用問わず、誰でも無料で利用することができます。 Pandasを使うと、データの読み込みや統計量の表示グラフ化データ分析に関する作業を容易に行うことができるようになります。また主要なコードはPythonまたはC言語で書かれており、Pythonだけでデータ分析を行うのと比較して、非常に高速に処理を行うことができます。データ分析（データサイエンス）は、機械学習を行うまでの前処理（データの読み込み、クリーニング、欠損値の補完、正規化など）が、全ての作業の8〜9割を占めると言われています。Pandasを使うとそのような処理が効率的に行えるようになるため、Pythonで機械学習を行うには、Pandasは必須のライブラリとなっています。 [PR] AIプログラミングコースPandasの特徴 Pythonによるデータ分析で多く使われているライブラリといえば、PandasやMatplotlib、NumPyなどがあげられます。これらのライブラリはそれぞれ以下のような特徴があります。 Pandas Pandasはデータの読込や並べ替え、欠損値（欠けている項目値）の補完などを行うことができるライブラリです。データ分析の前処理段階でとても多く利用されています。データの読込はCSVやテキストだけでなく、エクセルやインターネット上で提供されている株価情報など、多様な形式のデータを読み込むことが出来ます。また、Pandasの特徴はDataFrameという多機能な「表」にあります。DataFrameにはデータの平均値や行数などの概要的な特徴を把握する機能や、並べ替えや列名の変更などのデータを整形する機能があります。またキーを指定しての集計やMatplotlibと連携してのグラフによる可視化など、データ分析のデータ前処理の段階で便利な多くの機能が提供されています。データ分析の過程では、Pandasである程度データをきれいに整えてから、NumPyで数値計算を行うようといったように、使い分けて利用することが多いでしょう。 Matplotlib MatplotlibはPythonで代表的なグラフを描画するライブラリです。2Dだけでなく3Dも含めた多くの種類のグラフを描画することができます。 Matplotlibは慣れると使いやすいのですが、はじめは使い方がやや難しく感じると思います。そのような場合、PandasやSeabornなどのライブラリと組み合わせることで、見た目の良いグラフを簡単に描画することができます。 Matplotlibはデータ分析の様々な段階で、NumPyやPandasと組み合わせてデータの概要を把握したり、特徴を可視化するような目的で使用します。 NumPy NumPyは数値計算や行列演算を行うライブラリです。複数の数値を配列としてまとめて扱ったり、行列演算を行ったりするのが得意です。特にコンピューターで小数点以下を扱う際の標準的な形式である浮動小数点型の行列演算を高速に行うことが出来ます。また三角関数や平方根などの数値計算の機能も豊富です。 NumPyはある程度データの前処理が終わり、きれいに整ったデータに対して数値計算を行うのに向いているライブラリと言えます。 Pandasでできること Pandasには多くの機能があります。主に利用する機能を確認してみましょう。なお以下でDataFrameと記載しているのはDataFrameオブジェクトを指しています。データの読込 CSV形式のデータの読込：read_csv() Excelファイルの読込：read_excel() JSON文字列の読込：read_json() pickle形式(Pythonオブジェクトを保存する形式)によるデータの読込/書込：read_pickle()、to_pickle() インターネット上で提供されている株価情報の読込：pandas-datareader データの特徴を把握データの特徴を表示：DataFrame.info() 要約統計量を表示：DataFrame.describe() データの一部を表示：DataFrame.head()、DataFrame.tail() データの形状を表示：DataFrame.shape 行数を取得：DataFrame.index.values 列名を取得：DataFrame.columns.values それぞれの列の型を取得：DataFrame.dtypes データの切り出し（スライス）データのスライス：DataFrame[]、DataFrame.iloc[]、DataFrame.loc[] フィルタリング：DataFrame.query() データの並べ替え値による並べ替え：DataFrame.sort_values() インデックスによる並べ替え：DataFrame.sort_index() 列名の変更：DataFrame.rename() 集計列の集計：DataFrame.value_counts() 表の集計：DataFrame.groupby() ※groupby().sum()で合計、groupby().mean()で平均値得ることができる可視化 Matplotlibのimportが必要ヒストグラム：DataFrame.hist() 散布図、線グラフ：DataFrame.plot() 棒グラフ：DataFrame.bar() 箱ひげ図：DataFrame.boxplot() 欠損値の扱い欠損値の確認：DataFrame.isnull().sum() 欠損値に値を埋める：DataFrame.fillna() 欠損値のある行を削除する：DataFrame.dropna() その他カテゴリー変数の展開：get_dummies() 列同士の相関を確認：DataFrame.corr() Pandasを使うメリットデータ分析であればExcelなどの表計算ソフトを使えば十分という方も多いでしょう。Pandasを使うと、大量データに対して何度でも同じ処理をプログラムを実行するだけで行うことができるというメリットがあります。大量データの処理が可能 Pandasではパソコンのメモリ容量が許す限り、大量のデータをDataFrameに読み込んで処理を行うことが出来ます。動作速度も表計算ソフトほど遅くはなりません。同じ処理を何度も再実行できる 1つ1つの作業を人間が操作して行うのではなく「プログラム」として記述することで、何度でも全く同じ処理を繰り返し実行することが可能となります。データ分析では再現性が重要であり、手順書をもとにした人間の操作よりも、プログラムで処理自体を記述したほうが、確実に同じ処理を再実行することができます。また、大量データに対する処理は数時間～数日も時間を要することがあります。このような場合でも、人間はプログラムを実行して結果を待つだけです。表計算ソフトのように、付きっきりで操作し続ける必要はありません。さらにパソコンを複数台数用意して、条件を少し変えたプログラムを同時並行で実行して結果を比較する、といったことも容易に実現可能です。他のライブラリと連携し多彩な機能を実現できる他のライブラリと連携することで、プログラムを実行してグラフを描画したり、加工した結果を表計算ソフトのファイルとして出力するなど、Pandasだけでは行えない多くのことを実現することができます。 Pandasを利用するには Pandasを利用するには、Anacondaなどの「ディストリビューション」と呼ばれる開発環境をまとめたパッケージを使うのが簡単です。Anacondaは、データ分析やグラフ描画など、Pythonでよく利用されるライブラリを含んだ開発環境です。ここではAnacondaを例にダウンロード手順と初期設定について確認しましょう。ダウンロード手順 Anacondaの公式サイトからProducts > Individual Edition > Downloadを表示します。 Anaconda – Individual Edition – Download Windows、Mac共に「Python 3.7 – 64-Bit Graphical Installer」をクリックしてダウンロードします。なお、Python2.7は古いバージョンであり、サポート期間が2020年4月とすでに終了しています。どうしても必要な場合を除き、利用することは無いでしょう。ダウンロードしたファイルを実行することでインストールを行うことが出来ます。選択肢などは既定値のままで良いでしょう。初期設定インストールが終わったら、Anaconda Navigatorを起動します。はじめに初期設定として必要なライブラリをインストールしましょう。ライブラリのインストールはEnvironmentsから行います。Environmentsを開き、「Not installed」を選択して検索ボックスに「pandas」と入力します。一覧にPandasが表示されますので、チェックボックスで選択し、画面右下のApplyボタンを押すことでインストールすることができます。また、今回は説明用にscikit-learnのサンプルデータセット（トイデータセット）を使用します。同様にscikit-learnとnumpy、matplotlibもインストールしておきましょう。インストールが終わったらHomeに戻ります。プログラムはJupyter Notebookで作成します。画面の「jupyter notebook」と書かれた部分の「Launch」ボタンをクリックします。初回は「Install」ボタンになっており、クリックするとJupyter Notebookがインストールされます。以降は、Jupyter Notebookをもとに、Pandasの使い方を説明します。 Pandasの使い方 Pandasを使う際は、初めにPandasライブラリをインポートします。併せてサンプルデータセットも利用できるようにしておきましょう。 # Pandas、及び必要なライブラリのインポート import pandas as pd from pandas import DataFrame import numpy as np # サンプルデータセットを取得する from sklearn import datasets boston = datasets.load_boston() 実行結果は特にありません。エラーがでなければ、正しくインポートされています。次に、サンプルデータセットをPandasのDataFrame型に変換しておきます。なお、今回はサンプルデータセットを使いましたが、CSVデータを読み込むread_csvという命令も用意されています。 # PandasのDataFrame型に変換 df = DataFrame(boston.data, columns = boston.feature_names) # 目的変数をDataFrameへ追加 df['MEDV'] = np.array(boston.target) 準備が整いました。それではPandasの命令を幾つか見ていきましょう。データの概要を確認する先頭5行を表形式で表示する df.head() 実行結果は以下のようになります。行列数を表示する df.shape 実行結果は以下のようになります。 (506, 14) 細かい情報を表示する dataset.info() 実行結果は以下のようになります。 <class 'pandas.core.frame.DataFrame'> RangeIndex: 21613 entries, 0 to 21612 Data

機械学習

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

目次

scikit-learnとは

scikit-learnを利用するには

scikit-learnの主な機能

分類（classification）

SGD（stochastic gradient descent）

カーネル近似

Linear SVC

k近傍法

回帰（regression）

SGD（stochastic gradient descent）

LASSO、ElasticNet

Ridge、Liner SVR

SVR（ガウスカーネル）、Ensemble

クラスタリング（clustering）

KMeans

スペクトラルクラスタリング、GMM

MeanShift、VBGMM

その他の機能

次元削減

ハイパーパラメータの最適化

scikit-learnを使った機械学習(1)

データセットの読み込み

訓練データとテストデータの準備

学習

モデルの評価

scikit-learnを使った機械学習(2)

記事を検索

関連するキーワード

関連する記事

あわせてよく読まれている記事

TechAcademyから 現役エンジニアの方へ お知らせ

TechAcademyから
現役エンジニアの方へ
お知らせ