Python

PythonのKerasでMNISTデータを処理する方法を現役エンジニアが解説【初心者向け】

初心者向けにPythonのKerasでMNISTデータを処理する方法について現役エンジニアが解説しています。MNIST（エムニスト）とは、画像認識やディープラーニングの分野で用いられる手書き数字の画像データセットです。Keras（ケラス）とはディープラーニングを実装するためのライブラリです。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元：GMOリサーチ株式会社　調査期間：2021年8月12日～8月16日　調査対象：2020年8月以降にプログラミングスクールを受講した18～80歳の男女1,000名　調査手法：インターネット調査

PythonのKerasでMNISTデータを処理する方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。

Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まるでしょう。

なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。

今回は、Pythonに関する内容だね！

どういう内容でしょうか？

PythonのKerasでMNISTデータを処理する方法について詳しく説明していくね！

お願いします！

MNISTとは

MNIST（エムニスト）とは、「画像認識やディープラーニングの分野で使用される最も有名な手書き数字の画像データセット」です。

汎用性が高く、初心者から研究者まで幅広く用いられているのが特徴です。

また、MNISTは画像1枚につき0から9までのいずれかの数字が1つ書かれています。

1枚の画像は26×26ピクセルのモノクロ画像であり、画像は訓練データ60000枚、テストデータ10000枚から構成されています。

訓練データとテストデータは、例えば手書きで7と書かれているデータに対して、7という正解ラベルが付与されている状態です。

訓練データを使って学習を実施し、その学習結果をテストデータで評価するという関係性があります。

Kerasとは

Keras（ケラス）とは、「ディープラーニングのプログラムを簡単に実装するためのライブラリ」です。

Kerasは内部で、TensorFlow（テンソルフロー）といったディープラーニングのためのライブラリを使用しています。

TensorFlowは、上級者向けのライブラリであるため、「学習コストが高い」「実装が困難」といった課題がありました。

そのため、誰でも比較的簡単にディープラーニングを実装できるようにしたものがKerasです。

Kerasを使えば、その内容まで理解せずともディープラーニングを実装することが可能です。

しかし、応用が効きにくいといったデメリットがあることは覚えておきましょう。

[PR] 未経験からWebエンジニアを目指す方法とは

Kerasの使い方

AnacondaからKerasを用いる方法を解説していきます。

AnacondaにKerasをインストール手順は以下の通りです。

メニュー画面のEnvironmentsから、Not Installedを選択。
検索ボックスにKerasと入力。
Kerasを選択し、右下のApplyボタンを押す。

同様の操作でTensorFlowもインストールしておきましょう。

KerasでMNIST データを処理するために、AnacondaからKerasをインストールする方法。

実際に書いてみよう

ここでは、Kerasを使ってMNIST読み込み、簡単なデータの前処理を実施してみます。

今回は以下のようなコードを使用していきましょう。

import numpy as np
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.utils import np_utils
(X_train, y_train), (X_test, y_test) = mnist.load_data()
#それぞれの形式を確認
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)
X_train = X_train.reshape(60000, 784)
X_test = X_test.reshape(10000, 784)
#uint8からfloat32に変換
X_train = X_train.astype("float32")
X_test = X_test.astype("float32")
#0~1の範囲に正規化
X_train /= 255
X_test /= 255
#正解ラベルをone-hot表現に変換
Y_train = np_utils.to_categorical(y_train, 10)
Y_test = np_utils.to_categorical(y_test, 10)

mnist.load_data()はMNISTを読み込むために使用します。

そして、shapeではそれぞれのデータの形式を確認し、学習のためにreshapeで形式を整形しました。

正規化のためにデータ型をfloat32に変換し、実際に正規化しています。

正解ラベルはone-hot表現（例えば正解が7の場合、7そのものではなく[0,0,0,0,0,0,0,1,0,0]のように1が入っている場所で7という数値を表す方法）で表しています。

まとめ

この記事では、KerasでMNISTを扱う方法について解説しました。。

Kerasを使いこなせるようになると、ディープラーニングの開発効率が上がるため、学習していきましょう。

執筆してくれたメンター

柴山真沙希（しばやままさき）

大手IT企業などでエンジニアとして2年ほど勤務した後、個人事業主としてプログラミングスクール「エンペサール」を経営。

子供から大人まで幅広い層を対象にプログラミングを教えている。

得意言語はPython, HTML, CSSで、機械学習やデータ分析、スクレイピングなどが得意。

サッカー観戦や読書が趣味である。

PythonのKerasでMNISTデータを処理する方法がよく分かったので良かったです！

ゆかりちゃん、今後も分からないことがあったら質問してね！

分かりました。ありがとうございます！

TechAcademyでは、初心者でも、Pythonを使った人工知能（AI）や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。

また、現役エンジニアから学べる無料体験も実施しているので、参加してみてください。

Pythonでドット積を求めるdot関数の使い方【初心者向け】

Pythonでドット積を求める方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むと...

Python

Pythonにおけるunicode decode errorに関する回避方法を現役エンジニアが解説【初心者向け

Pythonにおけるunicode decode errorに関する回避方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心...

Python

Pythonでcronによりプログラムを定期実行する方法（Unix系OS限定）を現役エンジニアが解説【初心者向

Pythonでcronによりプログラムを定期実行する方法（Unix系OS限定）について解説します。そもそもPythonについてよく分からないという方は、...

Python

Pythonでtype関数を利用して型判定する方法を現役エンジニアが解説【初心者向け】

Pythonでtype関数を利用して型判定する方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。...

Python

Pythonのinputによる複数の値入力について現役エンジニアが解説【初心者向け】

Pythonのinputによる複数の値入力について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。そ...

Python

Pythonのリストの要素をmap関数を利用して一括で型変換する方法を現役エンジニアが解説【初心者向け】

Pythonのリストの要素をmap関数を利用して一括で型変換する方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者...

Python

あわせてよく読まれている記事

深層学習のライブラリ！Kerasの使い方【初心者向け】

今回は、深層学習（ディープラーニング）のライブラリであるKerasについて解説します。 Kerasを学習することで、簡単なコードで機械学習のアルゴリズムのライブラリを利用できます。実務でも、文章自動生成、画像認識、自動応答などの分野でKerasを利用するので、Kerasを学習してみてください。目次MNISTとはKerasとはKerasの使い方実際に書いてみようまとめ執筆してくれたメンター大石ゆかり田島メンター！Kerasというのは何でしょうか？田島悠介深層学習（ディープラーニング）のライブラリのことだよ。TensorFlowやTheanoのような他のライブラリより、簡単にプログラムを書くことができるんだ。大石ゆかりどのような機能があるのですか？田島悠介例を見ながら説明していくね！ Kerasとは Kerasは、オープンソースの深層学習（ディープラーニング）のライブラリです。ライブラリとは、便利な機能を使いやすくまとめているプログラムです。ライブラリについては、自分で必要な本を書くのではなく、図書館のように読みたい本がまとまっている施設で、必要な本を読んで利用するというような便利機能です。 Kerasは、「ケラス」と読みます。 Kerasは、TensorFlowやMicrosoft Cognitive Toolkit(CNTK)、ONNX、Theanoといった他の深層学習（ディープラーニング）のライブラリの上で動作します。 TensorFlowとは、「テンソルフロー」や「テンサーフロー」と読みます。 TensorFlowは、Googleが開発したニューラルネットという脳機能の特徴をシミュレーションする計算ライブラリです。 Microsoft Cognitive Toolkit(CNTK)とは、「マイクロソフトコグニティブツールキット」と読みます。 Microsoft Cognitive Toolkit(CNTK)は、マイクロソフトが開発した統合深層学習ツールキットです。 Theanoとは、「テアノ」と読みます。 Theanoは、直感的な数式を実装することで、深層学習の微分を実行することができるライブラリです。 Kerasの情報は、公式サイトやブログ、GitHubなどから入手できます。 Keras公式サイト Kerasに関する情報を体系的に得ることができます。簡単なチュートリアル（Getting Start）もあります。 Keras公式サイト Keras公式ブログ Kerasに関する最新情報、サンプルプログラムなどが公開されています。ブログ Keras 公式GitHub Kerasのソースコードが公開されています。 GitHub Kerasを利用するには Kerasを利用するには、Anacondaなどの開発環境のパッケージを使うのが簡単です。 Anacondaについては、効率的に開発！AnacondaでPythonの環境構築する方法を参考にしてみてください。 Anacondaは、データ分析やグラフ描画など、Pythonでよく利用されるライブラリを含んだ開発環境です。なお、Anacondaなどの開発環境を利用せず、手動でKerasをインストールして利用することもできますが、今回は解説しておりません。テックアカデミーAIコースでは、コマンドから指定してTensorFlowをインストールしたり、プログラム内でKerasをインポートして利用する学習を行っておりますので、ご興味があればぜひご覧ください。 Kerasのインストール方法 AnacondaにKerasをインストールするには、次の操作を参考にしてください。 1．メニュー画面のEnvironmentsから、Not Installedを選択し、検索BOXに「keras」と入力します。 2．一覧にKerasが表示されますので、チェックボックスで選択し、画面右下のApplyボタンを押すことでインストールできます。同様に、TensorFlowも検索し、インストールしておきましょう。 [PR] 未経験からWebエンジニアを目指す方法とはKerasを使った深層学習（ディープラーニング）それでは、Kerasを使った深層学習（ディープラーニング）のプログラムを作ってみましょう。このプログラムは、KerasのGitHubのサンプルプログラム「mnist_mlp」を参考にしています。このプログラムは、MNISTという手書き文字の画像のデータセットを分類するものです。 MNISTは60,000件の訓練データと10,000件のテストデータで構成されています。各データ（画像）は28×28ピクセルの白黒画像です。 MNIST ソースコード全体はこちらです。一部コメントを日本語にしています。開発環境によってエラーが出る場合は、ご自身の環境に合わせて実行環境の修正をしておくと良いですよ。サンプルコード import keras from keras.datasets import mnist from keras.models import Sequential from keras.layers import Dense, Dropout from keras.optimizers import RMSprop batch_size = 128 # 訓練データを128ずつのデータに分けて学習させる num_classes = 10 # 分類させる数。数字なので10種類 epochs = 20 # 訓練データを繰り返し学習させる数 # 訓練データ(train)とテストデータ（test)を取得する (x_train, y_train), (x_test, y_test) = mnist.load_data() # 元のデータは1次元の配列なので、それを画像ごとの配列に整形する x_train = x_train.reshape(60000, 784) x_test = x_test.reshape(10000, 784) x_train = x_train.astype('float32') x_test = x_test.astype('float32') x_train

機械学習

テンソルフロー(TensorFlow)を利用したPythonによるAIプログラミングを現役エンジニアが解説【初心者向け】

テンソルフロー(TensorFlow)を利用したPythonによるAIプログラミングについて解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介テンソルフロー(TensorFlow)を利用したPythonによるAIプログラミングについて詳しく説明していくね！大石ゆかりお願いします！この記事では、TensorFlowと呼ばれるディープラーニング向けのライブラリを使って、Pythonで機械学習を実践してみます。機械学習を勉強中の方や、ディープラーニングを使ってみたい方は手を動かしながら読んでみると良いでしょう。 TensorFlowとは？ Pythonにおける通常の機械学習は、scikit-learnと呼ばれる機械学習に特化したライブラリを使うことによって、簡単に実践することができます。そして、通常の機械学習に加えて敷居が高いと思われがちなディープラーニングであっても、Pythonでは専用のライブラリを使えば誰でも簡単に実践することができます。 Pythonのディープラーニング向けライブラリにはいくつかありますが、今回はGoogle社が開発したTensorFlowというライブラリを使います。ディープラーニングの実践で注意しなければならないことは、通常のコンピュータを使ってディープラーニングを行おうとすると、計算量が多く、時間がかかっていつまで経っても終わらないことがあるという点です。このようなデメリットは、ディープラーニングを行う際には注意しておくことが大事です。今回行うディープラーニングではそれほど重い処理を行うわけではないので安心してください。機械学習・ディープラーニングの学習に最適な環境機械学習や、データ解析では、Jupyter Notebookというブラウザ上で開発できる環境を使うことが多いです。 Jupyter Notebookを使うメリットは、コードや実行結果をそのままの形で保存できるので、後で振り返りやすい点や、実験的にコードを実行したいときに便利などたくさんあります。今回はJupyter Notebookを使ってディープラーニングを実践していきたいと思います。 Jupyter Notebookをインストールしていない方は、Jupyter Notebookをインストールしてから行ってください。 [PR] 未経験からWebエンジニアを目指す方法とはTensorFlowを導入してみようそれでは、TensorFlowを実際に導入してみましょう。この記事では、GPUではなく、CPUを使ったディープラーニングを行います。Windowsの場合はコマンドプロンプトで、Macの場合はコマンドラインで pip3 install tensorflow を実行してください。 Successfully installed tensorflow のようなものが表示されたら、TensorFlowのインストール完了です。 TensorFlowを使ってコードを書いてみよう今回は、Googleが公式に提供しているチュートリアルを参考にしてTensorFlowを動かしていきます。 MNISTファイルという手書き文字のデータを学習して、新しい手書き文字の数字を予測するというプログラムを書いていきます。それでは、順番にコードを書いていきましょう。まずは from __future__ import absolute_import, division, print_function, unicode_literals import tensorflow as tf この部分は必要なライブラリをインポートをしています。 1行目は、__future__ というモジュールからabsolute_import, division, print_funvtion, unicode_literalsというパッケージを読み込むためのものです。 2行目ではPythonでTensorFlowを実行するための部分です。次は、 mnist = tf.keras.datasets.mnist (x_train, y_train), (x_test, y_test) = mnist.load_data() x_train, x_test = x_train / 255.0, x_test / 255.0 と書いて実行してください。すると、MNISTファイルをダウンロードします。 MNISTファイルというのは”Mixed National Institute of Standards and Technology database”の頭文字を取ったもので、手書き数字の画像のデータセットです。 AIプログラミングではよく使われる画像のデータセットで、学習の際によく出てくるものなので、覚えておくと良いかもれません。 x_trainという学習用のデータと、学習済みのAIの性能を評価するためのx_testというテスト用のデータから成り立っています。 mnist = tf.keras.datasets.mnist でMNISTファイルをダウンロードし、 (x_train, y_train), (x_test, y_test) = mnist.load_data() でデータを訓練用とテスト用に分けています。その次の、 x_train, x_test =

Python

手書き数字のデータを扱う！Pythonでmnistを使う方法【初心者向け】

Pythonでmnistを使う方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 mnistの使い方について詳しく説明していくね！大石ゆかりお願いします！ mnistとは mnistとは、手書き数字の画像のデータのセットです。機械学習やディープラーニングを学ぶ際のデータセットとして良く用いられます。画像は全部で7万枚あり、トレーニング用データ6万枚とテスト用データ1万枚で構成されています。データは、画像データとラベルで構成されています。ラベルとは画像データが表す数字です。 1つ1つの画像はグレースケールで、大きさが縦28ピクセル・横28ピクセルです。各ピクセルには0〜255の値が格納されています。ちなみにmnistとは Mixed National Institute of Standards and Technology database の略です。 mnistの使い方 mnistを使うには、以下の方法があります。 THE MNIST DATABASE of handwritten digits からダウンロードするこちらが本家です。Yann LeCun さんのサイトからダウンロードできます。 http://yann.lecun.com/exdb/mnist/ scikit-learn を使い mldata.org からダウンロードする mldata.orgは機械学習用データを集めたサイトです。以下のように記述することで、 mnist をダウンロードできます。初回ダウンロードには時間がかかりますが、次回以降はダウンロード済のデータを読み込んで利用できます。ただし、 mldata.org は、しばしばサーバがダウンしており、ダウンロードできない場合があります。なお、scikit-learnには、 load_digits というメソッドで手書き数字のデータセットを取得できます。これは mnist を加工して作成した、縦8ピクセル・横8ピクセル、1800枚の小さなデータセットです。 mnist とは大きさも枚数も異なりますので注意してください。 from sklearn.datasets import fetch_mldata mnist = fetch_mldata('MNIST original', data_home=".") 各種機械学習のライブラリを使う最もおすすめの方法です。 TensorFlow や Keras などの機械学習のライブラリには、あらかじめ mnist をダウンロードするメソッドが用意されています。 [PR] 未経験からWebエンジニアを目指す方法とは実際に書いてみよう今回のサンプルプログラムでは、機械学習ライブラリの Keras を使い、 mnist のダウンロードと表示を行います。なお事前に必要なライブラリのインストールが必要です。 pip install keras pip install matplotlib サンプルプログラムは以下となります。 # 必要なライブラリのインポート from keras import

Python

使い方を解説！Googleが開発したTensorflow（テンサーフロー）とは【初心者向け】

今回は、Googleが開発し、オープンソースで公開している深層学習（ディープラーニング）のライブラリであるTensorflowについて、TechAcademyのメンター（現役エンジニア）が初心者向けに解説します。 Tensorflowというキーワードは聞いたことがあるが、何ができるか、どのような機能があるか、イメージしづらいのでは無いかと思います。ぜひ、この記事を参考に、Tensorflowにチャレンジしてみてください。なお本記事は、TechAcademyのオンラインブートキャンプ、AI講座とデータサイエンス講座の内容をもとに作成しています。目次 Tensorflowとは Tensorflowを利用するには Tensorflow使った深層学習（ディープラーニング）大石ゆかり田島メンター！Tensorflowというのは何でしょうか？田島悠介 Googleが開発し、オープンソースで公開している深層学習（ディープラーニング）のライブラリのことだよ。大石ゆかりどのような機能があるのですか？田島悠介例を見ながら説明していくね！ Tensorflowとは Tensorflowは、Googleが開発した、深層学習（ディープラーニング）・機械学習のライブラリです。「テンサーフロー」と読みます。Tensorflowはオープンソース（Apache 2.0 license）で公開されており、個人／商用問わず、誰でも無料で利用することができます。 Tensorflowは、2015年11月にオープンソースで公開された後、急速に開発が進められています。またGoogleをはじめ、TwitterやCocaCola、intelなど、多くの企業でマーケティングや製品開発など、多方面で使われています。 Tensorflowとは、深層学習の学習モデル（プログラム）を計算グラフという形で記述します。Tensorflowの仕組みを図式化した、Tensorflow Playgroundというサイトが分かりやすいので見てみましょう。画面左上の再生ボタンを押すと、入力データが左から流れ、学習結果が右側に表示されます。中央に「2 HIDDEN LAYERS」と表示されているのは、二層の隠しレイヤーを持った深層学習のモデルであることを表します。そして画面中央、赤枠で囲った部分がTensorflowの学習モデルを図式化したものです。いくつかの四角形が線で接続されているのが分かりますね。これを計算グラフと言います。四角形は多次元行列（Tensor）です。Tensorが流れる（flow）計算グラフで学習モデルを構築するので、Tensorflowという名前になった、と言われています。 [PR] 未経験からWebエンジニアを目指す方法とはTensorflowを利用するには Tensorflowを利用するには、Anacondaなどの開発環境のパッケージを使うのが簡単です。 Anaconda Anacondaは、データ分析やグラフ描画など、Pythonでよく利用されるライブラリを含んだ開発環境です。 AnacondaにTensorflowをインストールするには、メニュー画面のEnvironmentsから、Not Installedを選択し、検索BOXに「Tensor」と入力します。一覧にtensorflowが表示されますので、チェックボックスで選択し、画面右下のApplyボタンを押すことでインストールすることができます。なお、Anacondaなどの開発環境を利用せず、手動でTensorflowをインストールして利用することも出来ますが、中級者向けとなるため、手順は省略いたします。 Tensorflowを使った深層学習（ディープラーニング）それでは、Tensorflowを使った深層学習（ディープラーニング）のプログラムを作ってみましょう。このプログラムは、Tensorflowのサイトのチュートリアル「MNIST For ML Beginners」を参考にしています。 MNIST For ML Beginners # サンプル用データの取得 from tensorflow.examples.tutorials.mnist import input_data mnist = input_data.read_data_sets("MNIST_data/", one_hot=True) # Tensorflowライブラリを使うための宣言 import tensorflow as tf # 画像データを入れる空の入れ物を784個用意。784=32X32=1つの画像のピクセル数 x = tf.placeholder(tf.float32, [None, 784]) # 初期値にゼロをセットする。横784*縦10 W = tf.Variable(tf.zeros([784, 10])) b = tf.Variable(tf.zeros([10])) # softmax関数を使ったモデル。結果＝それぞれの数値の確率 y = tf.nn.softmax(tf.matmul(x, W) + b) # y_:正解値、後でデータをロードする y_ = tf.placeholder(tf.float32, [None, 10]) # y(推定値)とy_(正解)の差を最小にする、交差エントロピーは推定値とラベルデータ(正解)のずれ # reduce_mean:平均、reduce_sum:総和 cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1])) # トレーニング：重みを最適化して更新していく # GradientDescentOptimizer:勾配降下法。クロスエントロピーを最小化するよう学習率0.5でトレーニングさせる。 train_step

機械学習

機械学習のライブラリ！scikit-learnとは【初心者向け】現役エンジニアが解説

今回は、Pythonの代表的な機械学習のライブラリであるscikit-learnについて解説します。機械学習というと、複雑な数式を使ったり、なんだか難しそうなイメージですが、scikit-learnを使うと、とても手軽に機械学習を試してみることができます。ぜひ、この記事を参考に、機械学習にチャレンジしてみてください。目次 scikit-learnとは scikit-learnを利用するには scikit-learnの主な機能 scikit-learnを使った機械学習(1) scikit-learnを使った機械学習(2) scikit-learnとは scikit-learnは、Pythonの機械学習ライブラリです。「サイキット・ラーン」と読みます。 scikit-learnはオープンソース（BSD license）で公開されており、個人／商用問わず、誰でも無料で利用することができます。 scikit-learnは、現在も活発に開発が行われており、インターネット上で情報を探すのも容易です。多くの機械学習アルゴリズムが実装されていますが、どのアルゴリズムでも同じような書き方で利用することができます。また、サンプルのデータセット（トイデータセット）が付属しているため、インストールしてすぐ機械学習を試すことができます。このようなことから、初学者が機械学習を学び始めるには、最適のライブラリと言えます。他にもオープンソースで使えるPythonのライブラリをまとめているので、合わせてご覧ください。 [PR] 未経験からWebエンジニアを目指す方法とはscikit-learnを利用するには scikit-learnを利用するには、Anacondaなどの開発環境のパッケージを使うのが簡単です。 Anaconda Anacondaは、データ分析やグラフ描画など、Pythonでよく利用されるライブラリを含んだ開発環境です。もちろん、scikit-learnも含まれています。よって、Anacondaを導入するだけで、scikit-learnをすぐ利用することができます。 Anacondaにscikit-learnがインストールされているかは、メニュー画面のEnvironmentsから、Installedを選択し、検索BOXに「scikit-learn」と入力することで確認を行うことができます。なお、Anacondaなどの開発環境を利用せず、手動でscikit-learnをインストールして利用することもできます。中級者向けとなるため手順は省略いたしますが、その場合scikit-learnをインストールする前に、事前に以下のライブラリもインストールする必要があります。 NumPy Scipy Pandas scikit-learnの主な機能次にscikit-learnの主な機能、特に機械学習のモデルについて説明します。以下をご覧ください。これはscikit-learnのアルゴリズムチートシートと呼ばれます。 scikit-learnを用いて機械学習を行う際、自分が行いたい分析（分類／回帰／クラスタリングなど）について、適切なモデルを選択する際の手助けとなるものです。また、scikit-learnでは、簡単にモデルを取り替えて機械学習を行うことができます。モデルを取り替える方法については、以降の項で説明します。分類（classification）与えられたデータがどのクラスに属するかを判別するものです。教師あり学習の分類問題を解くアルゴリズムと表現できます。以下のような種類があります。 SGD（stochastic gradient descent）大規模データ（10万件以上）におすすめな、線形のクラス分類手法です。カーネル近似 SGDではうまく分類できない場合に利用する、非線形なクラス分類手法です。こちらも大規模データ向けです。 Linear SVC 中小規模（10万件未満）におすすめな、線形のクラス分類手法です。 k近傍法 Linear SVCではうまく分類できない場合に利用する、非線形なクラス分類手法です。こちらも中小規模データ向けです。この他、テキストデータの場合、ナイーブベイズという手法があります。回帰（regression）与えられたデータをもとに、目的とする値を予測するものです。教師あり学習の回帰問題を解くアルゴリズムと表現できます。以下のような種類があります。 SGD（stochastic gradient descent）大規模データ（10万件以上）におすすめな、線形の回帰分析手法です。 LASSO、ElasticNet 中小規模（10万件未満）で、説明変数の一部が重要な場合におすすめな、回帰分析手法です。 Ridge、Liner SVR 中小規模（10万件未満）で、説明変数の全てが重要な場合におすすめな、回帰分析手法です。 SVR（ガウスカーネル）、Ensemble Ridge、またはLinerSVRではうまく分析できない場合に利用する、非線形な回帰分析手法です。クラスタリング（clustering）与えられたデータを、なんらかの規則にのっとって分けるものです。教師なし学習のクラスタリング問題を解くアルゴリズムと表現できます。以下のような種類があります。 KMeans いくつのクラスタに分かれるのか、事前に決めることができる場合におすすめな、クラスタリング分析手法です。大規模データの場合、MiniBatchといって、データを分けながら学習させる手法を取ります。スペクトラルクラスタリング、GMM KMeansではうまく分析できない場合に利用する、非線形なクラスタリング分析手法です。 MeanShift、VBGMM いくつのクラスタに分かれるのか、事前に決めることができない場合におすすめな、クラスタリング分析手法です。その他の機能次元削減与えられたデータの次元数が多い場合、学習効率を上げるため、次元削減という前処理を行います。 PCA、カーネルPCA、Isomap、SpectralEmbeddingなどの手法があります。ハイパーパラメータの最適化機械学習を行う際、学習の方法などを調整する数値のことを「ハイパーパラメータ」と言います。グリッドサーチ、クロスバリデーションなどの手法があります。 scikit-learnを使った機械学習(1) それでは、scikit-learnを使った機械学習に挑戦してみましょう。今回は、scikit-learnのトイデータセットにある「手書き数字データセット」を使います。以下はanacondaを使った例で表示しています。データセットの読み込みはじめに、データセットを読み込み、どのようなデータが格納されているか、確認してみます。以下のコードを入力して実行して下さい。 # scikit-learn ライブラリの読み込み from sklearn import datasets # 手書き文字セットを読み込む digits = datasets.load_digits() # どのようなデータか、確認してみる import matplotlib.pyplot as plt plt.matshow(digits.images[0], cmap="Greys") plt.show() 実行結果は以下のようになります。数字の0のように見えますね。今回のプログラムでは、このような手書きの数字の画像データを使い、機械学習のモデルの学習と予測を行います。訓練データとテストデータの準備データセットには、「手書き数字の画像データ」と、それに対する「数字」が含まれます。データを訓練データとテストデータに分け、訓練データで学習した結果を、テストデータで検証します。 # 画像データを配列にしたもの(numpy.ndarray型) X = digits.data # 画像データに対する数字(numpy.ndarray型)。ラベルと言う y = digits.target # 訓練データとテストデータに分ける # 訓練データ：偶数行 X_train, y_train = X[0::2], y[0::2] # テストデータ：奇数行 X_test, y_test = X[1::2], y[1::2] 実行結果は特に表示されません。学習それでは、モデルに学習を行いましょう。以下ではSVMというアルゴリズムを選択しています。 # 学習器の作成。SVMというアルゴリズムを選択 from sklearn import svm clf = svm.SVC(gamma=0.001) # 訓練データとラベルで学習 clf.fit(X_train, y_train) 実行結果は以下のようになります。 SVMというアルゴリズムに対してどのような設定（パラメータ）を行ったかが表示されています。 SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,

機械学習

Pythonを利用してロジスティック回帰分析をする方法を現役エンジニアが解説【初心者向け】

Pythonを利用してロジスティック回帰分析をする方法について解説します。この記事では、Pythonでデータ解析や機械学習を使うときに必よく使われるscikit-learnと呼ばれるライブラリについて解説し、実際にscikit-learnを使った回帰分析を実践します。ぜひ参考にしてみてください。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonを利用してロジスティック回帰分析をする方法について詳しく説明していくね！大石ゆかりお願いします！ scikit-learnライブラリとは？ “scikit-learn”は「サイキット・ラーン」という呼ばれるPythonのデータ解析と機械学習に特化したライブラリです。このライブラリを使うことでPythonがわかる人なら、誰でも比較的簡単に数行で機械学習を実践することができます。 scikit-learnライブラリはNumpやScipyといった行列計算に必要なライブラリ、matplotlibといったグラフなどのデータの可視化に便利なライブラリが組み込まれています。また、scikit-learnのチートシートを使えば、使いたいデータに合った機械学習がどれに当たるのか、専門的な知識がなくてもすぐにわかるようになっています。 scikit-learnの記事を読んでみると、scikit-learnについてさらによく分かると思うので、詳しく知りたい方は参照してみてください。 scikit-learnモジュールのインポート scikit-learnを使うには、まずは、Anacondaと呼ばれるPythonのパッケージ管理ツールを使ってインストールするか、pipコマンドを使ってscikit-learnをインストールしてください。 Anacondaを使う場合は、コマンドプロンプト(Windows)、もしくは、ターミナル(Mac)で conda install scikit-learn を実行します、 pipを使う場合は、condaの部分をpipに変えて、 pip install scikit-learn を実行すれば、scikit-learnのインストールができます。コマンドを実行して、 Successfully installed scikit-learn ... と表示されれば大丈夫です。. . . の部分はscikit-learnのバージョンが表示されます。あとは、Pythonのコードで、scikit-kearnを import sklearn でインポートすればPythonでscikit-learnを使うことができます。 [PR] 未経験からWebエンジニアを目指す方法とはscikit-learnモジュールの使い方 scikit-learnにはデータ解析に便利なツールが数多く用意されています。主に、データセットデータの前処理機械学習モデルモデル評価、選択のための各ツールが提供されています。機械学習を試したい場合には、scikit-learnを使えば、データセットのダウンロードから性能の評価まで一貫して行なうことができるので、非常に便利です。データセットには、ボストンの住宅価格、アイリス(アヤメ)の花のデータ、手書き文字など様々なものがあります。データの前処理には、標準化、正規化などといったデータの加工に必要なツールがあります。そして、機械学習モデルには、「教師あり学習」と「教師なし学習」と呼ばれるの2種類のモデルがあり、チートシートを参照して複数のモデルの中から必要なモデルを選ぶことができます。 scikit-learnモジュールを利用してロジスティック回帰分析してみようそれでは、実際にscikit-learnを使ってみましょう。ここからは、Jupyterノートブックを用いることを想定しています。ですが、他の方法でも実践できるので使いたい環境で行なってください。今回は、ロジスティック回帰と呼ばれる機械学習を行います。ロジスティック回帰は教師あり学習に属するモデルで、クラス分類や確率の予測などに使われる分析手法です。ロジスティック回帰についての詳細な説明は省きますが、興味のある方はぜひ調べてみてください。Qiitaのこちらの記事などがオススメです。ではコードを書いていきましょう。まずは、scikit-learnと必要なツールをインポートします。 #必要なツールのインポート from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score import pandas as pd load_irisはアイリスデータセットをダウンロードするのに使います。アイリスというのは、花の名前ですが、より細かい種類に別れています。このアイリスの種類を予測するのが今回の目標です。 train_test_split：データセットを訓練用とテスト用に分けるときに使います StandardScaler：データの前処理手法の一つである標準化で用います LogisticRegression：今回学習に使うロジスティック回帰というモデルです accuracy_score：モデルの性能を評価するとき正解率を計算することに使います他にもここでは、pandasというライブラリをインポートしています。Pandasを用いることでデータを扱いやすくなっています。続いて、 iris_data = load_iris() iris_df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names) iris_df["target"] = iris_data.target とします。ここでは、アイリスデータセットを読み込み、pandasでデータフレームというデータ型に変換し、データフレームの”target”列に、予測する値となるラベルとして、花の種類を追加しています。次に、 #データセットをテスト用と訓練用に分ける x_train, x_test, y_train, y_test = train_test_split( iris_df.iloc[:, 0:4], iris_df.iloc[:, 4],

Python

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

PythonのKerasでMNISTデータを処理する方法を現役エンジニアが解説【初心者向け】

MNISTとは

Kerasとは

Kerasの使い方

実際に書いてみよう

まとめ

執筆してくれたメンター

関連するキーワード

あわせてよく読まれている記事

深層学習のライブラリ！Kerasの使い方【初心者向け】

テンソルフロー(TensorFlow)を利用したPythonによるAIプログラミングを現役エンジニアが解説【初心者向け】

手書き数字のデータを扱う！Pythonでmnistを使う方法【初心者向け】

使い方を解説！Googleが開発したTensorflow（テンサーフロー）とは【初心者向け】

機械学習のライブラリ！scikit-learnとは【初心者向け】現役エンジニアが解説

Pythonを利用してロジスティック回帰分析をする方法を現役エンジニアが解説【初心者向け】

TechAcademyから
現役エンジニアの方へ
お知らせ

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

MNISTとは

Kerasとは

Kerasの使い方

実際に書いてみよう

まとめ

執筆してくれたメンター

記事を検索

関連するキーワード

関連する記事

あわせてよく読まれている記事

TechAcademyから 現役エンジニアの方へ お知らせ

TechAcademyから
現役エンジニアの方へ
お知らせ