Python

Pythonのgroupbyメソッドを使う方法【初心者向け】

初心者向けにPythonのPandasライブラリのgroupbyメソッドの使い方について解説しています。groupbyを使うことでグループごとにデータを集計し、その最大値や最小値を求めることができます。groupbyの書き方と実行結果を実際の例で確認しましょう。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元：GMOリサーチ株式会社　調査期間：2021年8月12日～8月16日　調査対象：2020年8月以降にプログラミングスクールを受講した18～80歳の男女1,000名　調査手法：インターネット調査

PythonのPandasライブラリのgroupbyメソッドの使い方について解説します。

そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。

今回は、Pythonに関する内容だね！

どういう内容でしょうか？

Pandasライブラリのgroupbyメソッドの使い方について詳しく説明していくね！

お願いします！

groupbyメソッドとは

groupbyメソッドとは、pandasモジュールのDataFrameで利用できるメソッドです。

通常DataFrameは何らかの軸(例えば年月や性別)を含みます。

軸ごとにデータを集約し、平均値、最大値、最小値などを計算するためにgroupbyメソッドを使います。

groupbyメソッドの使い方

DataFrameオブジェクトに対し、groupbyメソッドを呼び出します。引数には複数指定できるものがありますが、byかlevelの指定が必須です。

byでは辞書、関数、ラベルを指定できます。

詳細は公式の文書を参照してください。

import pandas as pd
df = pd.DataFrame() # DataFrameインスタンスの作成
# dfに対する操作
grouped = df.groupby(by=...) # groupbyメソッドで集計

[PR] 未経験からWebエンジニアを目指す方法とは

実際に書いてみよう

サンプルコード

import seaborn as sns

iris = sns.load_dataset('iris')
print(iris.head())
print(iris.groupby('species').mean())

実行結果

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

            sepal_length  sepal_width  petal_length  petal_width
species
setosa             5.006        3.428         1.462        0.246
versicolor         5.936        2.770         4.260        1.326
virginica          6.588        2.974         5.552        2.026

解説

1,3行目でseabornモジュールをインポートし、組み込みのデータセット(iris=アヤメ)を読み込んでいます。

4行目でデータフレームの先頭5要素を表示しました。
なお、irisデータセットは150件のデータを含んでいます。

データの意味は左から順に萼片の長さ、萼弁の幅、花弁の長さ、花弁の幅、種別を示しています。

5行目でspecies(種別)で集計した上で、mean(平均値)を計算しています。

結果、種別ごとに萼片の長さ等の平均値が表示されました。

監修してくれたメンター

橋本紘希

システムインテグレータ企業勤務のシステムエンジニア。
開発実績: Javaプログラムを用いた業務用Webアプリケーションや、基幹システム用バッチアプリケーションなどの設計構築試験。

内容分かりやすくて良かったです！

ゆかりちゃんも分からないことがあったら質問してね！

分かりました。ありがとうございます！

TechAcademyでは、初心者でもPythonを使った人工知能（AI）や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。

挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。

Pythonのif文でand,or演算子を使って複数条件を指定する方法を現役エンジニアが解説【初心者向け】

Pythonのif文でand,or演算子を使って複数条件を指定する方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向け...

Python

Pythonにおけるパッケージ管理ツールのpipの利用方法を現役エンジニアが解説【初心者向け】

Pythonにおけるパッケージ管理ツールのpipの利用方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何な...

Python

Pythonでbytes型をstr型に変換して出力する方法を現役エンジニアが解説【初心者向け】

Pythonでbytes型をstr型に変換して出力する方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何な...

Python

Pythonの同期処理と非同期処理について現役エンジニアが解説【初心者向け】

Pythonの同期処理と非同期処理について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。 &nbs...

Python

Pythonで多重ループからbreakする方法を現役エンジニアが解説【初心者向け】

Pythonで多重ループからbreakする方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した...

Python

Pythonでlist（リスト）を検索する方法【初心者向け】現役エンジニアが解説

Pythonでリストの中の要素を検索する方法について解説します。目次リストとはリスト中の要素を検索する方法(存在・位...

Python

あわせてよく読まれている記事

データ分析のライブラリ！Pandasとは【初心者向け】｜現役エンジニアが解説

今回は、Pythonのデータ解析用ライブラリであるPandasについて解説します。 Pandasを使うと、データの統計量を表示したり、グラフ化するなど、データ分析（データサイエンス）や機械学習で必要となる作業を簡単に行うことができるようになります。 Pythonでデータ分析を行うには、必須のライブラリなので、ぜひこの記事を参考に、Pandasの使い方を覚えましょう。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。目次 Pandasとは Pandasの特徴 Pandasでできること Pandasを使うメリット Pandasを利用するにはダウンロード手順初期設定 Pandasの使い方 Pandasをより便利に使う方法 Pandasの勉強方法大石ゆかり田島メンター！Pandasというのは何でしょうか？田島悠介 Pythonのデータ解析用のライブラリだよ。Pythonでデータ分析や機械学習を行うには、必須のライブラリなんだ。大石ゆかりどのような機能があるのですか？田島悠介例を見ながら説明していくね！ Pandasとは Pandasは、Pythonでデータ分析を効率的に行うためのライブラリです。Pandasはオープンソース(BSDライセンス)で公開されており、個人／商用問わず、誰でも無料で利用することができます。 Pandasを使うと、データの読み込みや統計量の表示グラフ化データ分析に関する作業を容易に行うことができるようになります。また主要なコードはPythonまたはC言語で書かれており、Pythonだけでデータ分析を行うのと比較して、非常に高速に処理を行うことができます。データ分析（データサイエンス）は、機械学習を行うまでの前処理（データの読み込み、クリーニング、欠損値の補完、正規化など）が、全ての作業の8〜9割を占めると言われています。Pandasを使うとそのような処理が効率的に行えるようになるため、Pythonで機械学習を行うには、Pandasは必須のライブラリとなっています。 [PR] 未経験からWebエンジニアを目指す方法とはPandasの特徴 Pythonによるデータ分析で多く使われているライブラリといえば、PandasやMatplotlib、NumPyなどがあげられます。これらのライブラリはそれぞれ以下のような特徴があります。 Pandas Pandasはデータの読込や並べ替え、欠損値（欠けている項目値）の補完などを行うことができるライブラリです。データ分析の前処理段階でとても多く利用されています。データの読込はCSVやテキストだけでなく、エクセルやインターネット上で提供されている株価情報など、多様な形式のデータを読み込むことが出来ます。また、Pandasの特徴はDataFrameという多機能な「表」にあります。DataFrameにはデータの平均値や行数などの概要的な特徴を把握する機能や、並べ替えや列名の変更などのデータを整形する機能があります。またキーを指定しての集計やMatplotlibと連携してのグラフによる可視化など、データ分析のデータ前処理の段階で便利な多くの機能が提供されています。データ分析の過程では、Pandasである程度データをきれいに整えてから、NumPyで数値計算を行うようといったように、使い分けて利用することが多いでしょう。 Matplotlib MatplotlibはPythonで代表的なグラフを描画するライブラリです。2Dだけでなく3Dも含めた多くの種類のグラフを描画することができます。 Matplotlibは慣れると使いやすいのですが、はじめは使い方がやや難しく感じると思います。そのような場合、PandasやSeabornなどのライブラリと組み合わせることで、見た目の良いグラフを簡単に描画することができます。 Matplotlibはデータ分析の様々な段階で、NumPyやPandasと組み合わせてデータの概要を把握したり、特徴を可視化するような目的で使用します。 NumPy NumPyは数値計算や行列演算を行うライブラリです。複数の数値を配列としてまとめて扱ったり、行列演算を行ったりするのが得意です。特にコンピューターで小数点以下を扱う際の標準的な形式である浮動小数点型の行列演算を高速に行うことが出来ます。また三角関数や平方根などの数値計算の機能も豊富です。 NumPyはある程度データの前処理が終わり、きれいに整ったデータに対して数値計算を行うのに向いているライブラリと言えます。 Pandasでできること Pandasには多くの機能があります。主に利用する機能を確認してみましょう。なお以下でDataFrameと記載しているのはDataFrameオブジェクトを指しています。データの読込 CSV形式のデータの読込：read_csv() Excelファイルの読込：read_excel() JSON文字列の読込：read_json() pickle形式(Pythonオブジェクトを保存する形式)によるデータの読込/書込：read_pickle()、to_pickle() インターネット上で提供されている株価情報の読込：pandas-datareader データの特徴を把握データの特徴を表示：DataFrame.info() 要約統計量を表示：DataFrame.describe() データの一部を表示：DataFrame.head()、DataFrame.tail() データの形状を表示：DataFrame.shape 行数を取得：DataFrame.index.values 列名を取得：DataFrame.columns.values それぞれの列の型を取得：DataFrame.dtypes データの切り出し（スライス）データのスライス：DataFrame[]、DataFrame.iloc[]、DataFrame.loc[] フィルタリング：DataFrame.query() データの並べ替え値による並べ替え：DataFrame.sort_values() インデックスによる並べ替え：DataFrame.sort_index() 列名の変更：DataFrame.rename() 集計列の集計：DataFrame.value_counts() 表の集計：DataFrame.groupby() ※groupby().sum()で合計、groupby().mean()で平均値得ることができる可視化 Matplotlibのimportが必要ヒストグラム：DataFrame.hist() 散布図、線グラフ：DataFrame.plot() 棒グラフ：DataFrame.bar() 箱ひげ図：DataFrame.boxplot() 欠損値の扱い欠損値の確認：DataFrame.isnull().sum() 欠損値に値を埋める：DataFrame.fillna() 欠損値のある行を削除する：DataFrame.dropna() その他カテゴリー変数の展開：get_dummies() 列同士の相関を確認：DataFrame.corr() Pandasを使うメリットデータ分析であればExcelなどの表計算ソフトを使えば十分という方も多いでしょう。Pandasを使うと、大量データに対して何度でも同じ処理をプログラムを実行するだけで行うことができるというメリットがあります。大量データの処理が可能 Pandasではパソコンのメモリ容量が許す限り、大量のデータをDataFrameに読み込んで処理を行うことが出来ます。動作速度も表計算ソフトほど遅くはなりません。同じ処理を何度も再実行できる 1つ1つの作業を人間が操作して行うのではなく「プログラム」として記述することで、何度でも全く同じ処理を繰り返し実行することが可能となります。データ分析では再現性が重要であり、手順書をもとにした人間の操作よりも、プログラムで処理自体を記述したほうが、確実に同じ処理を再実行することができます。また、大量データに対する処理は数時間～数日も時間を要することがあります。このような場合でも、人間はプログラムを実行して結果を待つだけです。表計算ソフトのように、付きっきりで操作し続ける必要はありません。さらにパソコンを複数台数用意して、条件を少し変えたプログラムを同時並行で実行して結果を比較する、といったことも容易に実現可能です。他のライブラリと連携し多彩な機能を実現できる他のライブラリと連携することで、プログラムを実行してグラフを描画したり、加工した結果を表計算ソフトのファイルとして出力するなど、Pandasだけでは行えない多くのことを実現することができます。 Pandasを利用するには Pandasを利用するには、Anacondaなどの「ディストリビューション」と呼ばれる開発環境をまとめたパッケージを使うのが簡単です。Anacondaは、データ分析やグラフ描画など、Pythonでよく利用されるライブラリを含んだ開発環境です。ここではAnacondaを例にダウンロード手順と初期設定について確認しましょう。ダウンロード手順 Anacondaの公式サイトからProducts > Individual Edition > Downloadを表示します。 Anaconda – Individual Edition – Download Windows、Mac共に「Python 3.7 – 64-Bit Graphical Installer」をクリックしてダウンロードします。なお、Python2.7は古いバージョンであり、サポート期間が2020年4月とすでに終了しています。どうしても必要な場合を除き、利用することは無いでしょう。ダウンロードしたファイルを実行することでインストールを行うことが出来ます。選択肢などは既定値のままで良いでしょう。初期設定インストールが終わったら、Anaconda Navigatorを起動します。はじめに初期設定として必要なライブラリをインストールしましょう。ライブラリのインストールはEnvironmentsから行います。Environmentsを開き、「Not installed」を選択して検索ボックスに「pandas」と入力します。一覧にPandasが表示されますので、チェックボックスで選択し、画面右下のApplyボタンを押すことでインストールすることができます。また、今回は説明用にscikit-learnのサンプルデータセット（トイデータセット）を使用します。同様にscikit-learnとnumpy、matplotlibもインストールしておきましょう。インストールが終わったらHomeに戻ります。プログラムはJupyter Notebookで作成します。画面の「jupyter notebook」と書かれた部分の「Launch」ボタンをクリックします。初回は「Install」ボタンになっており、クリックするとJupyter Notebookがインストールされます。以降は、Jupyter Notebookをもとに、Pandasの使い方を説明します。 Pandasの使い方 Pandasを使う際は、初めにPandasライブラリをインポートします。併せてサンプルデータセットも利用できるようにしておきましょう。 # Pandas、及び必要なライブラリのインポート import pandas as pd from pandas import DataFrame import numpy as np # サンプルデータセットを取得する from sklearn import datasets boston = datasets.load_boston() 実行結果は特にありません。エラーがでなければ、正しくインポートされています。次に、サンプルデータセットをPandasのDataFrame型に変換しておきます。なお、今回はサンプルデータセットを使いましたが、CSVデータを読み込むread_csvという命令も用意されています。 # PandasのDataFrame型に変換 df = DataFrame(boston.data, columns = boston.feature_names) # 目的変数をDataFrameへ追加 df['MEDV'] = np.array(boston.target) 準備が整いました。それではPandasの命令を幾つか見ていきましょう。データの概要を確認する先頭5行を表形式で表示する df.head() 実行結果は以下のようになります。行列数を表示する df.shape 実行結果は以下のようになります。 (506, 14) 細かい情報を表示する dataset.info() 実行結果は以下のようになります。 <class 'pandas.core.frame.DataFrame'> RangeIndex: 21613 entries, 0 to 21612 Data

機械学習

Pythonでcsvファイルを読み書きする方法を現役エンジニアが解説【初心者向け】

Pythonでcsvファイルを読み書きする方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonでcsvファイルを読み書きする方法について詳しく説明していくね！大石ゆかりお願いします！ csv.readerの使い方 csvファイルとは、テキストファイルの1種で、ファイルの内部のデータがカンマで区切られて保持されているものです。 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 今回の記事ではcsvファイルの例として、機械学習で良く使われるIrisを使用します。以下のサイトの「iris.data」をクリックしてファイルをダウンロードして、ファイル名を「iris.csv」にリネームしておきましょう。 Index of /ml/machine-learning-databases/iris Pythonの標準ライブラリでcsvファイルの読み込みと書き込みを行えるのがcsvモジュールです。 csvモジュールはファイルの読み込みまたは書き込みを行うファイルオブジェクトと共に使用します。ファイルの読み書きについては以下の記事も参考にしてください。 Pythonでファイルに書き込む方法【初心者向け】 csvファイルを読み込むにはcsv.readerを使用します。 csv.readerを使うことで、csvファイルを1行ずつ、list型で取得できます。それぞれの項目の型は文字列となります。 import csv file = open('iris.csv', 'r', encoding = "utf_8") reader = csv.reader(file) for row in reader: ? # csvファイル1行ずつの処理を記述 file.close() csvファイルの中身を出力するそれでは実際にcsvファイルの中身を出力してみましょう。 file = open('iris.csv', 'r', encoding = "utf_8") reader = csv.reader(file) for row in reader: print(row) file.close() 実行結果は以下のようになります(一部)。 ['5.1', '3.5', '1.4', '0.2', 'Iris-setosa'] ['4.9', '3.0', '1.4', '0.2', 'Iris-setosa'] ['4.7', '3.2', '1.3', '0.2', 'Iris-setosa'] ['4.6', '3.1', '1.5', '0.2', 'Iris-setosa'] ['5.0', '3.6', '1.4', '0.2', 'Iris-setosa'] [PR] 未経験からWebエンジニアを目指す方法とはcsv.writerの使い方 csvファイルに書き込みを行うにはcsv.writerを使用します。 file = open('iris2.csv', 'w', encoding

Python

PythonのPandasのDataFrameについて現役エンジニアが解説【初心者向け】

PythonのPandasのDataFrameについて、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。 Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 PythonのPandasのDataFrameについて詳しく説明していくね！大石ゆかりお願いします！目次 Pandasとは PandasのDataFrameについて実際に書いてみようまとめ Pandasとは Pandasとは、データ分析を効率的に行うための外部ライブラリです。 Pandasをインストールするにはターミナル上に以下のようにcondaやpipなどのコマンドを打ちます。（この辺りはご自身の環境でどちらのパッケージマネージャーを使っているかによって異なります。） pip install pandas もしくは conda install pandas これでPandasがインストールできたかと思います。Pandasは一般的に以下のようにpdという名前を付けてimportします。（この記事を執筆するにあたってはjupyter notebookを用いています。） import pandas as pd Pandasを使うと、データの読み込みや表示だけでなく、データのグラフ化なども簡単に実現できます。CSVファイルを読み込んでPythonで扱うこともできるので非常に便利です。ちなみにCSVファイルはread_csv()メソッドにCSVファイルのパスを渡して以下のように読み込みます。 data = pd.read_csv("test.csv") 変数dataにはCSVファイルのデータが格納されました。実際に結果を表示してみます。（jupyter notebookではdataと変数名を打つと変数に格納されている中身を確認できます。）各生徒のテストの点数が科目ごとに表示されましたね。 [PR] 未経験からWebエンジニアを目指す方法とはPandasのDataFrameについて次に、Pandasを扱う際に必ず抑えておくべきDataFrameという概念についてご説明します。 DataFrameとは、Pandasで表形式のデータを扱うためのデータ型のことです。先ほどの例で言えば、変数dataにはDataFrameが格納されています。念のためデータ型をtype()関数で確認してみます。【出力結果】 type(data) 【実行結果】 pandas.core.frame.DataFrame これで、変数dataはDataFrame型であると確認できましたね。実際に書いてみようそれでは読み込んだデータを実際に扱っていきましょう。ここではDataFrameのスライスを実施してみます。スライスはDataFrame名.loc[行][列]の形で実施します。例えば[2,3]のようにリスト形式で行を、[“japanese”, “social_study”]のように列を指定することも可能です。 #2行目のデータを取得 data.loc[2] #2行目と3行目のデータを取得 data.loc[[2,3]] #2行目の"japanese"列にあるデータを取得 data.loc[2]["japanese"] #2,3行目の"japanese","social_study"列にあるデータを取得 data.loc[[2,3]][["japanese","social_study"]] 自由自在にスライスすることができたかと思います。この他にも色々な指定方法があるので、是非ご自身で試してみてください。まとめこの記事ではPandasでDataFrameを扱う方法についてご紹介しました。 Pandasを使うとデータの操作が効率良くできるようになり、非常に快適です。是非使いこなせるようになりましょう。監修してくれたメンター柴山真沙希（しばやままさき）大手IT企業などでエンジニアとして2年ほど勤務した後、個人事業主としてプログラミングスクール「エンペサール」を経営。子供から大人まで幅広い層を対象にプログラミングを教えている。得意言語はPython, HTML, CSSで、機械学習やデータ分析、スクレイピングなどが得意。サッカー観戦や読書が趣味である。大石ゆかり内容分かりやすくて良かったです！田島悠介ゆかりちゃんも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！ TechAcademyでは、初心者でも、Pythonを使った人工知能（AI）や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。

Python

Pythonのpandasライブラリにおけるlocの利用方法について現役エンジニアが解説【初心者向け】

Pythonのpandasライブラリにおけるlocの利用方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。目次groupbyメソッドとはgroupbyメソッドの使い方実際に書いてみよう監修してくれたメンターそもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonのpandasライブラリにおけるlocの利用方法について詳しく説明していくね！大石ゆかりお願いします！この記事では、Pythonにおけるデータ解析のためのライブラリであるpandasのlocの使い方について解説します。 pandasとはまずは、pandasについて簡単に説明しておきます。 pandasというのは、Pythonにおいて表形式のデータ解析を効率的に行うためのライブラリです。 CSVなどのデータの読み込みや集計、データの加工、グラフ化、処理結果の保存などの処理ができます。また、機械学習においてもデータの前処理などで頻繁に使われています。データ解析、機械学習では必須のライブラリで、非常に便利で簡単に使うことができるため重宝されています。詳しい解説はデータ分析のライブラリ！Pandasとはなどを参考にしてください。 locとは pandasでは表形式のデータを扱う際に、DataFrameというデータ型を用います。このDataFrame型は、下の画像のような行(インデックス)と列から成る二次元のデータです。 locとは、行と列のラベルを指定して、各データである要素を参照するための方法の1つです。 locでは、行と列のラベル名を指定して、1つの要素を参照するだけでなく、範囲を指定して複数の要素を参照できます。具体的には、下記のように記述することで、指定した行、列についての要素が返ってきます。 DataFrameオブジェクト.loc['行ラベル名', '列ラベル名'] 複数の行、列を指定したい場合には、下のように行ラベル名のリスト、列ラベル名のリストを用います。 DataFrame型オブジェクト.loc[['行ラベル名1', '行ラベル名2', ...], ['列ラベル名1', '列ラベル名2', ...]] また、ラベルの指定の部分では、下記のようにスライス表記で範囲を指定することも可能です。 DataFrame型オブジェクト.loc['行ラベル名1' : '行ラベル名2', '列ラベル名1':'列ラベル名2'] [PR] 未経験からWebエンジニアを目指す方法とはlocを利用してCSVデータの値を取得してみようそれでは、実際にlocを使ってデータの値を取得してみましょう。なお、出力結果はJupyter Notebookでの結果を載せています。今回は、機械学習の練習の際によく使われるデータであり、scikit-learnに含まれているアヤメに関するデータを例として使います。まずはデータをダウンロードして、pandasで扱うDataFrame型に変換し、内容を確認してみましょう。 # ライブラリのインポート import pandas as pd from sklearn import datasets # 使うデータをダウンロード iris = datasets.load_iris() # データをDataFrameに変換 df = pd.DataFrame(iris.data, columns= iris.feature_names) # DataFrameの先頭の5行を表示 df.head(5) 読み込んだデータをDataFrame型に変換し、headメソッドで先頭5行を表示しています。下の画像のような出力結果になり、sepal length, sepal width, petal length, petal widthの4列から構成されるデータであることがわかります。出力それではlocを使って、このデータから一部の要素を抽出して取得してみましょう。 # locを用いて行が1、列が'sepal width (cm)'の要素を取得 df.loc[1, 'sepal width (cm)'] 出力 3.0 # locを用いて行が1,3,5、列が'sepal width (cm)', 'petal width (cm)'の要素を取得 df.loc[[1,3,5], ['sepal width (cm)', 'petal width (cm)']] 出力 # locを用いて行が1から5まで、列が'sepal

Python

Pythonのpandasを利用してcsvファイルを操作する方法を現役エンジニアが解説【初心者向け】

Pythonのpandasを利用してcsvファイルを操作する方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。目次groupbyメソッドとはgroupbyメソッドの使い方実際に書いてみよう監修してくれたメンターそもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonのpandasを利用してcsvファイルを操作する方法について詳しく説明していくね！大石ゆかりお願いします！ 1. pandasモジュールとは？ pandasは、データ解析を支援する機能を提供するPythonライブラリです。効率的な二次元データ操作のためのDataFrameという形式のオブジェクトを使って、データを整形したり、集計・結合させたりすることができるライブラリになっています。 pandasの機能としてcsvのデータを読み書きする機能も提供されています。今回は数多く存在するpandasの機能の中からcsvを操作する方法を紹介していきます。 2. pandasモジュールの使い方 2-1. ライブラリのインストール pipでインストールできますので、以下の1行を実行します。 pip install pandas 2-2. pandasにおけるDataFrame形式 pandasでcsvを読みこむ場合、DataFrame形式に変換して扱います。 pandasでcsvを操作する前にDataFrame形式について説明します。 DataFrameオブジェクトは、下の図のように、複数の行と列から成る表形式のデータです。列名と、行名（インデックス）の情報と、中身であるデータの情報を持っています。列名や行名を使って特定のデータを抽出したり、集計したりすることができるため、pythonで表形式のデータを扱う際に非常に有用です。 2-3. csvの読み込みインストールできたらPython上では以下のようにライブラリをインポートします。 import pandas as pd csvを読み込む際には以下のように記述します。 df = pd.read_csv("ファイル名") オンライン上にあるcsvデータを参照する場合はそのcsvのリンクを引数に指定しても参照できます。上記のコードによって、csvデータの内容からpandasで処理可能なDataFrameオブジェクトが作成されます。ただし、そのまま読み込むとcsvの1行目が列名として扱われます。使用するデータに列名がない場合は、以下のように引数にheader=Noneとして列名のない設定にすれば、列名の代わりに自動的に0始まりの列番号を各列に割り振ることができます。 df = pd.read_csv('data/src/sample.csv', header=None) 2-4. csvの書き込み次にDataFrameをcsvとして書き込む方法です。書き込みたいDataFrameに対して、以下のコードでcsvを書き込みできます。 df.to_csv("ファイル名") [PR] 未経験からWebエンジニアを目指す方法とはpandasモジュールを利用してcsvファイルを操作してみようそれでは、実際にcsvファイルを操作してみましょう。今回は以下のcsvを使用します。テキストエディタに以下の文字列を保存してください。ファイル名はsample.csvとします。 name, age Taro, 24 Ken, 21 Ichiro, 32 データの準備ができたら、以下のコードを実行してみてください。 import pandas as pd df = pd.read_csv("sample.csv") df["work"] = ["Engineer", "Student", "Baseball Player"] df.to_csv("out.csv") df = pd.read_csv("sample.csv")でsamlpe.csvを読みこみ, DataFrame型に変換し変数dfに格納しています。 df["work"] = ["Engineer", "Student", "Baseball Player"]で、DataFrameに新しい列workを追加し、値を入れています。 df.to_csv("out.csv")でwork列が追加されたDataFrameをout.csvという名前で出力しています。出力されたout.csvを確認すると、以下のようにwork列が追加されたcsvが出力されます。 ,name, age,work 0,Taro,24,Engineer 1,Ken,21,Student 2,Ichiro,32,Baseball Player まとめ今回はpandasでcsvを取り扱う方法について紹介しました。標準ライブラリを使うよりも簡単にcsvを読み込むことができ、csv形式のデータ解析を行う際には大変便利な機能なのでおすすめです。大石ゆかり内容分かりやすくて良かったです！田島悠介ゆかりちゃんも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！ Pythonを学習中の方へこれで解説は終了です、お疲れさまでした。つまずかず「効率的に」学びたい副業や転職後の「現場で使える」知識やスキルを身につけたいプログラミングを学習していて、このように思ったことはありませんか？テックアカデミーのPythonコースでは、第一線で活躍する「プロのエンジニア」が教えているので、効率的に実践的なスキルを完全オンラインでしっかり習得できます。合格率10%の選考を通過した、選ばれたエンジニアの手厚いサポートを受けながら、人工知能（AI）や機械学習の基礎を学べます。まずは一度、無料体験で学習の悩みや今後のキャリアについて話してみて、「現役エンジニアから教わること」を実感してみてください。時間がない方、深く知ってから体験してみたい方は、今スグ見られる説明動画から先に視聴することをおすすめします！

Python

Pythonのpandasライブラリの使い方について現役エンジニアが解説【初心者向け】

Pythonのpandasライブラリの使い方について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonのpandasライブラリの使い方について詳しく説明していくね！大石ゆかりお願いします！目次 pandasとは pandasの使い方 pandasを利用してCSVデータを取得してみようまとめ pandasとは pandasとはPythonライブラリの一つでデータを効率的に処理する為に開発されたライブラリです。 PandasではCSV等の様々なデータフォーマットの読み込み・削除・追加・書き出し等の処理ができます。また、pandasのデータフレーム機能を利用する事で、python上で一次元や二次元のデータ処理を簡単に実行できます。 Python上でExcelのようなデータ操作ができるイメージです。Pythonを使ったデータサイエンス等の分野においても欠かすことのできないライブラリの1つとなってます。 [PR] 未経験からWebエンジニアを目指す方法とはpandasの使い方 pandasを使ってCSVデータを読み込む場合は下記のようなコードを使用します。 # pandasライブラリのimport import pandas as pd # CSVデータをpandasを使用して読み込む data = pd.read_csv('csvパス',index_col='インデックスとして使用する列番号') pandasを利用してCSVデータを取得してみようそれではサンプルコードを参考にpandasを利用してCSVデータを取得してましょう。サンプルコードで使用するCSVはこちらからダウンロードしてください。 [sample.csv] ID 商品名価格 1 りんご 150 2 みかん 100 3 ぶどう 300 4 ばなな 200 5 もも 500 サンプルコード # pandasライブラリのimport import pandas as pd # csvデータをpandasを使用して読み込む data = pd.read_csv('sample.csv',index_col=0,encoding='shift_jis') # 取得したデータを出力してみよう print(data) 実行結果 ID 商品名価格 1 りんご 150 2 みかん 100 3 ぶどう 300 4 ばなな 200 5 もも 500 解説コード2行目では、pandasライブラリを読み込んでいます。コード5行目では、pandasを利用してsample.csvを変数dataにデータフレームとして読み込んでいます。今回はサンプルコードと同じディレクトリにsample.csvを配置しているのでCSVファイルのパスはファイル名のみになります。また、今回用意しているsample.csvはshift-jisで保存されているのでencordingを使って文字コードを揃えるようにしましょう。コード8行目では、読み込んだCSVデータをデータフレーム形式で出力しています。実行結果では読み込んだCSVデータがデータフレーム形式で出力されている事が確認できます。まとめ今回は、Pythonのpandasライブラリの使い方について紹介しました。 Pythonのpandasライブラリを使用する事で様々なデータ処理を簡単に行うことができます。今回紹介した内容以外にもpandasには様々な便利な機能が用意されているので、興味のある方はそちらも是非学習してみて下さい。監修してくれたメンター菅繕久（すがよしひこ）現在はフリーランスのエンジニアをしていてプログラミング歴は8年目になります。普段は Python、FileMaker等を使って様々な業務で活用できるIoTプロダクトRPAツールを作成しています。開発実績としては、業務自動化ツール(在庫管理・発注・ファイル操作 etc)、電子カルテシステム、ロボット用プログラムなどがあります。 TechAcademyではPythonコースを担当しております。大石ゆかり内容分かりやすくて良かったです！田島悠介ゆかりちゃんも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！ TechAcademyでは、初心者でもPythonを使った人工知能（AI）や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。

Python

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

Pythonのgroupbyメソッドを使う方法【初心者向け】

groupbyメソッドとは

groupbyメソッドの使い方

実際に書いてみよう

サンプルコード

実行結果

解説

監修してくれたメンター

関連するキーワード

あわせてよく読まれている記事

データ分析のライブラリ！Pandasとは【初心者向け】｜現役エンジニアが解説

Pythonでcsvファイルを読み書きする方法を現役エンジニアが解説【初心者向け】

PythonのPandasのDataFrameについて現役エンジニアが解説【初心者向け】

Pythonのpandasライブラリにおけるlocの利用方法について現役エンジニアが解説【初心者向け】

Pythonのpandasを利用してcsvファイルを操作する方法を現役エンジニアが解説【初心者向け】

Pythonのpandasライブラリの使い方について現役エンジニアが解説【初心者向け】

TechAcademyから
現役エンジニアの方へ
お知らせ

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

groupbyメソッドとは

groupbyメソッドの使い方

実際に書いてみよう

サンプルコード

実行結果

解説

監修してくれたメンター

記事を検索

関連するキーワード

関連する記事

あわせてよく読まれている記事

TechAcademyから 現役エンジニアの方へ お知らせ

TechAcademyから
現役エンジニアの方へ
お知らせ