Pythonのpandasライブラリにおけるlocの利用方法について現役エンジニアが解説【初心者向け】
初心者向けにPythonのpandasライブラリにおけるlocの利用方法について現役エンジニアが解説しています。pandasとは、データ解析や機械学習を行うためのライブラリです。locとはDataFrame型のデータの要素を参照するための方法です。CSVデータを使ったlocの書き方や使い方を解説します。
テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日 調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名 調査手法:インターネット調査
監修してくれたメンター
清水 源一郎
テックアカデミーでは、Pythonコース、AIコース、データサイエンスコースを担当。
Pythonのpandasライブラリにおけるlocの利用方法について、テックアカデミーのメンター(現役エンジニア)が実際のコードを使用して初心者向けに解説します。
目次
そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。
今回は、Pythonに関する内容だね!
どういう内容でしょうか?
Pythonのpandasライブラリにおけるlocの利用方法について詳しく説明していくね!
お願いします!
この記事では、Pythonにおけるデータ解析のためのライブラリであるpandasのlocの使い方について解説します。
pandasとは
まずは、pandasについて簡単に説明しておきます。
pandasというのは、Pythonにおいて表形式のデータ解析を効率的に行うためのライブラリです。
CSVなどのデータの読み込みや集計、データの加工、グラフ化、処理結果の保存などの処理ができます。
また、機械学習においてもデータの前処理などで頻繁に使われています。
データ解析、機械学習では必須のライブラリで、非常に便利で簡単に使うことができるため重宝されています。
詳しい解説はデータ分析のライブラリ!Pandasとはなどを参考にしてください。
locとは
pandasでは表形式のデータを扱う際に、DataFrameというデータ型を用います。
このDataFrame型は、下の画像のような行(インデックス)と列から成る二次元のデータです。
locとは、行と列のラベルを指定して、各データである要素を参照するための方法の1つです。
locでは、行と列のラベル名を指定して、1つの要素を参照するだけでなく、範囲を指定して複数の要素を参照できます。
具体的には、下記のように記述することで、指定した行、列についての要素が返ってきます。
DataFrameオブジェクト.loc['行ラベル名', '列ラベル名']
複数の行、列を指定したい場合には、下のように行ラベル名のリスト、列ラベル名のリストを用います。
DataFrame型オブジェクト.loc[['行ラベル名1', '行ラベル名2', ...], ['列ラベル名1', '列ラベル名2', ...]]
また、ラベルの指定の部分では、下記のようにスライス表記で範囲を指定することも可能です。
DataFrame型オブジェクト.loc['行ラベル名1' : '行ラベル名2', '列ラベル名1':'列ラベル名2']
locを利用してCSVデータの値を取得してみよう
それでは、実際にlocを使ってデータの値を取得してみましょう。
なお、出力結果はJupyter Notebookでの結果を載せています。
今回は、機械学習の練習の際によく使われるデータであり、scikit-learnに含まれているアヤメに関するデータを例として使います。
まずはデータをダウンロードして、pandasで扱うDataFrame型に変換し、内容を確認してみましょう。
# ライブラリのインポート
import pandas as pd
from sklearn import datasets
# 使うデータをダウンロード
iris = datasets.load_iris()
# データをDataFrameに変換
df = pd.DataFrame(iris.data, columns= iris.feature_names)
# DataFrameの先頭の5行を表示
df.head(5)
読み込んだデータをDataFrame型に変換し、headメソッドで先頭5行を表示しています。
下の画像のような出力結果になり、sepal length, sepal width, petal length, petal widthの4列から構成されるデータであることがわかります。
出力
それではlocを使って、このデータから一部の要素を抽出して取得してみましょう。
# locを用いて行が1、列が'sepal width (cm)'の要素を取得
df.loc[1, 'sepal width (cm)']
出力
3.0
# locを用いて行が1,3,5、列が'sepal width (cm)', 'petal width (cm)'の要素を取得
df.loc[[1,3,5], ['sepal width (cm)', 'petal width (cm)']]
出力
# locを用いて行が1から5まで、列が'sepal width (cm)'から'petal width (cm)'までの要素を取得
df.loc[1:5, 'sepal width (cm)':'petal width (cm)']
出力
それぞれの場合で指定した範囲の値が表示されていますね。
このように、locを使って行と列を指定することで、任意の範囲の値を取得できます。
まとめ
この記事ではpandasを用いて、DataFrameの要素を指定して参照するlocの使い方について解説しました。
pandasの基本的な使い方でもあるので覚えておくと良いでしょう。
内容が分かりやすくて良かったです!
ゆかりちゃんも分からないことがあったら質問してね!
分かりました。ありがとうございます!
Pythonを学習中の方へ
これで解説は終了です、お疲れさまでした。
- つまずかず「効率的に」学びたい
- 副業や転職後の「現場で使える」知識やスキルを身につけたい
プログラミングを学習していて、このように思ったことはありませんか?
テックアカデミーのPythonコースでは、第一線で活躍する「プロのエンジニア」が教えているので、効率的に実践的なスキルを完全オンラインでしっかり習得できます。
合格率10%の選考を通過した、選ばれたエンジニアの手厚いサポートを受けながら、人工知能(AI)や機械学習の基礎を学べます。
まずは一度、無料体験で学習の悩みや今後のキャリアについて話してみて、「現役エンジニアから教わること」を実感してみてください。
時間がない方、深く知ってから体験してみたい方は、今スグ見られる説明動画から先に視聴することをおすすめします!