Python

PythonでXPathを利用しXML形式の文書から特定の要素を抽出する方法を現役エンジニアが解説【初心者向け】

初心者向けにPythonでXPathを利用する方法について現役エンジニアが解説しています。XPathとはXML形式の文書から特定の要素を抽出するための言語のことです。Pythonではlxmlというパッケージを使います。Webスクレイピングなどに使うことが出来ます。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元：GMOリサーチ株式会社　調査期間：2021年8月12日～8月16日　調査対象：2020年8月以降にプログラミングスクールを受講した18～80歳の男女1,000名　調査手法：インターネット調査

PythonでXPathを利用する方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。

Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。

今回は、Pythonに関する内容だね！

どういう内容でしょうか？

PythonでXPathを利用する方法について詳しく説明していくね！

お願いします！

XPathとは

XPathとは、XML Path Languageの略でXML形式の文書から特定の要素を抽出するための言語のことです。

XMLはHTMLの形式とよく似ており、HTMLにも対応しています。Webからデータ情報を収集する際に用いられるスクレイピングはまさにXPathを使って要素の抽出を行っています。

これからWebスクレイピングを始めたい方はXPathを知っておくといいでしょう。

lxmlのxpath関数の使い方

lxmlはPythonでXML構文を解析するためのパッケージになっています。pipでインストールする必要があるので以下の1行でインストールできます。

pip install lxml

まずは解析したい文書の形式を指定する必要があります。冒頭でも述べたとおり、lxmlではHTMLやXMLのデータを読み込むことができます。

そこで今回は実際のスクレイピングを想定してHTMLを読み込む方法を紹介します。まずは、HTMLを読み込むためにPythonの標準モジュールであるurllibをつかってHTMLをしゅとくします。なお、今回はexample.comを題材にHTMLの読み込みを行います。それでは、example.comのHTMLソースを取得していきます。

from urllib import request

source = request.urlopen("https://example.com")
data = source.read()
print(data.decode())

ここまででexample.comのHTMLの中身を見ることができるようになったと思います。ここからlxmlの出番です。先程読み込んだHTMLのデータを文字列として読み込んで、 html.fromstringでXPathを使える状態にします。

load_html = html.fromstring(str(data))

いよいよHTMLから要素を抽出しますが、ここで抽出するデータをXPathで指定する方法を紹介します。先程urllibで取得したHTMLを見てみます。

<!doctype html>
<html>
    <head>
        <title>Example Domain</title>

        <meta charset="utf-8" />
        <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
        <meta name="viewport" content="width=device-width, initial-scale=1" />
        <style type="text/css">
            body {
                background-color: #f0f0f2;
                margin: 0;
                padding: 0;
                font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
           }
           div {
               width: 600px;
               margin: 5em auto;
               padding: 2em;
               background-color: #fdfdff;
               border-radius: 0.5em;
               box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
           }
           a:link, a:visited {
               color: #38488f;
               text-decoration: none;
           }
           @media (max-width: 700px) {
               div {
                   margin: 0 auto;
                   width: auto;
               }
           }
        </style>
    </head>

    <body>
        <div>
            <h1>Example Domain</h1>
            <p>This domain is for use in illustrative examples in documents. You may use this
            domain in literature without prior coordination or asking for permission.</p>
            <p><a href="https://www.iana.org/domains/example">More information...</a></p>
        </div>
    </body>
</html>

HTMLを書いたことある方ならご存知のことですが、HTMLはタグによってツリー構造になっており、サイトによってその構造が違います。

今回はこの中からh1タグに記載されている内容を取り出してみます。h1タグの中身を取り出すときには、html.xpath関数で//h1と指定すると取り出せます。また、xpath関数の戻り値はリストになっているのでh1データをすべて表示させるときはfor文を使うといいです。更にタグの中身を出すには、.textを付け加えます。

したがって中身を取り出すときは以下のコードになります。

h1_content = load_html.xpath("//h1")
# タグの中身を取得
for content in h1_content:
    print(content.text)

[PR] 未経験からWebエンジニアを目指す方法とは

実際に書いてみよう

先ほど紹介した内容をまとめたソースコードを以下の記載します。

from urllib import request
from lxml import html
source = request.urlopen("https://example.com")
data = source.read()
print(data.decode())
print("n---------------------------------------n")
load_html = html.fromstring(str(data))
h1_content = load_html.xpath("//h1")
# タグの中身を取得
for content in h1_content:
    print(content.text)

実行するとHTMLのソースとh1タグで抽出した内容が出力されます。

まとめ

今回はXPathの使い方を簡単なスクレイピングを交えて紹介しました。

この方法を使えばWebスクレイピングを簡単にできます。しかし、実際のサイトはもっと構造が複雑になってくるため、この方法でデータを抽出できなかったりデータに文字化けが出てきたりするので、本格的にスクレイピングをやりたい方は、XPathの他にも文字列操作やエラー処理などを適切に行なっていきましょう。

監修してくれたメンター

メンター三浦

モバイルゲームを運用している会社のエンジニアをしています。趣味でWEB開発やクラウドコンピューティングもやっており、ソフトもハードもなんでもやります。

TechAcademyジュニアではPythonロボティクスコースを担当しています。好きな言語はPython, Node.js。

内容分かりやすくて良かったです！

ゆかりちゃんも分からないことがあったら質問してね！

分かりました。ありがとうございます！

TechAcademyでは、初心者でも、Pythonを使った人工知能（AI）や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。

また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。

Pythonのlen関数の使い方を現役エンジニアが解説【初心者向け】

Pythonのlen関数の使い方について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。 ...

Python

Pythonで自作関数をインポートする方法を現役エンジニアが解説【初心者向け】

Pythonで自作関数をインポートする方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事...

Python

Pythonの連想配列に要素を追加する方法を現役エンジニアが解説【初心者向け】

Pythonの連想配列に要素を追加する方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。そ...

Python

Pythonで現在の時間を表示する方法を現役エンジニアが解説【初心者向け】

Pythonで現在の時間を表示する方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。 &n...

Python

PythonでMySQLからカラム名を取得する方法を現役エンジニアが解説【初心者向け】

PythonでMySQLからカラム名を取得する方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。...

Python

PythonでWebアプリケーション開発を行う方法を現役エンジニアが解説【初心者向け】

PythonでWebアプリケーション開発を行う方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説...

Python

あわせてよく読まれている記事

RubyでXPathを取得する方法を現役エンジニアが解説【初心者向け】

RubyでXPathを取得する方法について解説します。そもそもRubyについてよく分からないという方は、Rubyとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプRuby講座の内容をもとに紹介しています。田島悠介今回は、Rubyに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 XPathを取得する方法について詳しく説明していくね！大石ゆかりお願いします！ XPathとは XpathとはXML文章の中の要素や属性値を指定することができるようにする言語です。HTMLもXpathを使ってHTML文章の中の要素を指定することができます。 Xpathはツリー構造から特定の要素や属性値を取得するためにロケーションパスを使います。ロケーションパスとはURLのように/html/body/divとして”/”で区切って指定する方法です。 XPathを取得する方法 nokogoriというスクレイピングできるRubyのライブラリーを使ってXpathを取得してみましょう。 require 'nokogiri' file1 = File.read(ファイル名) file2 = Nokogiri::XML(file1) set = file2.xpath(ロケーションパス) のように読み込まれたファイルに書かれている該当のロケーションパスを取得します。 [PR] 未経験からWebエンジニアを目指す方法とは実際に書いてみようそれでは実際に書いてみましょう!! # diary.html <html> <head> <title> <h1>日記帳</h1> </title> </head> <body> <div> <h2>日記内容</h2> </div> <h2>投稿日</h2> <div>

Ruby

Laravelでformを使う方法【初心者向け】現役エンジニアが解説

今回は、Laravel のFormを利用してフォームの作成を行っていきます。 LaravelのFormを利用することで、ブラウザ画面からフォームを利用してデータを送信することが可能になります。実務でもWebアプリケーションを開発する際、ユーザーがデータをフォーム入力して、データベースに登録する処理はよく利用しますので、非常に実践的な内容になっています。目次 Formとは Formの例 Laravelとは Laravel の始め方 tinker の使い方 Mysqlの設定 Mysqlの利用 Laravelの処理 Laravel Collectiveの使い方 Formとは WebアプリケーションでFormというと、企業ページへのお問い合わせフォームであったり、SNSの投稿フォームだったり、多岐にわたり多用されます。このFormという単語ですが、初学者の頃は、Fromと混同しやすくタイプミスが発生する点に注意していただくと、学習がスムーズです。今回は、LaravelのライブラリであるLaravel CollectiveというライブラリのFormファサードを利用して実装していきます。 Formファサードとはデザインパターンで言うところの、複数のクラスを利用する上で窓口となるクラスを利用して、依存関係を含めシンプルに処理を実装することができる仕組みです。デザインパターンというのは、プログラミングのアルゴリズムを定型化することで、誰でも高品質な処理を実装することができる考え方です。アルゴリズムというのは、プログラミングの処理の流れです。例えば、子供の頃、迷路の本などで入り口から出口までなぞり書きしたことがあるかと思います。入り口から出口まで後戻りせず、一筆書きで迷路をクリアする処理をアルゴリズムとイメージすると良いかもしれません。クラスとは、あるオブジェクトの設計図です。オブジェクトを作るためには設計図を設計した上で、設計図に基づいてオブジェクトの作成が必要です。オブジェクトとは、クラスという設計図から生成される製品です。家を例にすると、家という製品（オブジェクト）は、柱や壁や電気や水道やガスなどいろいろな部品によって、クラスという設計図に基づいて構成されています。つまり、家の設計図がクラスで、実際の家がオブジェクトというイメージになります。そして、実際の製品をインスタンスと呼びます。これは、生成する家が全く同じクラス（設計図）に基づくオブジェクト（製品）であっても、インスタンス（田中様の家）、インスタンス（鈴木様の家）というように、生成後は別の意味を持った家になるためです。家の設計図であるクラスを利用して、様々な家を集積するようなWebアプリケーションを実装する場合、家というクラスだけでなく、車というクラスや、お店というクラスもあるかもしれません。どの家とどの車が同じ所有者で、その所有者はお店も所有しているのか、お店を利用するだけなのか、というようにクラス同士が連動して動作する場合、最終的なWebアプリケーションがクラスでごちゃごちゃになりかねません。そこで、Formファサードのような依存関係をシンプルに実装してくれる機能を利用していくと、実務でも保守のしやすい素敵なアプリケーションを実装可能になります。 [PR] 未経験からWebエンジニアを目指す方法とはFormの例今回は次のようなFormタグを利用します。 Form::model Form::modelで、モデルデータと連動しながらForm処理を開始します。そうでない場合は、Form::openを利用することができます。 Form::label Form::labelで、ラベルの生成処理をします。 Form::text Form::textで、テキストボックスの生成処理をします。 Form::submit Form::submitで、送信表示の生成処理をします。 Form::close Form::closeで、Formタグの実装を終了します。今回利用するFormタグ以外にも、たくさんのFormタグが存在するので、Laravel Collectiveの公式ページを参考にしていただくと良いですよ。 LaravelCollective | HTML v6.x Laravelとは Laravelとは、PHPでWebアプリケーションを開発する際、セキュリティも高く、効率的な開発をすることができるフレームワークです。フレームワークとは、Web開発における共通処理であるライブラリを呼び出すことで、効率的にWebアプリケーションを開発することができるツールです。ライブラリとは、よく利用する便利な処理をまとめて実装しているプログラムです。同じような処理をしているライブラリが、世界中に存在するため、どのライブラリを呼び出し利用するかはプログラマーが考えて決定します。 Laravel の始め方今回解説する実装環境は、PHP7.2系とLaravel6系とMySQL5.6系です。 MySQLの最新バージョンはMySQL8系ですが、実行環境の都合でMySQL5.6系ですので、基本的にはMySQL8系でも同じ考え方をしていただくと良いです。今回はcomposerコマンドを利用して、techacademyというプロジェクト名で、Laravel6.x系最新版で立ち上げます。 ^6.0 と書けば、バージョン6.xの最新版が選択されます。コマンド composer create-project --prefer-dist laravel/laravel techacademy ^6.0 Laravelのインストール方法やcomposerのインストール・使い方についてはこちらの記事を参考にしてみてください。 Laravelのバージョン Laravelの現在の最新バージョンはLaravel8です。しかし、Laravel6を利用するのは、Laravel6がLTSというバージョンだからです。 LTSとは、長期に渡りサポートされるバージョンを意味します。最終的なサポート期間がLaravel6のほうがLaravel8よりも長いため、実務ではLaravel6を利用することが多いです。バージョン公開日セキュリティサポート 8.0 2020年9月8日 2021年9月8日まで 7.0 2020年3月3日 2021年3月3日まで 6.0 2019年9月3日 2022年9月3日まで tinker の使い方 Laravelでは php artisan tinker というコマンドを実行すると、Laravelの機能を実行するREPLが起動します。 REPLとは対話型コマンドでアプリケーションを操作する方法です。 tinkerの起動方法コマンドラインで次のコマンドを入力するとtinkerが起動します。 php artisan tinker tinkerの終了方法 REPLの実行中は、行頭に>>>が表示されています。その状態でexitと入力することでtinkerを終了することができます。 >> exit MySQLの設定いくつかMySQLの設定が必要です。代表的な設定を抜粋して解説します。 config/database.php 設定内容 'default' => env('DB_CONNECTION', 'mysql'), 解説ここでは、MySQLを利用するという指定をしています。 .env 設定内容 DB_DATABASE=techacademy 解説ここではtechacademyというデータベースを利用する指定をしています。 MySQLの利用 MySQLの起動コマンド sudo service mysql start sudo mysql -u root 解説 MySQLが未起動の場合、sudo service mysql startでMySQLを起動します。 sudo mysql -u rootでMySQLにログインします。今回は学習用なので、ユーザー名がrootでパスワードがないパターンのログインコマンドです。実務で利用する場合は、任意のログイン情報を設定していただく必要がございます。 techacademyデータベースを作成コマンド CREATE DATABASE `techacademy`; 解説 MySQLにログイン後CREATE DATABASE `techacademy`;というコマンドを実行することで、techacademyというデータベースを作成することができます。 Laravelの処理 Laravel側で実装する代表的な処理を抜粋して解説します。 tinkerでデータベース接続を確認する方法コマンド php artisan tinker >>>DB::reconnect(); 解説 php artisan tinkerというコマンドを実行することでtinkerを利用します。 tinkerを利用しているREPLの状態は、行頭に>>>が表示されている状態です。その状態で、DB::reconnect();を実行します。無事データベースへの接続が完了していれば、次のような表示がされます。 => IlluminateDatabaseMySqlConnection {#683} マイグレーションファイルの作成と実行マイグレーションファイルとは、テーブルの作成・削除、カラムの追加・削除に関するデータベースのテーブル管理を行うファイルです。コマンド php artisan make:migration create_techacademy_table --create=techacademies php

PHP

Javaで簡易な掲示板を作成する方法を現役エンジニアが解説【初心者向け】

Javaで簡易な掲示板を作成する方法について解説します。実際にプログラムを書いて説明しているので、ぜひ理解しておきましょう。そもそもJavaについてよく分からないという方は、Javaとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプJava講座の内容をもとに作成しています。田島悠介今回は、Javaに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介簡易な掲示板を作成する方法について詳しく説明していくね！大石ゆかりお願いします！掲示板の設計名前とメッセージを入力して投稿する簡易的な掲示板を作成します。掲示板の内容はデータベースに保存し、投稿機能でデータ追加、ページアクセスでデータを全件表示します。作成するものは以下です。データベースデータモデルデータベースアクセスオブジェクト(DAO) 投稿したメッセージの一覧表示と、投稿フォームをもつ画面データベースからデータを全件取得し、取得データを画面へ引き渡すサーブレット画面の入力フォームの内容を元に、データベースに一件データを追加するサーブレット eclipse　Maven MySQL を用いて実装します。またローカルのtomcatへデプロイをして動作確認を行います。実際に作成してみよう eclipseで動的WEBプロジェクトを新規作成してからMavenプロジェクトへ変換します。pom.xmlに以下3つの依存関係を追加します。 <dependencies> <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.45</version> </dependency> <dependency> <groupId>org.apache.taglibs</groupId> <artifactId>taglibs-standard-impl</artifactId> <version>1.2.5</version> </dependency> <dependency> <groupId>javax.servlet.jsp.jstl</groupId> <artifactId>javax.servlet.jsp.jstl-api</artifactId> <version>1.2.1</version> </dependency> </dependencies> データベースとテーブルを作成します。 create database sample default character

Java

データ分析のライブラリ！Pandasとは【初心者向け】｜現役エンジニアが解説

今回は、Pythonのデータ解析用ライブラリであるPandasについて解説します。 Pandasを使うと、データの統計量を表示したり、グラフ化するなど、データ分析（データサイエンス）や機械学習で必要となる作業を簡単に行うことができるようになります。 Pythonでデータ分析を行うには、必須のライブラリなので、ぜひこの記事を参考に、Pandasの使い方を覚えましょう。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。目次 Pandasとは Pandasの特徴 Pandasでできること Pandasを使うメリット Pandasを利用するにはダウンロード手順初期設定 Pandasの使い方 Pandasをより便利に使う方法 Pandasの勉強方法大石ゆかり田島メンター！Pandasというのは何でしょうか？田島悠介 Pythonのデータ解析用のライブラリだよ。Pythonでデータ分析や機械学習を行うには、必須のライブラリなんだ。大石ゆかりどのような機能があるのですか？田島悠介例を見ながら説明していくね！ Pandasとは Pandasは、Pythonでデータ分析を効率的に行うためのライブラリです。Pandasはオープンソース(BSDライセンス)で公開されており、個人／商用問わず、誰でも無料で利用することができます。 Pandasを使うと、データの読み込みや統計量の表示グラフ化データ分析に関する作業を容易に行うことができるようになります。また主要なコードはPythonまたはC言語で書かれており、Pythonだけでデータ分析を行うのと比較して、非常に高速に処理を行うことができます。データ分析（データサイエンス）は、機械学習を行うまでの前処理（データの読み込み、クリーニング、欠損値の補完、正規化など）が、全ての作業の8〜9割を占めると言われています。Pandasを使うとそのような処理が効率的に行えるようになるため、Pythonで機械学習を行うには、Pandasは必須のライブラリとなっています。 [PR] 未経験からWebエンジニアを目指す方法とはPandasの特徴 Pythonによるデータ分析で多く使われているライブラリといえば、PandasやMatplotlib、NumPyなどがあげられます。これらのライブラリはそれぞれ以下のような特徴があります。 Pandas Pandasはデータの読込や並べ替え、欠損値（欠けている項目値）の補完などを行うことができるライブラリです。データ分析の前処理段階でとても多く利用されています。データの読込はCSVやテキストだけでなく、エクセルやインターネット上で提供されている株価情報など、多様な形式のデータを読み込むことが出来ます。また、Pandasの特徴はDataFrameという多機能な「表」にあります。DataFrameにはデータの平均値や行数などの概要的な特徴を把握する機能や、並べ替えや列名の変更などのデータを整形する機能があります。またキーを指定しての集計やMatplotlibと連携してのグラフによる可視化など、データ分析のデータ前処理の段階で便利な多くの機能が提供されています。データ分析の過程では、Pandasである程度データをきれいに整えてから、NumPyで数値計算を行うようといったように、使い分けて利用することが多いでしょう。 Matplotlib MatplotlibはPythonで代表的なグラフを描画するライブラリです。2Dだけでなく3Dも含めた多くの種類のグラフを描画することができます。 Matplotlibは慣れると使いやすいのですが、はじめは使い方がやや難しく感じると思います。そのような場合、PandasやSeabornなどのライブラリと組み合わせることで、見た目の良いグラフを簡単に描画することができます。 Matplotlibはデータ分析の様々な段階で、NumPyやPandasと組み合わせてデータの概要を把握したり、特徴を可視化するような目的で使用します。 NumPy NumPyは数値計算や行列演算を行うライブラリです。複数の数値を配列としてまとめて扱ったり、行列演算を行ったりするのが得意です。特にコンピューターで小数点以下を扱う際の標準的な形式である浮動小数点型の行列演算を高速に行うことが出来ます。また三角関数や平方根などの数値計算の機能も豊富です。 NumPyはある程度データの前処理が終わり、きれいに整ったデータに対して数値計算を行うのに向いているライブラリと言えます。 Pandasでできること Pandasには多くの機能があります。主に利用する機能を確認してみましょう。なお以下でDataFrameと記載しているのはDataFrameオブジェクトを指しています。データの読込 CSV形式のデータの読込：read_csv() Excelファイルの読込：read_excel() JSON文字列の読込：read_json() pickle形式(Pythonオブジェクトを保存する形式)によるデータの読込/書込：read_pickle()、to_pickle() インターネット上で提供されている株価情報の読込：pandas-datareader データの特徴を把握データの特徴を表示：DataFrame.info() 要約統計量を表示：DataFrame.describe() データの一部を表示：DataFrame.head()、DataFrame.tail() データの形状を表示：DataFrame.shape 行数を取得：DataFrame.index.values 列名を取得：DataFrame.columns.values それぞれの列の型を取得：DataFrame.dtypes データの切り出し（スライス）データのスライス：DataFrame[]、DataFrame.iloc[]、DataFrame.loc[] フィルタリング：DataFrame.query() データの並べ替え値による並べ替え：DataFrame.sort_values() インデックスによる並べ替え：DataFrame.sort_index() 列名の変更：DataFrame.rename() 集計列の集計：DataFrame.value_counts() 表の集計：DataFrame.groupby() ※groupby().sum()で合計、groupby().mean()で平均値得ることができる可視化 Matplotlibのimportが必要ヒストグラム：DataFrame.hist() 散布図、線グラフ：DataFrame.plot() 棒グラフ：DataFrame.bar() 箱ひげ図：DataFrame.boxplot() 欠損値の扱い欠損値の確認：DataFrame.isnull().sum() 欠損値に値を埋める：DataFrame.fillna() 欠損値のある行を削除する：DataFrame.dropna() その他カテゴリー変数の展開：get_dummies() 列同士の相関を確認：DataFrame.corr() Pandasを使うメリットデータ分析であればExcelなどの表計算ソフトを使えば十分という方も多いでしょう。Pandasを使うと、大量データに対して何度でも同じ処理をプログラムを実行するだけで行うことができるというメリットがあります。大量データの処理が可能 Pandasではパソコンのメモリ容量が許す限り、大量のデータをDataFrameに読み込んで処理を行うことが出来ます。動作速度も表計算ソフトほど遅くはなりません。同じ処理を何度も再実行できる 1つ1つの作業を人間が操作して行うのではなく「プログラム」として記述することで、何度でも全く同じ処理を繰り返し実行することが可能となります。データ分析では再現性が重要であり、手順書をもとにした人間の操作よりも、プログラムで処理自体を記述したほうが、確実に同じ処理を再実行することができます。また、大量データに対する処理は数時間～数日も時間を要することがあります。このような場合でも、人間はプログラムを実行して結果を待つだけです。表計算ソフトのように、付きっきりで操作し続ける必要はありません。さらにパソコンを複数台数用意して、条件を少し変えたプログラムを同時並行で実行して結果を比較する、といったことも容易に実現可能です。他のライブラリと連携し多彩な機能を実現できる他のライブラリと連携することで、プログラムを実行してグラフを描画したり、加工した結果を表計算ソフトのファイルとして出力するなど、Pandasだけでは行えない多くのことを実現することができます。 Pandasを利用するには Pandasを利用するには、Anacondaなどの「ディストリビューション」と呼ばれる開発環境をまとめたパッケージを使うのが簡単です。Anacondaは、データ分析やグラフ描画など、Pythonでよく利用されるライブラリを含んだ開発環境です。ここではAnacondaを例にダウンロード手順と初期設定について確認しましょう。ダウンロード手順 Anacondaの公式サイトからProducts > Individual Edition > Downloadを表示します。 Anaconda – Individual Edition – Download Windows、Mac共に「Python 3.7 – 64-Bit Graphical Installer」をクリックしてダウンロードします。なお、Python2.7は古いバージョンであり、サポート期間が2020年4月とすでに終了しています。どうしても必要な場合を除き、利用することは無いでしょう。ダウンロードしたファイルを実行することでインストールを行うことが出来ます。選択肢などは既定値のままで良いでしょう。初期設定インストールが終わったら、Anaconda Navigatorを起動します。はじめに初期設定として必要なライブラリをインストールしましょう。ライブラリのインストールはEnvironmentsから行います。Environmentsを開き、「Not installed」を選択して検索ボックスに「pandas」と入力します。一覧にPandasが表示されますので、チェックボックスで選択し、画面右下のApplyボタンを押すことでインストールすることができます。また、今回は説明用にscikit-learnのサンプルデータセット（トイデータセット）を使用します。同様にscikit-learnとnumpy、matplotlibもインストールしておきましょう。インストールが終わったらHomeに戻ります。プログラムはJupyter Notebookで作成します。画面の「jupyter notebook」と書かれた部分の「Launch」ボタンをクリックします。初回は「Install」ボタンになっており、クリックするとJupyter Notebookがインストールされます。以降は、Jupyter Notebookをもとに、Pandasの使い方を説明します。 Pandasの使い方 Pandasを使う際は、初めにPandasライブラリをインポートします。併せてサンプルデータセットも利用できるようにしておきましょう。 # Pandas、及び必要なライブラリのインポート import pandas as pd from pandas import DataFrame import numpy as np # サンプルデータセットを取得する from sklearn import datasets boston = datasets.load_boston() 実行結果は特にありません。エラーがでなければ、正しくインポートされています。次に、サンプルデータセットをPandasのDataFrame型に変換しておきます。なお、今回はサンプルデータセットを使いましたが、CSVデータを読み込むread_csvという命令も用意されています。 # PandasのDataFrame型に変換 df = DataFrame(boston.data, columns = boston.feature_names) # 目的変数をDataFrameへ追加 df['MEDV'] = np.array(boston.target) 準備が整いました。それではPandasの命令を幾つか見ていきましょう。データの概要を確認する先頭5行を表形式で表示する df.head() 実行結果は以下のようになります。行列数を表示する df.shape 実行結果は以下のようになります。 (506, 14) 細かい情報を表示する dataset.info() 実行結果は以下のようになります。 <class 'pandas.core.frame.DataFrame'> RangeIndex: 21613 entries, 0 to 21612 Data

機械学習

簡単に変換できる！PHPでCSVファイルを読み込む方法【初心者向け】現役エンジニアが解説

PHPでCSVファイルを読み込む方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。 fgetcsv関数を使ってCSVファイルを読み込めば、表計算ソフトなどからPHPにデータを取り込めます。たとえば、Excelで作った商品リストをCSVファイルで保存し、PHPで取り込めばショッピングサイトのデータとして活用できますし、Googleスプレッドシートで作成したタスクリストをCSVにしてPHPで読み込めばタスクの共有ができるアプリケーションが作成できます。このように、他のアプリで作ったCSVファイルのデータ活用するために覚えておきたい知識なので、参考にしてみてください。目次XPathとはlxmlのxpath関数の使い方実際に書いてみようまとめ監修してくれたメンターそもそもPHPについてよく分からないという方は、PHPとは何なのか解説した記事を読むとさらに理解が深まります。田島悠介今回はCSVファイルをPHPで読み込む方法をやっていくよ。大石ゆかり田島メンター！その前にちょっといいですか？「CSV」って何ですか？田島悠介じゃあ、CSVとは何かを教えるね。ゆかりちゃんは表計算ソフト、例えば「Excel」とか「Google スプレッドシート」は使ったことあるかな？大石ゆかりそれならありますよ。大学時代にレポート作成でExcelを使ってましたし、仕事ではGoogle スプレッドシートを使っています。田島悠介もし、ゆかりちゃんが入力したデータをPHPのプログラムで読み込ませたいと思ったらどうしたらいいかな？大石ゆかりデータを保存したファイルをPHPで読み込めばいいんじゃないですか？ PHPってファイルの読み込みもできましたよね？田島悠介たしかに、PHPではファイルの読み込みができるんだけど、ExcelやGoogle スプレッドシートの専用ファイルはそのままでは読み込むのが難しいんだ。 PHPのファイル読み込みは、標準では文字だけで構成されたテキストファイルで作成されていることが前提だからね。大石ゆかりそうなんですね・・・。じゃあ、表計算ソフトで保存するときPHPでも読み込めるテキストファイルの形式で保存したらいいんですか？田島悠介その通り！さすがゆかりちゃん、理解が早い。そのPHPにも対応しているテキストファイルの形式の1つがCSVファイルというわけだね。大石ゆかりなるほどぉ。今Google スプレッドシートでCSVの形式にエクスポートしてみました。カンマ付きのシンプルな文字だけになるんですね。 Googleスプレッドシートの画面名前,年齢,血液型太郎,21,O ジョン,23,A ニキータ,32,AB 次郎,22,B CSVファイルの中身田島悠介そうだね。CSVファイルはカンマかタブ文字で区切られるんだ。ちなみにCSVファイルはほとんどのアプリが対応しているから、PHPなどのプログラムからの読み込みだけでなく、アプリ同士でデータをやり取りしたいときにもよく使われるよ。ただ、データの中身の文字だけしか保存されないから、罫線や文字色などの情報はなくなるけどね。大石ゆかり CSVについてはよく分かりました！今回はそのCSVファイルをPHPで読み込む方法を教えてもらえるんですね！田島悠介そういうことだね。 CSVは、読み込みと出力のそれぞれ書き方が違うから、今回は「読み込み」の方法について説明するね！大石ゆかりお願いしまーす！！ CSVファイルを読み込む関数「fgetcsv」 PHPでは、CSVファイルを読み込んで配列の形にしてくれる「fgetcsv関数」という関数があります。 fgetcsv関数を使うためには、まず対象のCSVファイルを開いておく必要があります。ファイルを開く「fopen」 CSVファイルを開くには、fopen関数を使います。 $file_handler = fopen("読み込むCSVファイルのパス", "r"); fopen関数の戻り値で、読み込んだファイルを管理している名前（ファイルハンドル）を取得します。 fopen関数の2つ目のパラメータはファイルにアクセスする形式、つまり開いたファイルの書き込みを可能にするかどうかなどのファイルをアクセスする状態を設定します。 “r“は読み取り専用、つまり書き込みしない状態でファイルを開きます。 ※もし、対象ファイルが存在しなかったりファイルのアクセス権がない場合には、fopenは失敗しwarningを発行してFALSEを戻り値として返します。 CSVファイルを1行ずつ配列で読み込む「fgetcsv」ファイルハンドルが取得できたら、fgetcsv関数でCSVファイルを1行ずつ読み込みます。 $data = fgetcsv($file_handler); 読み込まれた1行分のデータを項目（データ列）ごとに配列として戻り値で取得します。たとえば下記のようなCSVファイルなら、1回目にfgetcsv関数を呼び出したときは、1行目のデータである「名前」「年齢」「血液型」の文字列が配列に代入されます。名前,年齢,血液型太郎,21,O ・・・実際に書いてみようでは実際にプログラムを書いてみましょう。事前に、以下のように書いた「test.csv」ファイルを作成しておきます。名前,年齢,血液型太郎,21,O ジョン,23,A ニキータ,32,AB 次郎,22,B それでは、プログラムを書いてみましょう。 <?php // 読み取り専用でtest.csvを開きます。 $f = fopen("./test.csv", "r"); // test.csvの行を1行ずつ読み込みます。 while($data = fgetcsv($f)){ // 読み込んだ結果を表示します。 var_dump($data); } // test.csvを閉じます。 fclose($f); ?> 簡単にソースコードの説明をします。最初に読み取り専用でtest.csvファイルを開き、while文で1行ずつファイルを読み込みます。読み込んだ結果の配列を、var_dump関数でCSVファイル1行分のデータを表示しています。以下、実行結果です。 1行ずつ読み込まれて、配列の形になっているのがわかります。まとめ CSVファイルを読み込むときは、まずfopen関数でファイルを開きます。そして、fgetcsv関数を使って1行ずつ配列にデータを読み込みます。タブ文字で区切られたファイル大石ゆかり田島メンター、教えてもらった方法でデータをPHPで読み込もうとしたんですがうまくいきません・・・田島悠介それは、データの区切り文字が違うからだよ。 CSVはカンマ区切りだけど、別の種類でタブ区切りのファイル形式が使われることがあるんだ。大石ゆかりそうなんですね。よく見るとファイルの拡張子が.tsvになっていました。田島悠介そうだね。タブ区切りのファイルはtxtやtsvといった拡張子が使われるね。タブ区切りのファイルを読み取るにはさっきと同じfgetcsv関数が使えるけど、パラメータを指定する必要があるよ。大石ゆかりタブ区切りのファイルでも読み込めるんですね。 PHPで読み込む方法を教えてください！ fgetcsv関数でタブ区切りのファイルを読み込む fgetcsv関数でタブ区切りのファイルを読み込むには、3つ目のパラメータseparatorで区切り文字を指定します。 $data = fgetcsv($f, 0, "t") 今回はタブ区切りのファイルを読み込みたいので、区切りとしてタブ文字「t」を指定します。 ※2つ目のパラメータはlengthで、分割しない1行の最大文字数（改行文字なども含む）を指定します。0を指定するか省略すると、最大行長は制限されません。 (PHP 5.1.0以降) まとめタブ区切りのファイルをfgetcsv関数で読み込むときは、3つ目のパラメータでタブ文字 “t” を指定します。 [PR] 未経験からWebエンジニアを目指す方法とは空行がある場合大石ゆかり CSVファイルを読み込んだら、値が空の配列が混じっていました。田島悠介それは読み込んだCSVに空の行が入っていたからなんだ。 1行ずつ繰り返すループの中で、空行かどうか判定する式を追加するだけで解決できるよ。 CSVファイルの読み込み時に空行の判定をする CSVファイルに空の行が含まれている場合、PHPの条件式で判定を行うコードを追加すれば、余分な空っぽの値が配列に入るのを防げます。配列の1行分の要素すべてが空かどうか、配列の要素を文字列としてつなげて判定します。 1行分の配列の要素を文字列として結合するのに、implode関数を使います。空行判定のコード例配列に値があるかどうかで空行の判定をしています。 <?php // 読み取り専用でtest.csvを開きます。 $f = fopen("test.csv", "r"); // test.csvの行を1行ずつ読み込みます。 while($data = fgetcsv($f)){ // 1行分の要素すべてを文字列として結合しても空ではない、つまり空行でなければ出力します。 if(implode($data) != null){

PHP

基礎から学ぶ！HTMLにCSSを適用（読み込み）させる方法【初心者向け】

基本的にHTMLだけでは文字を表示するだけで、リッチなデザインが整ったWebデザインを制作することは難しいです。そんな時に必要になってくるのがCSSです。 HTMLでCSSを読み込むためには、2つの方法があります。今回は、その方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。本記事はテックアカデミーのはじめての副業コースのHTMLカリキュラムの内容をもとに解説しています。目次XPathとはlxmlのxpath関数の使い方実際に書いてみようまとめ監修してくれたメンターそもそもHTMLの記述方法がわからない場合は、 HTMLの書き方について解説した記事を読むとさらに理解が深まります。田島悠介今回は、HTMLに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 HTMLにCSSを適用（読み込み）させる方法について詳しく説明していくね！大石ゆかりお願いします！ CSSの読み込み方（適用方法） HTMLでCSSを読み込むためには、次の2つの方法があります。外部CSSファイルをHTMLから読み込む方法 HTMLファイル内に直接CSSを記述する方法 1.外部CSSファイルを読み込む方法外部CSSファイルを読み込む方法は、Webデザインの現場で一般的に使用されている方法です。事前に拡張子が「.css」のファイルを用意し、HTMLに以下のタグを記述します。 <link rel="stylesheet" href="sample.css"> HTMLファイルに上記のコードを1行追加することで、sample.cssという名称のファイルに記述されたCSS定義をHTMLに適用することができます。また、この1行をHTMLファイルのどこに記述するかという点についてですが、場所はHTMLファイルの<head>タグ内に記述します。以下のようにHTMLファイルに記述しましょう。 HTML <html> <head> <meta charset="UTF-8"> <link rel="stylesheet" href="sample.css"> <title>HelloTechAcademy</title> </head> <body> <p>ここにHTMLの文章などが入ります</p> </body> </html> ここで、CSSファイル読み込み処理のhrefの値は、HTMLファイルとCSSファイルの配置場所によって変化するので気を付けましょう。上記サンプルの場合は、HTMLファイルとCSSファイルは同じディレクトリに配置する必要があります。また、HTMLファイルと同じディレクトリにcssというフォルダがあり、その中にsample.cssというファイルが配置されている場合、CSSファイル読み込み処理は以下のように記述します。 <link rel="stylesheet" href="css/sample.css"> 2.HTMLファイル内に直接CSSを記述する方法 HTMLファイル内に直接CSSを記述する方法は、一般的にはほとんど使う機会の無い方法ですが、このような適用のさせ方もあります。まず、以下のようにCSS定義を<style>タグの中に記述します。 <style type="text/css"> p { color : red; } </style> 用意した<style>タグは、HTMLファイルの<head>内に以下のように記述します。 HTML <html> <head> <meta charset="UTF-8"> <style type="text/css">p { color

HTML

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

PythonでXPathを利用しXML形式の文書から特定の要素を抽出する方法を現役エンジニアが解説【初心者向け】

XPathとは

lxmlのxpath関数の使い方

実際に書いてみよう

まとめ

監修してくれたメンター

関連するキーワード

あわせてよく読まれている記事

RubyでXPathを取得する方法を現役エンジニアが解説【初心者向け】

Laravelでformを使う方法【初心者向け】現役エンジニアが解説

Javaで簡易な掲示板を作成する方法を現役エンジニアが解説【初心者向け】

データ分析のライブラリ！Pandasとは【初心者向け】｜現役エンジニアが解説

簡単に変換できる！PHPでCSVファイルを読み込む方法【初心者向け】現役エンジニアが解説

基礎から学ぶ！HTMLにCSSを適用（読み込み）させる方法【初心者向け】

TechAcademyから
現役エンジニアの方へ
お知らせ

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

XPathとは

lxmlのxpath関数の使い方

実際に書いてみよう

まとめ

監修してくれたメンター

記事を検索

関連するキーワード

関連する記事

あわせてよく読まれている記事

TechAcademyから 現役エンジニアの方へ お知らせ

TechAcademyから
現役エンジニアの方へ
お知らせ