Pythonでファイルの文字コードを判定する方法【初心者向け】
初心者向けにPythonでファイルの文字コードを判定する方法について解説しています。最初に文字コードの種類について学び、次に文字コードを指定する方法を実際にコードを書きながら覚えていきましょう。
テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日 調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名 調査手法:インターネット調査
Pythonでファイルの文字コードを判定する方法について解説します。
そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。
なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。
今回は、Pythonに関する内容だね!
どういう内容でしょうか?
ファイルの文字コードを判定する方法について詳しく説明していくね!
お願いします!
文字コードとは
文字コードとは、文字を表す番号のことです。コンピューターは数字しか処理できません。よってコンピューターは、それぞれの文字の形(イメージ)に対応付けられた番号の一覧表で文字を管理しています。それが文字コードです。
文字コードはいくつか種類があり、それにより見た目が同じでも番号が異なります。
ASCII
もっとも基礎的な文字コードです。半角英数字128文字から構成されており、全ての文字を1バイトで表します。例えば「A」はASCIIでは0x41(0xは16進数を表す)となります。
Shift_JIS
日本語を表すために多く用いられていた文字コードです。全ての文字を2バイトで表します。亜種がWindowsで採用されていたことで広く使われていました。例えば「あ」はShift_JISでは0x82E0となります。
UTF-8
現在最も広く使われている標準的な文字コードです。全ての文字を1〜4バイトで表します。世界中の文字を扱えるため、標準的に使われるようになりました。例えば「あ」はUTF-8では0xe38182となります。
ファイルの文字コードを判定する書き方
Pythonでは、テキストファイルを読み込む際、書き込む際に文字コードを指定できます。
open("ファイル名", "rまたはw", encoding="文字コード")
encodingの「文字コード」には以下のような値を指定できます。
utf_8 | UTF-8 |
shift_jis | Shift_JIS |
ascii | ASCII |
euc_jp | 日本語EUC |
iso2022_jp | JIS |
openは、Python の組み込み関数です。ファイルを開き、読み込み/書き込みを行えるようにします。encoding以外にも、いろいろなオプションがあります。詳細は公式ドキュメントを参考にしてください。
https://docs.python.jp/3/library/functions.html#open
実際に書いてみよう
今回のサンプルプログラムでは、UTF-8でファイルの書き込み、読み込みを行っています。はじめに書き込みです。
file = "charcode.txt" fileobj = open(file, "w", encoding = "utf_8") fileobj.write("このファイルはn") fileobj.write("UTF-8のn") fileobj.write("文字コードですn") fileobj.close()
プログラムと同じフォルダに「charcode.txt」というファイルが作成されます。次に読み込みです。
fileobj = open(file, "r", encoding = "utf_8") data = fileobj.read() fileobj.close() print(data)
実行結果は以下のようになります。
このファイルは UTF-8の 文字コードです
それでは、読み込みの文字コードを変更するとどうなるでしょうか?
fileobj = open(file, "r", encoding = "shift_jis") data = fileobj.read() fileobj.close() print(data)
実行してみるとエラーになります。
UnicodeDecodeError: 'shift_jis' codec can't decode byte 0x81 in position 4: illegal multibyte sequence
このように、テキストファイルを扱う場合、文字コードを考慮する必要があります。なお、文字コードを自動判定する chardet というライブラリも存在します。文字コードが不明のファイルを扱う場合は利用を検討してみると良いでしょう。
https://pypi.org/project/chardet/
この記事を監修してくれた方
太田和樹(おおたかずき) 普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。 開発実績:画像認識技術を活用した駐車場混雑状況把握(実証実験)、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント 地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。 |
内容分かりやすくて良かったです!
ゆかりちゃんも分からないことがあったら質問してね!
分かりました。ありがとうございます!
TechAcademyでは、初心者でもPythonを使った人工知能(AI)や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。
挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。