Python

Pythonでファイルの文字コードを判定する方法【初心者向け】

初心者向けにPythonでファイルの文字コードを判定する方法について解説しています。最初に文字コードの種類について学び、次に文字コードを指定する方法を実際にコードを書きながら覚えていきましょう。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元：GMOリサーチ株式会社　調査期間：2021年8月12日～8月16日　調査対象：2020年8月以降にプログラミングスクールを受講した18～80歳の男女1,000名　調査手法：インターネット調査

Pythonでファイルの文字コードを判定する方法について解説します。

そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。

今回は、Pythonに関する内容だね！

どういう内容でしょうか？

ファイルの文字コードを判定する方法について詳しく説明していくね！

お願いします！

文字コードとは

文字コードとは、文字を表す番号のことです。コンピューターは数字しか処理できません。よってコンピューターは、それぞれの文字の形（イメージ）に対応付けられた番号の一覧表で文字を管理しています。それが文字コードです。

文字コードはいくつか種類があり、それにより見た目が同じでも番号が異なります。

ASCII

もっとも基礎的な文字コードです。半角英数字128文字から構成されており、全ての文字を1バイトで表します。例えば「A」はASCIIでは0x41(0xは16進数を表す)となります。

Shift_JIS

日本語を表すために多く用いられていた文字コードです。全ての文字を2バイトで表します。亜種がWindowsで採用されていたことで広く使われていました。例えば「あ」はShift_JISでは0x82E0となります。

UTF-8

現在最も広く使われている標準的な文字コードです。全ての文字を1〜4バイトで表します。世界中の文字を扱えるため、標準的に使われるようになりました。例えば「あ」はUTF-8では0xe38182となります。

ファイルの文字コードを判定する書き方

Pythonでは、テキストファイルを読み込む際、書き込む際に文字コードを指定できます。

open("ファイル名", "rまたはw", encoding="文字コード")

encodingの「文字コード」には以下のような値を指定できます。

utf_8	UTF-8
shift_jis	Shift_JIS
ascii	ASCII
euc_jp	日本語EUC
iso2022_jp	JIS

openは、Python の組み込み関数です。ファイルを開き、読み込み／書き込みを行えるようにします。encoding以外にも、いろいろなオプションがあります。詳細は公式ドキュメントを参考にしてください。

https://docs.python.jp/3/library/functions.html#open

[PR] 未経験からWebエンジニアを目指す方法とは

実際に書いてみよう

今回のサンプルプログラムでは、UTF-8でファイルの書き込み、読み込みを行っています。はじめに書き込みです。

file = "charcode.txt"
fileobj = open(file, "w", encoding = "utf_8")
fileobj.write("このファイルはn")
fileobj.write("UTF-8のn")
fileobj.write("文字コードですn")
fileobj.close()

プログラムと同じフォルダに「charcode.txt」というファイルが作成されます。次に読み込みです。

fileobj = open(file, "r", encoding = "utf_8")
data = fileobj.read()
fileobj.close()
print(data)

実行結果は以下のようになります。

このファイルは
UTF-8の
文字コードです

それでは、読み込みの文字コードを変更するとどうなるでしょうか？

fileobj = open(file, "r", encoding = "shift_jis")
data = fileobj.read()
fileobj.close()
print(data)

実行してみるとエラーになります。

UnicodeDecodeError: 'shift_jis' codec can't decode byte 0x81 in position 4: illegal multibyte sequence

このように、テキストファイルを扱う場合、文字コードを考慮する必要があります。なお、文字コードを自動判定する chardet というライブラリも存在します。文字コードが不明のファイルを扱う場合は利用を検討してみると良いでしょう。

https://pypi.org/project/chardet/

この記事を監修してくれた方

太田和樹（おおたかずき）
ITベンチャー企業のPM兼エンジニア

普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。

開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント

地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。

内容分かりやすくて良かったです！

ゆかりちゃんも分からないことがあったら質問してね！

分かりました。ありがとうございます！

TechAcademyでは、初心者でもPythonを使った人工知能（AI）や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。

挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。

Pythonのelif文の使い方を現役エンジニアが解説【初心者向け】

Pythonのelif文の使い方について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさ...

Python

Pythonで例外処理を行う方法【初心者向け】

Pythonで例外処理をする方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさ...

Python

Pythonのシングルクォーテーションとダブルクォーテーションの違いを現役エンジニアが解説【初心者向け】

Pythonのシングルクォーテーションとダブルクォーテーションの違いについて解説します。そもそもPythonについてよく分からないという方は、Pytho...

Python

Pythonでドット積を求めるdot関数の使い方【初心者向け】

Pythonでドット積を求める方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むと...

Python

PythonでBase64によるエンコード・デコードの方法を現役エンジニアが解説【初心者向け】

PythonでBase64によるエンコード・デコードの方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説...

Python

Python3でprint文内に改行を入れる方法を現役エンジニアが解説【初心者向け】

Python3でprint文内に改行を入れる方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説し...

Python

あわせてよく読まれている記事

今すぐ対策できる！HTMLで文字化けを直す方法【初心者向け】

今回はHTMLで文字化けを直す方法を説明していきます。『Web制作で謎の文字が出て、意図した日本語が表示できない！』などとお悩みのみなさんは、ぜひこの記事を読んでみてください。文字化け対策自体は、非常に簡単ですのでぜひ理解してくださいね！目次文字化けが起こる原因文字化けさせない書き方（文字化けの直し方）実際に書いてみよう文字化けが起こる原因まずは文字を表示する仕組みと、文字化けが起こる原因をご説明します。文字コード「コンピュータは0と1の世界」と聞いたことがあるのではないでしょうか？コンピュータ内で扱われているデータは、文章も画像も動画も、すべて数字の羅列です。コンピュータが「この数字の羅列はこういう意味だ」という解読ルールを知っていて、人間に理解しやすい文章や画像に変換して画面に表示してくれるので、数字の羅列を意識しなくても使うことができます。例えば文字も、「この数字がこの文字」という対応ルールがあります。この数字と文字の対応ルールのことを、文字コードといいます。文字 2進数 16進数 10進数 0 011 0000 30 48 A 100 0001 41 65 B 100 0010 42 66 a 110 0001 61 97 $ 010 0100 24 36 スペース 010 0000 20 32 改行 000 1010 0A 10 文章　　　　　→　 I am a human ASCII (16進数)　→　73 32 97 109 32 97 32 104 117 109 97 110 コンピュータの世界で一般的に使われている文字コードに、ASCII（アスキー）があります。アルファベットや数字や記号など、キーボードで半角入力できる文字のコードを定めるものです。 1文字を2進数8桁以内で表せるので、1文字あたりのデータ量は1Byteになります。（ASCIIコード表出展 Wikipedia https://en.wikipedia.org/wiki/ASCII ） ASCII文字は、どのコンピュータやスマホも同じように解読できます。 ASCII文字だけで作られている文章は、絶対に文字化けしません。 HTMLやCSSのコードも、ASCII文字だけで記述しますよね。 ASCII以外の文字コードと文字化け人間が使う文字は、ASCIIで定められたアルファベットや数字以外にもたくさんあります。ひらがな、カタカナ、漢字だけではなく、ロシア語も、タイ語も、アラビア語も。多種多様な文字を表すのに、様々な文字コードがあるのです。文字化けは、数字の羅列である文字データを、誤った文字コードで解読し表示したことにより発生します。例えば、文字を書くときはひらがなの文字コードで書いたのに、表示するときにロシア語の文字コードで表示すると、正しく解読できませんね。 Shift-JISとUTF-8と日本語の文字化け Web制作をしていると、日本語で書いた文章を日本語で表示したいのに、文字化けしてしまうことがあります。実は、日本語を表す事のできる文字コードは、よく使われているものが「Shift-JIS」と「UTF-8」の2つあるのです。みなさんが直面する文字化け問題のほとんどは、この「Shift-JIS」と「UTF-8」の取り違えによるものでしょう。「Shift-JIS」は、WindowsやMacなどのOS内で使われている、日本語専用の文字コードです。ひらがな、カタカナ、漢字や、「１」「＠」といった全角の英数字が該当します。 WindowsやMacを使って、何も意識せずに記載した日本語の文章は、「Shift-JIS」の文字コードでデータになるのです。 1文字を2進数で16桁で表せるので、1文字あたりのデータ量は2Byteになります。しかし、インターネットでつながる世界は、日本語以外に様々な言葉が使われていますね。どんな言語でも包括的に表せるように作られた文字コードが「UTF-8」です。例えば、日本語とロシア語とタイ語とアラビア語が混在したWebページを作る必要があるかもしれません。例えば、Shift-JISの文字化けページをロシア人が見ても、そもそも何の文字コードで書かれているかわからず、直すこともできません。そんな問題を防ぐために、UTF-8はどんな文字でも対応できます。全世界で一般的に使われている文字のほとんどだけではなく、数学記号や音楽記号、古代文字、絵文字、麻雀牌まで表すことができます。そのため、データ量は1文字あたり最大4Byte と、「Shift-JIS」などと比べ大きくなってしまうというデメリットもあります。日本語文字コードを間違えると文字化けします Shift-JIS 149 182 142 154 131 82 129 91 131 104 130 240 138 212 136 225 130 166 130 233 130 198 149 182 142 154 137

HTML

Pythonで文字コードを変換する方法【初心者向け】現役エンジニアが解説

Pythonで文字コードを変換する方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。目次文字コードとは文字コードを変換する書き方実際に書いてみようなお本記事は、テックアカデミーのPythonコースの内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介文字コードを変換する方法について詳しく説明していくね！大石ゆかりお願いします！文字コードとは文字コードとは、文字を表す番号のことです。コンピュータは数字しか処理できないので、人間の言語 (自然言語と呼ばれます) はコンピュータが理解できる形に変換してあげる必要があります。文字コードは、それぞれの文字（イメージ）に対応する番号の一覧表です。文字コードはいくつか種類があり、それにより見た目が同じでも番号が異なります。例えば、Windowsで保存したファイルがMacで文字化けしてしまった経験はありませんか？ OSの違いによる文字化けは文字コードが違うことが原因です。普段はあまり聞き慣れない文字コードですが、プログラミングを行う際、特に日本語を扱う場合には、知っておくと汎用性の高い知識です。 ASCII もっとも基礎的な文字コードで、「アスキー」と発音します。半角英数字128文字から構成されており、全ての文字を1バイトで表します。例えば「A」はASCIIでは0x41 (0xは16進数を表します) となります。上記の0x41のような表現を、「バイト文字」や「バイト列」と呼びます。 Shift_JIS 日本語を扱うために用いられる文字コードで、全ての文字を2バイトで表します。読み方は「シフトジス」です。亜種の cp932 がWindowsで採用されていたことで広く使われていました。例えば「あ」はShift_JISでは0x82E0となります。 Windowsでcsvやtxtファイルを取り扱う場合には、Shift-JISが用いられることが標準的です。 UTF-8 現在最も広く使われている標準的な文字コードで、全ての文字を1〜4バイトで表します。世界中の文字を扱えるため、標準的に使われるようになりました。例えば「あ」はUTF-8では0xe38182となります。 Shift-JISで「あ」を表現する場合とでは、対応する番号が異なっている事が分かりますね。以前のPythonのバージョン2.x (xは任意の数字。2020年4月にサポート終了済) では、標準の文字コードは ASCII だったため、日本語を扱う際は、文字コードを宣言する必要がありました。しかし、現在主流のPython のバージョン3.xでは、標準の文字コードはUTF-8となったため、文字コードを宣言することなく日本語を扱えるようになっています。 [PR] 未経験からWebエンジニアを目指す方法とは文字コードを変換する書き方 Python の標準の文字コードは UTF-8 です。また標準入出力（外部との情報のやりとり）も UTF-8 の文字列で行われます。そのため、 Pythonのみでデータを取り扱う場合には文字コードを変換する場面は多くありませんが、Python以外のアプリケーションで生成したファイル (.txtや.csv) をPythonで扱う場合には文字コードにも注意が必要です。ファイルから情報を入出力する場合ファイルの文字コードを判別して入出力する必要があります。詳しくは以下の記事を参考にしてください。 Pythonでファイルの文字コードを判定する方法外部のプログラムなどとバイト列で文字列をやりとりする場合文字列とバイト列との変換用に、関数が用意されています。文字列をバイト列に変換するには encode メソッドを使用します。 '文字列'.encode('文字コード名') 逆に、バイト列を文字列に変換するには decode メソッドを使用します。 b'バイト列'.decode('文字コード名') 実際に書いてみよう今回のサンプルプログラムでは、encode、decodeメソッド文字コードを変えてバイト列の内容を確認していきます。実行はPythonインタプリタで行います。コマンドラインで「python」と入力すると「>>>」と表示されますので、1行ずつプログラムを入力します。はじめに文字列を UTF-8 のバイト列に変換してみましょう。 'こんにちは！'.encode('utf-8') 実行結果は以下のようになります。 b'xe3x81x93xe3x82x93xe3x81xabxe3x81xa1xe3x81xafxefxbcx81' 次に、同じ文字列を Shift_JIS の亜種である CP932 のバイト列に変換してみましょう。 'こんにちは！'.encode('cp932') 実行結果は以下のようになります。 UTF-8 の場合と実行結果が異なることが確認できます。 b'x82xb1x82xf1x82xc9x82xbfx82xcdx81I' 最後に、cp932 のバイト列を文字列に変換してみましょう。 b'x82xb1x82xf1x82xc9x82xbfx82xcdx81I'.decode('cp932') 実行結果は以下のようになります。 'こんにちは！' Python 3.x では文字列は UTF-8 なので、encode・decode メソッドを使う機会は多くないかもしれませんが、文字コードを学んでおくとコンピュータが文字をどのように扱っているか、具体的なイメージをもってプログラミングを行えますね。監修してくれたメンター太田和樹（おおたかずき） ITベンチャー企業のPM兼エンジニア普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。大石ゆかり内容分かりやすくて良かったです！田島悠介ゆかりちゃんも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！ Pythonを学習中の方へこれで解説は終了です、お疲れさまでした。つまずかず「効率的に」学びたい副業や転職後の「現場で使える」知識やスキルを身につけたいプログラミングを学習していて、このように思ったことはありませんか？テックアカデミーのPythonコースでは、第一線で活躍する「プロのエンジニア」が教えているので、効率的に実践的なスキルを完全オンラインでしっかり習得できます。合格率10%の選考を通過した、選ばれたエンジニアの手厚いサポートを受けながら、人工知能（AI）や機械学習の基礎を完全オンラインでしっかり習得できます。まずは一度、無料体験で学習の悩みや今後のキャリアについて話してみて、「現役エンジニアから教わること」を実感してみてください。時間がない方、深く知ってから体験してみたい方は、今スグ見られる説明動画から先に視聴することをおすすめします！

Python

Pythonにおけるunicode decode errorに関する回避方法を現役エンジニアが解説【初心者向け】

Pythonにおけるunicode decode errorに関する回避方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。 Pythonにおけるunicode decode errorを知っておくことで、実務でエラーが発生したときに対応できるようになります。目次文字コードとはファイルの文字コードを判定する書き方実際に書いてみようそもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonにおけるunicode decode errorに関する回避方法について詳しく説明していくね！大石ゆかりお願いします！この記事では、Pythonでファイルを読み込もうとしたときに表示されることのある、UnicodeDecodeErrorに対する対処方法について説明します。文字コードとは？ファイル読み込み時のUnicodeDecodeErrorを回避するために、文字コードの解説をします。文字コードというのは、それぞれの文字に割り振られた識別用のコードのことで、コンピュータで文字を表現するときに必要になってきます。コンピュータやファイルの種類によって文字コードは変わってくるので、ファイルの読み込みや、ファイルの保存の際に意識しておく必要があります。文字コードの種類には、UnicodeやUTF-8、ASCIIやシフトJISなどがあります。次の文字コード表はWikipediaに有る資料の例です。 decode errorとは？ decode errorというのは、文字コードを文字列に変換することができないことで生じるエラーです。例えば次のような、指定文字コードと読み込み文字コードが異なる場合に発生します。データをPythonのstr型の文字列として読み込みたい場合に、指定文字コードと読み込み文字コードの種類が違う文字列の結合などのデータ加工がしたい場合などに、指定文字コードと読み込み文字コードの種類が違う Pythonで文字コードが関係する読み込みファイルは、テキストコンテンツが記載されたtxtファイルや、データを記載したCSVファイルがあります。 Python3では、文字コードに関しPython側で処理してくれることが多くなり、文字コードエラーが少なくなりました。 [PR] 未経験からWebエンジニアを目指す方法とはunicode decode errorを回避するために正しい記述を理解する unicode decode errorは、読み込みたいファイルの文字コードと、プログラムファイルの文字コードが異なる場合などに発生します。エラーの原因はプログラムファイルの文字コードのせいでエラーが出る場合、コンピュータのデフォルト文字コードのせいでエラーが出る場合、など原因は複数あるます。すべての場合に適用できるような解決策はありませんが、主要な解決策について紹介します。 encodingを指定する読み出したいファイルの文字コードが違う場合には、encodingを指定するのが良いです。次のように、ファイルを読み込む際に、関数の引数にencodingを指定すると良いでしょう。 file_data = open(file, 'r',　encoding="utf-8") プログラムの文字コードを変える Pythonのプログラムファイルの文字コードの設定を変える場合は、プログラムファイルの冒頭に次の記述を記載します。 # -*- coding: utf-8 -*- まとめ以上、この記事ではPythonにおけるUnicodeDecodeErrorについて解説しました。 UnicodeDecodeErrorは、読み込み元と、読み込むプログラムの文字コードの違いなどで発生しました。 UnicodeDecodeErrorを回避する方法として、encodingを指定する方法や、プログラムの文字コードを変える方法がありました。大石ゆかり内容が分かりやすくて良かったです！田島悠介ゆかりちゃんも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！ Pythonを学習中の方へこれで解説は終了です、お疲れさまでした。つまずかず「効率的に」学びたい副業や転職後の「現場で使える」知識やスキルを身につけたいプログラミングを学習していて、このように思ったことはありませんか？テックアカデミーのPythonコースでは、第一線で活躍する「プロのエンジニア」が教えているので、効率的に実践的なスキルを完全オンラインでしっかり習得できます。合格率10%の選考を通過した、選ばれたエンジニアの手厚いサポートを受けながら、人工知能（AI）や機械学習の基礎を学べます。まずは一度、無料体験で学習の悩みや今後のキャリアについて話してみて、「現役エンジニアから教わること」を実感してみてください。時間がない方、深く知ってから体験してみたい方は、今スグ見られる説明動画から先に視聴することをおすすめします！

Python

Pythonでファイルに書き込む方法【初心者向け】

Pythonでテキストファイルに書き込む方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介テキストファイルに書き込みを行う方法について詳しく説明していくね！大石ゆかりお願いします！ファイルを開く方法 Pythonでテキストファイルに書き込みを行う場合、以下の操作を行います。ファイルを開くデータを書き込むファイルを閉じるまずは、ファイルを開く／閉じる方法を確認しましょう。ファイルオブジェクト = open(ファイル名, "モード", encoding = "文字コード") ファイルオブジェクト.close() ファイルを開いた結果を、ファイルオブジェクトとして変数に取得します。この変数を用いて、ファイルへの書き込みを行います。モードは3種類あります。 “w”：新規作成（既に同名のファイルが存在すれば上書き） “x”：新規作成（既に同名のファイルが存在すればエラー） “a”：追記（既に同名のファイルが存在すれば末尾に追記） encodingには文字コードを指定します。特別な理由が無ければ「utf_8」を指定しましょう。ファイルに書き込む方法次にファイルにデータを書き込む方法を確認しましょう。ファイルオブジェクト.write(データ) ファイルにデータを書き込む際には、ファイルを開いた時に取得した、ファイルオブジェクトを使います。 [PR] 未経験からWebエンジニアを目指す方法とは実際に書いてみよう今回のサンプルプログラムでは、「hello.txt」というファイルに、あいさつを書き込んでいます。「n」は「改行」を表します。Macの場合は、option+¥ で入力出来ます。ソースコード file = "hello.txt" fileobj = open(file, "w", encoding = "utf_8") fileobj.write("こんにちはn") fileobj.write("Hellon") fileobj.write("你好n") fileobj.close() 実行すると、サンプルプログラムと同じフォルダに「hello.txt」というファイルが作成されます。実行結果は以下のようになります。こんにちは Hello 你好なお、ファイルを読み込む場合は以下のように記述します。ファイルを開く／閉じるは上記と同様です。readメソッドで読み込みを行います。読み込んだ結果は文字列としてdata変数に取得されます。ソースコード fileobj = open(file) data = fileobj.read() fileobj.close() print(data) 実行結果は以下のようになります。こんにちは Hello 你好この記事を監修してくれた方太田和樹（おおたかずき） ITベンチャー企業のPM兼エンジニア普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。大石ゆかり内容分かりやすくて良かったです！田島悠介ゆかりちゃんも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！ TechAcademyでは、初心者でもPythonを使った人工知能（AI）や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。

Python

PHPで文字コードを変換する方法【初心者向け】

PHPで文字コードを変換する方法について解説します。 mb_convert_encoding関数を使って文字コードを変換する書き方について説明しているので、ぜひ理解しておきましょう。そもそもPHPについてよく分からないという方は、PHPとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPHP/Laravel講座の内容をもとに紹介しています。田島悠介今回は、PHPに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 PHPで文字コードを変換する方法について詳しく説明していくね！大石ゆかりお願いします！文字コードとは文字コードと言えば一般的には「Shift-JIS」や「UTF-8」などのキーワードを連想される方も多くいると思います。ですが、これらは正確には符号化方式と呼ばれるものにあたります。実は文字コードという概念には2つの概念が含まれていて、1つ目は「文字集合」、2つ目は「符号化方式」と呼ばれるものです。文字集合まず、「文字集合」とは、その名のとおり文字の集合体と考えてください。例えば、日本語では「ひらがな」「カタカナ」「漢字」といった様々な種類の文字がありますよね。これらの日本語を表せる文字の集合として有名なのが「JIS X 0208」です。もちろん、この「JIS X 0208」には中国語やベトナム語などの文字列は含まれていません。もう一つ有名な文字集合は「Unicode」です。「Unicode」の特徴は世界中で使われているすべての文字の集合体となっていることです。もちろん日本語も中国語やベトナム語も含まれています。そして、これらの文字集合には1つ1つの文字に対して識別するための唯一の番号が振られています。符号化方式もうひとつの概念である「符号化方式」とは、文字集合で定義されている各文字に割り当てられている番号に対応するコンピュータが扱う数字の対応表となります。例えばコンピュータは「あ」等の文字列をUTF-8という「227 129 130」のような数値として認識しています。例えば、テキストファイルに「あ」と書いてUTF-8で保存した場合は、コンピュータのハードディスクには「227 129 130」という数値が保存されます。このテキストファイルをエディタで開くときに、エディタは「UTF-8」という文字符号化方式で「227 129 130」を「あ」に変換して表示しています。最初に述べたように符号化方式には「UTF-8」「Shift-JIS」など多くの種類があります。「UTF-8」は文字集合「Unicode」に含まれる各文字について、「Shift-JIS」は文字集合「JIS X 0208」に含まれる各文字について、文字集合の各文字に割り当てられている番号とコンピュータが扱う数字の対応表を持っています。文字コードを変換する方法 mb_convert_encoding( )関数を利用します。第1引数: 変換する文字列を指定します第2引数: 変換後の文字コードを指定します第3引数(省略可): 変換前の文字コードを指定します省略した場合はmb_internal_encoding()関数で取得できる文字コードが設定されます参考URL ※指定できる文字コードは下記のドキュメントを参照してください。 php.net-mbstring-encoding [PR] 未経験からWebエンジニアを目指す方法とは実際に書いてみよう下記の例では、実行ファイルの文字コードと内部文字エンコーディングがUTF-8であることを前提とします。 $str = "オリジナル"; //①文字コードを変換して保存してみよう！ // 内部エンコーディング(UTF-8)からEUC-JPに変換します $euc = mb_convert_encoding($str, "EUC-JP"); // UTF-8からSJISに変換します $sjis

PHP

Pythonで日本語を扱う方法【初心者向け】

Pythonで日本語を扱う方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介日本語を扱う方法について詳しく説明していくね！大石ゆかりお願いします！ Pythonで日本語を扱う注意点とは Python での日本語の扱いは、Python で使用している文字コードと深い関わりがあります。以前の、Pythonのバージョン2.x(xは任意の数字)では、標準の文字コードは ASCII でした。よって日本語を扱う際は、文字コードを宣言して扱う必要がありました。しかし、現在主流のPython のバージョン3.xでは、標準の文字コードはUTF-8となったため、文字コードを宣言することなく、日本語を扱えるようになっています。これからPythonを学習する場合は、バージョン3.xを使用することになるため、Pythonで日本語を扱う際、特別に注意することは無いでしょう。なお、文字コードについては、以下の記事も参考にしてください。 Pythonでファイルの文字コードを判定する方法文字コードを宣言する書き方 Pythonのソースで使用する文字コードの宣言は以下のように行います。文字コードを宣言しなければ、デフォルトの文字コード「UTF-8」が使用されます。 # coding: エンコーディング名エンコーディング名には、以下の文字が入ります。 utf_8 Python3.x標準の文字コード shift_jis 日本のパソコンで主流だった文字コード cp932 shift_jisの亜種でWindowsで現在も利用されている iso2022_jp 電子メールで用いられる euc_jp Unixで用いられる注意点として、文字コードの宣言と、実際のソースファイルの文字コードは一致させる必要があります。 MacやCloud9などの環境では、デフォルトでUTF-8でソースファイルが作成されますが、Windowsの場合、エディターによってはcp932(シフトJISと表記される)で作成される場合もありますので注意しましょう。 [PR] 未経験からWebエンジニアを目指す方法とは実際にPythonで日本語を扱ってみよう今回のサンプルプログラムでは、UTF-8でソースファイルを作成し、異なる文字コードの宣言をすることで、Python における日本語の扱いを確認していきます。以下のプログラムを作成し「chr.py」というファイル名で保存しましょう。 # coding: cp932 print("こんにちは") プログラムを作成したら実行します。 Python chr.py 実行結果は以下のようになります。縺薙ｓ縺ｫ縺｡縺ｯ「こんにちは」と表示されるはずなのに、異なる結果が表示されましたね。これはUTF-8の文字コードを、無理やりcp932で表示させようとしたためです。それではプログラムを修正しましょう。 # coding: utf-8 print("こんにちは") 実行結果は以下のようになります。こんにちは正しく表示されましたね。次に、文字コードの宣言を削除してみましょう。 print("こんにちは") 実行結果は以下のようになります。こんにちはソースファイルの文字コードがUTF-8であるため、文字コードを宣言しなくてもUTF-8で表示されます。プログラムを書いていて、文字が正しく表示されない場合は、ソースファイルの文字コードがUTF-8か、そうでない場合は文字コードの宣言と一致しているか、確認するようにしましょう。この記事を監修してくれた方太田和樹（おおたかずき） ITベンチャー企業のPM兼エンジニア普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。大石ゆかり内容分かりやすくて良かったです！田島悠介ゆかりちゃんも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！ TechAcademyでは、初心者でもPythonを使った人工知能（AI）や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。

Python

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

Pythonでファイルの文字コードを判定する方法【初心者向け】

文字コードとは

ASCII

Shift_JIS

UTF-8

ファイルの文字コードを判定する書き方

実際に書いてみよう

関連するキーワード

あわせてよく読まれている記事

今すぐ対策できる！HTMLで文字化けを直す方法【初心者向け】

Pythonで文字コードを変換する方法【初心者向け】現役エンジニアが解説

Pythonにおけるunicode decode errorに関する回避方法を現役エンジニアが解説【初心者向け】

Pythonでファイルに書き込む方法【初心者向け】

PHPで文字コードを変換する方法【初心者向け】

Pythonで日本語を扱う方法【初心者向け】

TechAcademyから
現役エンジニアの方へ
お知らせ

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

文字コードとは

ASCII

Shift_JIS

UTF-8

ファイルの文字コードを判定する書き方

実際に書いてみよう

記事を検索

関連するキーワード

関連する記事

あわせてよく読まれている記事

TechAcademyから 現役エンジニアの方へ お知らせ

TechAcademyから
現役エンジニアの方へ
お知らせ