Python

Pythonで文字コードを変換する方法【初心者向け】現役エンジニアが解説

初心者向けにPythonで文字コードを変換する方法について解説しています。Python3ではデフォルトでUTF-8が設定されています。ここではencodeメソッドとdecodeメソッドを使った変換の方法を解説します。基本の書き方を覚えておきましょう。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元：GMOリサーチ株式会社　調査期間：2021年8月12日～8月16日　調査対象：2020年8月以降にプログラミングスクールを受講した18～80歳の男女1,000名　調査手法：インターネット調査

Pythonで文字コードを変換する方法について解説します。

そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

文字コードとは

文字コードとは、文字を表す番号のことです。

コンピュータは数字しか処理できないので、人間の言語 (自然言語と呼ばれます) はコンピュータが理解できる形に変換してあげる必要があります。

文字コードは、それぞれの文字（イメージ）に対応する番号の一覧表です。

文字コードはいくつか種類があり、それにより見た目が同じでも番号が異なります。

例えば、Windowsで保存したファイルがMacで文字化けしてしまった経験はありませんか？

OSの違いによる文字化けは文字コードが違うことが原因です。

普段はあまり聞き慣れない文字コードですが、プログラミングを行う際、特に日本語を扱う場合には、知っておくと汎用性の高い知識です。

ASCII

もっとも基礎的な文字コードで、「アスキー」と発音します。

半角英数字128文字から構成されており、全ての文字を1バイトで表します。

例えば「A」はASCIIでは0x41 (0xは16進数を表します) となります。

上記の0x41のような表現を、「バイト文字」や「バイト列」と呼びます。

Shift_JIS

日本語を扱うために用いられる文字コードで、全ての文字を2バイトで表します。

読み方は「シフトジス」です。

亜種の cp932 がWindowsで採用されていたことで広く使われていました。

例えば「あ」はShift_JISでは0x82E0となります。

Windowsでcsvやtxtファイルを取り扱う場合には、Shift-JISが用いられることが標準的です。

UTF-8

現在最も広く使われている標準的な文字コードで、全ての文字を1〜4バイトで表します。

世界中の文字を扱えるため、標準的に使われるようになりました。

例えば「あ」はUTF-8では0xe38182となります。

Shift-JISで「あ」を表現する場合とでは、対応する番号が異なっている事が分かりますね。

以前のPythonのバージョン2.x (xは任意の数字。2020年4月にサポート終了済) では、標準の文字コードは ASCII だったため、日本語を扱う際は、文字コードを宣言する必要がありました。

しかし、現在主流のPython のバージョン3.xでは、標準の文字コードはUTF-8となったため、文字コードを宣言することなく日本語を扱えるようになっています。

[PR] 未経験からWebエンジニアを目指す方法とは

文字コードを変換する書き方

Python の標準の文字コードは UTF-8 です。

また標準入出力（外部との情報のやりとり）も UTF-8 の文字列で行われます。

そのため、 Pythonのみでデータを取り扱う場合には文字コードを変換する場面は多くありませんが、Python以外のアプリケーションで生成したファイル (.txtや.csv) をPythonで扱う場合には文字コードにも注意が必要です。

ファイルから情報を入出力する場合

ファイルの文字コードを判別して入出力する必要があります。

詳しくは以下の記事を参考にしてください。

Pythonでファイルの文字コードを判定する方法

外部のプログラムなどとバイト列で文字列をやりとりする場合

文字列とバイト列との変換用に、関数が用意されています。

文字列をバイト列に変換するには encode メソッドを使用します。

'文字列'.encode('文字コード名')

逆に、バイト列を文字列に変換するには decode メソッドを使用します。

b'バイト列'.decode('文字コード名')

実際に書いてみよう

今回のサンプルプログラムでは、encode、decodeメソッド文字コードを変えてバイト列の内容を確認していきます。

実行はPythonインタプリタで行います。

コマンドラインで「python」と入力すると「>>>」と表示されますので、1行ずつプログラムを入力します。

はじめに文字列を UTF-8 のバイト列に変換してみましょう。

'こんにちは！'.encode('utf-8')

実行結果は以下のようになります。

b'xe3x81x93xe3x82x93xe3x81xabxe3x81xa1xe3x81xafxefxbcx81'

次に、同じ文字列を Shift_JIS の亜種である CP932 のバイト列に変換してみましょう。

'こんにちは！'.encode('cp932')

実行結果は以下のようになります。

UTF-8 の場合と実行結果が異なることが確認できます。

b'x82xb1x82xf1x82xc9x82xbfx82xcdx81I'

最後に、cp932 のバイト列を文字列に変換してみましょう。

b'x82xb1x82xf1x82xc9x82xbfx82xcdx81I'.decode('cp932')

実行結果は以下のようになります。

'こんにちは！'

Python 3.x では文字列は UTF-8 なので、encode・decode メソッドを使う機会は多くないかもしれませんが、文字コードを学んでおくとコンピュータが文字をどのように扱っているか、具体的なイメージをもってプログラミングを行えますね。

監修してくれたメンター

太田和樹（おおたかずき）
ITベンチャー企業のPM兼エンジニア普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。

内容分かりやすくて良かったです！

ゆかりちゃんも分からないことがあったら質問してね！

分かりました。ありがとうございます！

Pythonを学習中の方へ

これで解説は終了です、お疲れさまでした。

つまずかず「効率的に」学びたい
副業や転職後の「現場で使える」知識やスキルを身につけたい

プログラミングを学習していて、このように思ったことはありませんか？

テックアカデミーのPythonコースでは、第一線で活躍する「プロのエンジニア」が教えているので、効率的に実践的なスキルを完全オンラインでしっかり習得できます。

合格率10%の選考を通過した、選ばれたエンジニアの手厚いサポートを受けながら、人工知能（AI）や機械学習の基礎を完全オンラインでしっかり習得できます。

まずは一度、無料体験で学習の悩みや今後のキャリアについて話してみて、「現役エンジニアから教わること」を実感してみてください。

時間がない方、深く知ってから体験してみたい方は、今スグ見られる説明動画から先に視聴することをおすすめします！

Pythonのqueueとdequeの違いを現役エンジニアが解説【初心者向け】

Pythonのqueueとdequeの違いについて、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。 ...

Python

Pythonにおけるnetaddrモジュールの利用方法を現役エンジニアが解説【初心者向け】

Pythonにおけるnetaddrモジュールの利用方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説しま...

Python

Pythonでテキストファイルの行数を取得する方法を現役エンジニアが解説【初心者向け】

Pythonでテキストファイルの行数を取得する方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説...

Python

Pythonのformat関数で出力文字列をセンタリングする方法を現役エンジニアが解説【初心者向け】

Pythonのformat関数で出力文字列をセンタリングする方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して初心者向けに...

Python

Pythonのprint関数でタブを出力する方法を現役エンジニアが解説【初心者向け】

Pythonのprint関数でタブを出力する方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。 ...

Python

Pythonの辞書の要素をソートする方法【初心者向け】

Pythonの辞書の要素をソートする方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を...

Python

あわせてよく読まれている記事

今すぐ対策できる！HTMLで文字化けを直す方法【初心者向け】

今回はHTMLで文字化けを直す方法を説明していきます。『Web制作で謎の文字が出て、意図した日本語が表示できない！』などとお悩みのみなさんは、ぜひこの記事を読んでみてください。文字化け対策自体は、非常に簡単ですのでぜひ理解してくださいね！目次文字化けが起こる原因文字化けさせない書き方（文字化けの直し方）実際に書いてみよう文字化けが起こる原因まずは文字を表示する仕組みと、文字化けが起こる原因をご説明します。文字コード「コンピュータは0と1の世界」と聞いたことがあるのではないでしょうか？コンピュータ内で扱われているデータは、文章も画像も動画も、すべて数字の羅列です。コンピュータが「この数字の羅列はこういう意味だ」という解読ルールを知っていて、人間に理解しやすい文章や画像に変換して画面に表示してくれるので、数字の羅列を意識しなくても使うことができます。例えば文字も、「この数字がこの文字」という対応ルールがあります。この数字と文字の対応ルールのことを、文字コードといいます。文字 2進数 16進数 10進数 0 011 0000 30 48 A 100 0001 41 65 B 100 0010 42 66 a 110 0001 61 97 $ 010 0100 24 36 スペース 010 0000 20 32 改行 000 1010 0A 10 文章　　　　　→　 I am a human ASCII (16進数)　→　73 32 97 109 32 97 32 104 117 109 97 110 コンピュータの世界で一般的に使われている文字コードに、ASCII（アスキー）があります。アルファベットや数字や記号など、キーボードで半角入力できる文字のコードを定めるものです。 1文字を2進数8桁以内で表せるので、1文字あたりのデータ量は1Byteになります。（ASCIIコード表出展 Wikipedia https://en.wikipedia.org/wiki/ASCII ） ASCII文字は、どのコンピュータやスマホも同じように解読できます。 ASCII文字だけで作られている文章は、絶対に文字化けしません。 HTMLやCSSのコードも、ASCII文字だけで記述しますよね。 ASCII以外の文字コードと文字化け人間が使う文字は、ASCIIで定められたアルファベットや数字以外にもたくさんあります。ひらがな、カタカナ、漢字だけではなく、ロシア語も、タイ語も、アラビア語も。多種多様な文字を表すのに、様々な文字コードがあるのです。文字化けは、数字の羅列である文字データを、誤った文字コードで解読し表示したことにより発生します。例えば、文字を書くときはひらがなの文字コードで書いたのに、表示するときにロシア語の文字コードで表示すると、正しく解読できませんね。 Shift-JISとUTF-8と日本語の文字化け Web制作をしていると、日本語で書いた文章を日本語で表示したいのに、文字化けしてしまうことがあります。実は、日本語を表す事のできる文字コードは、よく使われているものが「Shift-JIS」と「UTF-8」の2つあるのです。みなさんが直面する文字化け問題のほとんどは、この「Shift-JIS」と「UTF-8」の取り違えによるものでしょう。「Shift-JIS」は、WindowsやMacなどのOS内で使われている、日本語専用の文字コードです。ひらがな、カタカナ、漢字や、「１」「＠」といった全角の英数字が該当します。 WindowsやMacを使って、何も意識せずに記載した日本語の文章は、「Shift-JIS」の文字コードでデータになるのです。 1文字を2進数で16桁で表せるので、1文字あたりのデータ量は2Byteになります。しかし、インターネットでつながる世界は、日本語以外に様々な言葉が使われていますね。どんな言語でも包括的に表せるように作られた文字コードが「UTF-8」です。例えば、日本語とロシア語とタイ語とアラビア語が混在したWebページを作る必要があるかもしれません。例えば、Shift-JISの文字化けページをロシア人が見ても、そもそも何の文字コードで書かれているかわからず、直すこともできません。そんな問題を防ぐために、UTF-8はどんな文字でも対応できます。全世界で一般的に使われている文字のほとんどだけではなく、数学記号や音楽記号、古代文字、絵文字、麻雀牌まで表すことができます。そのため、データ量は1文字あたり最大4Byte と、「Shift-JIS」などと比べ大きくなってしまうというデメリットもあります。日本語文字コードを間違えると文字化けします Shift-JIS 149 182 142 154 131 82 129 91 131 104 130 240 138 212 136 225 130 166 130 233 130 198 149 182 142 154 137

HTML

PHPで文字コードを変換する方法【初心者向け】

PHPで文字コードを変換する方法について解説します。 mb_convert_encoding関数を使って文字コードを変換する書き方について説明しているので、ぜひ理解しておきましょう。そもそもPHPについてよく分からないという方は、PHPとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPHP/Laravel講座の内容をもとに紹介しています。田島悠介今回は、PHPに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 PHPで文字コードを変換する方法について詳しく説明していくね！大石ゆかりお願いします！文字コードとは文字コードと言えば一般的には「Shift-JIS」や「UTF-8」などのキーワードを連想される方も多くいると思います。ですが、これらは正確には符号化方式と呼ばれるものにあたります。実は文字コードという概念には2つの概念が含まれていて、1つ目は「文字集合」、2つ目は「符号化方式」と呼ばれるものです。文字集合まず、「文字集合」とは、その名のとおり文字の集合体と考えてください。例えば、日本語では「ひらがな」「カタカナ」「漢字」といった様々な種類の文字がありますよね。これらの日本語を表せる文字の集合として有名なのが「JIS X 0208」です。もちろん、この「JIS X 0208」には中国語やベトナム語などの文字列は含まれていません。もう一つ有名な文字集合は「Unicode」です。「Unicode」の特徴は世界中で使われているすべての文字の集合体となっていることです。もちろん日本語も中国語やベトナム語も含まれています。そして、これらの文字集合には1つ1つの文字に対して識別するための唯一の番号が振られています。符号化方式もうひとつの概念である「符号化方式」とは、文字集合で定義されている各文字に割り当てられている番号に対応するコンピュータが扱う数字の対応表となります。例えばコンピュータは「あ」等の文字列をUTF-8という「227 129 130」のような数値として認識しています。例えば、テキストファイルに「あ」と書いてUTF-8で保存した場合は、コンピュータのハードディスクには「227 129 130」という数値が保存されます。このテキストファイルをエディタで開くときに、エディタは「UTF-8」という文字符号化方式で「227 129 130」を「あ」に変換して表示しています。最初に述べたように符号化方式には「UTF-8」「Shift-JIS」など多くの種類があります。「UTF-8」は文字集合「Unicode」に含まれる各文字について、「Shift-JIS」は文字集合「JIS X 0208」に含まれる各文字について、文字集合の各文字に割り当てられている番号とコンピュータが扱う数字の対応表を持っています。文字コードを変換する方法 mb_convert_encoding( )関数を利用します。第1引数: 変換する文字列を指定します第2引数: 変換後の文字コードを指定します第3引数(省略可): 変換前の文字コードを指定します省略した場合はmb_internal_encoding()関数で取得できる文字コードが設定されます参考URL ※指定できる文字コードは下記のドキュメントを参照してください。 php.net-mbstring-encoding [PR] 未経験からWebエンジニアを目指す方法とは実際に書いてみよう下記の例では、実行ファイルの文字コードと内部文字エンコーディングがUTF-8であることを前提とします。 $str = "オリジナル"; //①文字コードを変換して保存してみよう！ // 内部エンコーディング(UTF-8)からEUC-JPに変換します $euc = mb_convert_encoding($str, "EUC-JP"); // UTF-8からSJISに変換します $sjis

PHP

Pythonにおけるunicode decode errorに関する回避方法を現役エンジニアが解説【初心者向け】

Pythonにおけるunicode decode errorに関する回避方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。 Pythonにおけるunicode decode errorを知っておくことで、実務でエラーが発生したときに対応できるようになります。目次文字コードとは文字コードを変換する書き方実際に書いてみよう監修してくれたメンターPythonを学習中の方へそもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonにおけるunicode decode errorに関する回避方法について詳しく説明していくね！大石ゆかりお願いします！この記事では、Pythonでファイルを読み込もうとしたときに表示されることのある、UnicodeDecodeErrorに対する対処方法について説明します。文字コードとは？ファイル読み込み時のUnicodeDecodeErrorを回避するために、文字コードの解説をします。文字コードというのは、それぞれの文字に割り振られた識別用のコードのことで、コンピュータで文字を表現するときに必要になってきます。コンピュータやファイルの種類によって文字コードは変わってくるので、ファイルの読み込みや、ファイルの保存の際に意識しておく必要があります。文字コードの種類には、UnicodeやUTF-8、ASCIIやシフトJISなどがあります。次の文字コード表はWikipediaに有る資料の例です。 decode errorとは？ decode errorというのは、文字コードを文字列に変換することができないことで生じるエラーです。例えば次のような、指定文字コードと読み込み文字コードが異なる場合に発生します。データをPythonのstr型の文字列として読み込みたい場合に、指定文字コードと読み込み文字コードの種類が違う文字列の結合などのデータ加工がしたい場合などに、指定文字コードと読み込み文字コードの種類が違う Pythonで文字コードが関係する読み込みファイルは、テキストコンテンツが記載されたtxtファイルや、データを記載したCSVファイルがあります。 Python3では、文字コードに関しPython側で処理してくれることが多くなり、文字コードエラーが少なくなりました。 [PR] 未経験からWebエンジニアを目指す方法とはunicode decode errorを回避するために正しい記述を理解する unicode decode errorは、読み込みたいファイルの文字コードと、プログラムファイルの文字コードが異なる場合などに発生します。エラーの原因はプログラムファイルの文字コードのせいでエラーが出る場合、コンピュータのデフォルト文字コードのせいでエラーが出る場合、など原因は複数あるます。すべての場合に適用できるような解決策はありませんが、主要な解決策について紹介します。 encodingを指定する読み出したいファイルの文字コードが違う場合には、encodingを指定するのが良いです。次のように、ファイルを読み込む際に、関数の引数にencodingを指定すると良いでしょう。 file_data = open(file, 'r',　encoding="utf-8") プログラムの文字コードを変える Pythonのプログラムファイルの文字コードの設定を変える場合は、プログラムファイルの冒頭に次の記述を記載します。 # -*- coding: utf-8 -*- まとめ以上、この記事ではPythonにおけるUnicodeDecodeErrorについて解説しました。 UnicodeDecodeErrorは、読み込み元と、読み込むプログラムの文字コードの違いなどで発生しました。 UnicodeDecodeErrorを回避する方法として、encodingを指定する方法や、プログラムの文字コードを変える方法がありました。大石ゆかり内容が分かりやすくて良かったです！田島悠介ゆかりちゃんも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！ Pythonを学習中の方へこれで解説は終了です、お疲れさまでした。つまずかず「効率的に」学びたい副業や転職後の「現場で使える」知識やスキルを身につけたいプログラミングを学習していて、このように思ったことはありませんか？テックアカデミーのPythonコースでは、第一線で活躍する「プロのエンジニア」が教えているので、効率的に実践的なスキルを完全オンラインでしっかり習得できます。合格率10%の選考を通過した、選ばれたエンジニアの手厚いサポートを受けながら、人工知能（AI）や機械学習の基礎を学べます。まずは一度、無料体験で学習の悩みや今後のキャリアについて話してみて、「現役エンジニアから教わること」を実感してみてください。時間がない方、深く知ってから体験してみたい方は、今スグ見られる説明動画から先に視聴することをおすすめします！

Python

strstr関数の使い方！PHPで文字列を検索する方法【初心者向け】

PHPで文字列の中から特定の文字列を探す場面というのは比較的多いかと思います。文字列を検索する方法はいろいろありますが、今回は「strstr関数」「strpos関数」「preg_match関数」について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。 strstr・・・区切り文字の前後の文字列を取得します。 strpos・・・文字列が最初に見つかる位置を取得します。 preg_match・・・正規表現で文字列を検索します。すべての関数の使い方を覚える必要はありませんが、1つでも書き方を覚えておくといざという時に便利でしょう。目次文字コードとは文字コードを変換する書き方実際に書いてみよう監修してくれたメンターPythonを学習中の方へそもそもPHPについてよく分からないという方は、PHPとは何なのか解説した記事を読むとさらに理解が深まります。大石ゆかり PHPで文字を探すプログラムを作りたいんですけど、どうすればいいんでしょうか。田島悠介どうして文字を探したいのかな？何かの文字で区切っているから？それとも文字の位置を探したい？大石ゆかりええと、文字を探す方法がそんなにいろいろあるんですか？田島悠介そうなんだ。PHPではいろんな文字列の検索方法があるよ。まずは、区切り文字で検索する方法から見てみよう！区切り文字で分けて検索 – strstr関数 strstr関数は対象の文字列から検索文字列を探し、見つかったら検索文字列から対象の文字列の最後までを返します。区切る文字列を境にして文字列を取得したいときに使えます。構文検索対象の一部分の文字列 = strstr(検索対象の文字列, 検索文字列, [検索文字列より前の部分を取得するか]) 第1引数は検索文字を探し出す対象の文字列です。第2引数は検索する文字列です。検索文字列が半角のアルファベットの場合は、大文字小文字を区別して検索されます。第3引数は省略でき、検索文字より前の部分を返したい場合にtrueを指定しますが、標準ではfalseつまり検索文字より後の部分を取得します。戻り値は検索文字列が検索対象の文字列から見つかったときに、検索文字列を含む文字から検索対象の文字列の最後までの文字列を返します。たとえば、「dog&cat」の文字列から「&」を検索した場合、「&cat」が戻り値として返ります。ただし第3引数にtrueが指定されている場合は、検索文字を含まない前の部分を返します。もし検索文字が見つからなかったときはfalseを返します。 ※ある文字列中に別の文字列が存在するかどうかを確認したいだけならstrpos関数またはstr_contains関数（PHPの新しいバージョン8で使用可能)を使います。 ※大文字小文字を区別しないで検索したい場合は「stristr関数」を使うことで実現できます。 strstr関数の使い方 strstr関数を使ってある文字列で区切った文字列の分割をしてみましょう。ソースコードフルネーム「山田太郎」を半角スペースで姓と名に分けて出力するプログラムです。 <?php //検索文字列（半角スペース） $search = ' '; //対象文字列（空白で区切られたフルネーム） $target = '山田太郎'; echo "対象文字列：$target<br>"; //名の取得（検索文字列の空白を含む後ろの文字） $firstName = strstr($target, $search); //空白を削除（「太郎」->「太郎」） $firstName = trim($firstName); //姓の取得（空白より前） $lastName = strstr($target, $search, true); //検索結果はあるか if($firstName != false || $lastName != false){ //姓名の出力 echo "姓：$lastName<br>"; echo "名：$firstName"; } else { echo "文字が見つかりませんでした。"; } ?> ※ダブルクォーテーションで変数を囲うと、“$変数名”で変数の値を展開して出力できます。変数の展開について詳しくは公式ドキュメント「変数のパース」をご覧ください。 ※本来なら出力したいWebページ内で<html>タグなどを含める必要がありますが、今回はPHPのプログラムの解説が目的なので省略しています。基本的なPHPの書き方について詳しくは解説記事「基本的なPHPの書き方」をご覧ください。表示結果解説 //名の取得（検索文字列の空白を含む後ろの文字） $firstName = strstr($target, $search); 検索対象の文字列（$target）から検索文字（$search）が見つかったところより後ろの文字列を取得します。検索対象の文字列

PHP

Pythonで日本語を扱う方法【初心者向け】

Pythonで日本語を扱う方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介日本語を扱う方法について詳しく説明していくね！大石ゆかりお願いします！ Pythonで日本語を扱う注意点とは Python での日本語の扱いは、Python で使用している文字コードと深い関わりがあります。以前の、Pythonのバージョン2.x(xは任意の数字)では、標準の文字コードは ASCII でした。よって日本語を扱う際は、文字コードを宣言して扱う必要がありました。しかし、現在主流のPython のバージョン3.xでは、標準の文字コードはUTF-8となったため、文字コードを宣言することなく、日本語を扱えるようになっています。これからPythonを学習する場合は、バージョン3.xを使用することになるため、Pythonで日本語を扱う際、特別に注意することは無いでしょう。なお、文字コードについては、以下の記事も参考にしてください。 Pythonでファイルの文字コードを判定する方法文字コードを宣言する書き方 Pythonのソースで使用する文字コードの宣言は以下のように行います。文字コードを宣言しなければ、デフォルトの文字コード「UTF-8」が使用されます。 # coding: エンコーディング名エンコーディング名には、以下の文字が入ります。 utf_8 Python3.x標準の文字コード shift_jis 日本のパソコンで主流だった文字コード cp932 shift_jisの亜種でWindowsで現在も利用されている iso2022_jp 電子メールで用いられる euc_jp Unixで用いられる注意点として、文字コードの宣言と、実際のソースファイルの文字コードは一致させる必要があります。 MacやCloud9などの環境では、デフォルトでUTF-8でソースファイルが作成されますが、Windowsの場合、エディターによってはcp932(シフトJISと表記される)で作成される場合もありますので注意しましょう。 [PR] 未経験からWebエンジニアを目指す方法とは実際にPythonで日本語を扱ってみよう今回のサンプルプログラムでは、UTF-8でソースファイルを作成し、異なる文字コードの宣言をすることで、Python における日本語の扱いを確認していきます。以下のプログラムを作成し「chr.py」というファイル名で保存しましょう。 # coding: cp932 print("こんにちは") プログラムを作成したら実行します。 Python chr.py 実行結果は以下のようになります。縺薙ｓ縺ｫ縺｡縺ｯ「こんにちは」と表示されるはずなのに、異なる結果が表示されましたね。これはUTF-8の文字コードを、無理やりcp932で表示させようとしたためです。それではプログラムを修正しましょう。 # coding: utf-8 print("こんにちは") 実行結果は以下のようになります。こんにちは正しく表示されましたね。次に、文字コードの宣言を削除してみましょう。 print("こんにちは") 実行結果は以下のようになります。こんにちはソースファイルの文字コードがUTF-8であるため、文字コードを宣言しなくてもUTF-8で表示されます。プログラムを書いていて、文字が正しく表示されない場合は、ソースファイルの文字コードがUTF-8か、そうでない場合は文字コードの宣言と一致しているか、確認するようにしましょう。この記事を監修してくれた方太田和樹（おおたかずき） ITベンチャー企業のPM兼エンジニア普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。大石ゆかり内容分かりやすくて良かったです！田島悠介ゆかりちゃんも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！ TechAcademyでは、初心者でもPythonを使った人工知能（AI）や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。

Python

PHPで文字コードの判定を行う方法【初心者向け】

PHPで文字コードの判定を行う方法について解説します。文字コードとは何なのか説明しているので、ぜひ理解しておきましょう。そもそもPHPについてよく分からないという方は、PHPとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPHP/Laravel講座の内容をもとに紹介しています。田島悠介今回は、PHPに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 PHPで文字コードの判定を行う方法について詳しく説明していくね！大石ゆかりお願いします！文字コードとは文字コードと言えば一般的には「Shift-JIS」や「UTF-8」などのキーワードを連想される方も多くいるかと思います。ですが、これらは正確には符号化方式と呼ばれるものにあたります。実は文字コードという概念には2つの概念が含まれておりまして、1つ目は「文字集合」、2つ目は「符号化方式」と呼ばれるものです。まず「文字集合」とは、その名のとおり文字の集合体と考えてください。例えば、日本語では「ひらがな」「カタカナ」「漢字」といった様々な種類の文字がありますよね。これらの日本語を表せる文字の集合として有名なのが「JIS X 0208」です。もちろん、この「JIS X 0208」には中国語やベトナム語などの文字列は含まれていません。もう一つ有名な文字集合は「Unicode」です。「Unicode」の特徴は世界中で使われているすべての文字の集合体となっていることです。もちろん日本語も中国語やベトナム語も含まれています。そして、これらの文字集合には1つ1つの文字に対して識別するための唯一の番号が振られています。もうひとつの概念である「符号化方式」とは文字集合で定義されている各文字に割り当てられている番号に対応するコンピュータが扱う数字の対応表となります。例えばコンピュータは「あ」等の文字列をUTF-8という「227 129 130」のような数値として認識しています。例えば、テキストファイルに「あ」と書いてUTF-8で保存した場合は、コンピュータのハードディスクには「227 129 130」という数値が保存されます。このテキストファイルをエディタで開くときに、エディタは「UTF-8」という文字符号化方式で「227 129 130」を「あ」に変換して表示しています。最初に述べたように符号化方式には「UTF-8」「Shift-JIS」など多くの種類があります。「UTF-8」は文字集合「Unicode」に含まれる各文字について「Shift-JIS」は文字集合「JIS X 0208」に含まれる各文字について、文字集合の各文字に割り当てられている番号とコンピュータが扱う数字の対応表を持っています。文字コードの判定の方法 PHPではmb_detect_encoding( )関数を利用して、第一引数に渡した文字列の文字コードを判定します。ただ、注意点があり、デフォルトではASCII/UTF-8だけの文字コードしか判定できません。「Shift-JIS」「EUC-JP」などの文字コードを判定させたい場合は第二引数に、’Shift-JIS,EUC-JP’のようにカンマ区切り文字列で渡す必要があります。返り値は一致した場合は、一致した文字コードを文字列で返却します。一致する文字コードがない場合はfalseが返却されます。参考 php.net-mb-detect-encoding [PR] 未経験からWebエンジニアを目指す方法とは実際に書いてみよう ※下記のコードはUTF-8でエンコードされている前提です。 // デフォルトの判定可能な文字コードを確認しましょう！ print_r(mb_detect_order()); // [0] => ASCII [1] => UTF-8 // 文字コードを判定してみよう！ // ① UTF-8とEUC-JPでエンコーディングされた文字列を用意します $utf8 = "テスト"; // デフォルトはUTF-8でエンコードされてます $euc = mb_convert_encoding($utf8, 'EUC-JP'); // EUC-JPでエンコードし直した文字列を別の変数に格納します // ② 文字コードを判定してみましょう // デフォルトの判定可能な文字コードに含まれないEUC-JPの文字列を判定 print_r(mb_detect_encoding($euc).PHP_EOL); // falseなので何も出力されない // デフォルトの判定可能な文字コードに含まれるUTF-8の文字列を判定 print_r(mb_detect_encoding($utf8).PHP_EOL); // 「UTF-8」という文字列が出力される // 判定可能な文字コードにEUC-JPを指定し、EUC?JPの文字列を判定 print_r(mb_detect_encoding($euc).PHP_EOL, 'EUC-JP'); // 「EUC-JP」という文字列が出力される" この記事を監修してくれた方青木敦史（あおきあつし）昼間は自社のWebサービスを運営している会社でフロントエンド/バックエンドを担当しているエンジニア。 Webエンジニアの経験は5年ほどです。TechAcademyではPHP/Laravelコースを担当しています。開発実績: メイクレッスン支援アプリ / 電力自由化パッケージ /

PHP

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

Pythonで文字コードを変換する方法【初心者向け】現役エンジニアが解説

目次

文字コードとは

ASCII

Shift_JIS

UTF-8

文字コードを変換する書き方

ファイルから情報を入出力する場合

外部のプログラムなどとバイト列で文字列をやりとりする場合

実際に書いてみよう

監修してくれたメンター

Pythonを学習中の方へ

関連するキーワード

あわせてよく読まれている記事

今すぐ対策できる！HTMLで文字化けを直す方法【初心者向け】

PHPで文字コードを変換する方法【初心者向け】

Pythonにおけるunicode decode errorに関する回避方法を現役エンジニアが解説【初心者向け】

strstr関数の使い方！PHPで文字列を検索する方法【初心者向け】

Pythonで日本語を扱う方法【初心者向け】

PHPで文字コードの判定を行う方法【初心者向け】

TechAcademyから
現役エンジニアの方へ
お知らせ

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

目次

文字コードとは

ASCII

Shift_JIS

UTF-8

文字コードを変換する書き方

ファイルから情報を入出力する場合

外部のプログラムなどとバイト列で文字列をやりとりする場合

実際に書いてみよう

監修してくれたメンター

Pythonを学習中の方へ

記事を検索

関連するキーワード

関連する記事

あわせてよく読まれている記事

TechAcademyから 現役エンジニアの方へ お知らせ

TechAcademyから
現役エンジニアの方へ
お知らせ