Pythonにおけるbytes型・string型データの利用方法について現役エンジニアが解説【初心者向け】
初心者向けにPythonにおけるbytes型・string型データの利用方法について解説しています。2つのデータ型の違いとencode()メソッド、decode()メソッドを使ったエンコードとデコードの方法、実際に変換を行った場合の書き方の例を見ていきましょう。
テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日 調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名 調査手法:インターネット調査
監修してくれたメンター
平野 勝靖
Pythonにおけるbytes型・string型データの利用方法について、テックアカデミーのメンター(現役エンジニア)が実際のコードを使用して初心者向けに解説します。
複数の文字コード(例えばUTF-8, Shift-JIS, ASCII)を扱う必要がある人は、ぜひ覚えておくと良いでしょう。
ファイルから文字コードを読み取り、別の文字コードに変換してファイルに書き込み、保存したい時に役立つでしょう。
目次
そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。
今回は、Pythonに関する内容だね!
どういう内容でしょうか?
bytes型・string型データの利用方法について詳しく説明していくね!
お願いします!
bytes型とは
bytes型とは、Pythonで使用する特殊な文字列オブジェクトです。
プログラムから文字列のデータを出力するとき、または入力するときには、文字列はエンコードが行われ、bytes型の文字列オブジェクトとなります。
例えば、「こんにちは」という文字列は、UTF-8でエンコードされると以下の文字列となります。
b'xe3x81x93xe3x82x93xe3x81xabxe3x81xa1xe3x81xaf
string型とは
string型とは、Pythonで使用する皆さんにもなじみの深い文字列オブジェクトです。
さきほどの「こんにちは」はstring型の文字列オブジェクトです。
bytes型・string型データの使い方
bytes型・string型データの使い方について解説します。
まずは、bytes型データの作成です。
“s”というstring型の文字列オブジェクトをUTF-8形式のbytes型の文字列オブジェクトに変換するのが、encode()メソッドです。
s.encode("utf-8")
これをエンコードといいます。
続いて、string型データへ変換です。
“b”というUTF-8形式のbytes型の文字列オブジェクトをstring型の文字列オブジェクトに変換するのが、decode()メソッドです。
s.decode("utf-8", "ignore") # ignoreはエラー処理の方法を表しています
これをデコードといいます。
bytes型データを作成してstring型データへ変換してみよう
それでは、実際にbytes型データを作成して、string型データへ変換してみましょう。
s = "こんにちは" print(type(s)) print(s) print(len(s)) print("UTF-8形式のエンコード、デコード") s_utf8 = s.encode("utf-8") print(type(s_utf8)) print(s_utf8) print(len(s_utf8)) de_s_utf8 = s_utf8.decode("utf-8", "ignore") print(de_s_utf8) print("Shift-JIS形式のエンコード、デコード") s_shifjis = s.encode("shift-jis") print(type(s_shifjis)) print(s_shifjis) print(len(s_shifjis)) de_s_shifjis = s_shifjis.decode("shift-jis", "ignore") print(de_s_shifjis)
出力結果は以下となります。
<class 'str'> こんにちは 5 UTF-8形式のエンコード、デコード <class 'bytes'> b'xe3x81x93xe3x82x93xe3x81xabxe3x81xa1xe3x81xaf' 15 こんにちは Shift-JIS形式のエンコード、デコード <class 'bytes'> b'x82xb1x82xf1x82xc9x82xbfx82xcd' 10 こんにちは
エンコードされた文字列オブジェクトが、それぞれ元の文字列オブジェクトにデコードされていることがわかりますね。
まとめ
いかがでしたでしょうか。
Pythonにおけるbytes型・string型データの利用方法について理解できましたでしょうか。
bytes型データとstring型データの違いを理解し、変換などの取り扱いが正しくできれば、例えば違った文字コードを使った既存の複数システムを使って、新しいシステムを開発することができます。
正しく理解して活用しましょう。
内容分かりやすくて良かったです!
ゆかりちゃんも分からないことがあったら質問してね!
分かりました。ありがとうございます!
Pythonを学習中の方へ
これで解説は終了です、お疲れさまでした。
- つまずかず「効率的に」学びたい
- 副業や転職後の「現場で使える」知識やスキルを身につけたい
プログラミングを学習していて、このように思ったことはありませんか?
テックアカデミーのPythonコースでは、第一線で活躍する「プロのエンジニア」が教えているので、効率的に実践的なスキルを完全オンラインでしっかり習得できます。
合格率10%の選考を通過した、選ばれたエンジニアの手厚いサポートを受けながら、人工知能(AI)や機械学習の基礎を学べます。
まずは一度、無料体験で学習の悩みや今後のキャリアについて話してみて、「現役エンジニアから教わること」を実感してみてください。
時間がない方、深く知ってから体験してみたい方は、今スグ見られる説明動画から先に視聴することをおすすめします!