Python

Pythonで音声認識する方法を現役エンジニアが解説【初心者向け】

初心者向けにPythonで音声認識する方法について解説しています。音声認識を利用するには、音声をプログラムのバイナリコードに変換してくれるプログラムが必要になります。個人だと敷居が高いので、Googleが提供してくれているCloud Speech-to-Text APIなどを利用します。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元：GMOリサーチ株式会社　調査期間：2021年8月12日～8月16日　調査対象：2020年8月以降にプログラミングスクールを受講した18～80歳の男女1,000名　調査手法：インターネット調査

Pythonで音声認識する方法について解説します。

そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。

今回は、Pythonに関する内容だね！

どういう内容でしょうか？

音声認識する方法について詳しく説明していくね！

お願いします！

Pythonで音声認識する方法（役に立つAPIなど）

Pythonで音声認識するには幾つか方法があります。代表的なものを取り上げます。本記事で紹介する、

上記3つのサービスには、無料利用枠やトライアル利用があります。一定の利用量を超過すると課金されるようなサービス体系になっています。

実際に書いてみよう

事前準備

公式のリファレンスに従い、Google Cloud Platformでサービスアカウントを作成しておきます
過程で認証ファイルをダウンロードするため、適切な場所に保存してます
Google Cloud Platformで、Cloud Speech-to-Text APIを有効にしておきます
以下のコマンドで必要なモジュールをインストールします

pip install google-cloud-speech

以下のコマンドで、環境変数に認証ファイルのパスを設定します。

set GOOGLE_APPLICATION_CREDENTIALS=<認証ファイルのパス>
(例)
set GOOGLE_APPLICATION_CREDENTIALS=C:UsersxxxDocumentssrcvoicecredential.json

カレントディレクトリに音声認識に使用する音声ファイルを置きます。今回はGoogle Cloud Platformのサンプルを利用しました。

サンプルコード

Cloud Speech-to-Text APIのページに掲載されているものを改変したコードです。

def transcribe_file(speech_file):
    """Transcribe the given audio file."""
    from google.cloud import speech
    from google.cloud.speech import enums
    from google.cloud.speech import types
    client = speech.SpeechClient()

    with open(speech_file, 'rb') as audio_file:
        content = audio_file.read()

    audio = types.RecognitionAudio(content=content)
    config = types.RecognitionConfig(
        encoding=enums.RecognitionConfig.AudioEncoding.LINEAR16,
        sample_rate_hertz=16000,
        language_code='en-US')

    response = client.recognize(config, audio)
    # Each result is for a consecutive portion of the audio. Iterate through
    # them to get the transcripts for the entire audio file.
    for result in response.results:
        # The first alternative is the most likely one for this portion.
        print(u'Transcript: {}'.format(result.alternatives[0].transcript))

if __name__ == '__main__':
    transcribe_file('audio.raw')

実行結果

以下のように音声認識した結果の英文が表示されました。

Transcript: how old is the Brooklyn Bridge

解説

transcribe_file関数は、引数で指定した音声ファイルに対し音声認識を行い、結果をコンソールに出力します。8,9行目で音声ファイルを読み込みます。バイナリデータとして扱うため、bオプションを指定します。

11-15行目で音声認識の仕様(英語であることや、サンプリングレートなど)を指定します。17-22行目で音声認識を行い、結果をコンソールに出力します。

[PR] 未経験からWebエンジニアを目指す方法とは

監修してくれたメンター

橋本紘希

システムインテグレータ企業勤務のシステムエンジニア。

開発実績: Javaプログラムを用いた業務用Webアプリケーションや、基幹システム用バッチアプリケーションなどの設計構築試験。

内容分かりやすくて良かったです！

ゆかりちゃんも分からないことがあったら質問してね！

分かりました。ありがとうございます！

TechAcademyでは、初心者でもPythonを使った人工知能（AI）や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。

挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。

PythonのpdfminerでPDFのテキストを抽出する方法を現役エンジニアが解説【初心者向け】

PythonのpdfminerでPDFのテキストを抽出する方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは...

Python

Python3での条件分岐if文の記述方法について現役エンジニアが解説【初心者向け】

Python3での条件分岐if文の記述方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。そ...

Python

Pythonで切り捨て除算する方法を現役エンジニアが解説【初心者向け】

Pythonで切り捨て除算する方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。そもそ...

Python

Pythonで別ファイルの関数を実行する方法を現役エンジニアが解説【初心者向け】

Pythonで別ファイルの関数を実行する方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記...

Python

Selenium WebDriverでPythonのテストを行う方法【初心者向け】

Selenium WebDriverを使ってPythonのテストを行う方法について解説します。そもそもPythonについてよく分からないという方は、Py...

Python

Pythonの関数を指定時刻に実行する方法を現役エンジニアが解説【初心者向け】

Pythonの関数を指定時刻に実行する方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事...

Python

あわせてよく読まれている記事

JavaScriptによる音楽再生ソフトの作成を現役エンジニアが解説【初心者向け】

JavaScriptによる音楽再生ソフトの作成について、TechAcademyの現役エンジニアが実際のコードを使って初心者向けに解説します。 JavaScriptについてよく分からないという方は、JavaScriptとは何なのか解説した記事をみてみましょう。なお本記事は、TechAcademyのオンラインブートキャンプ、JavaScript/jQuery講座の内容をもとにしています。田島悠介今回はJavaScriptに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 JavaScriptによる音楽再生ソフトの作成について詳しく説明していくね！大石ゆかりお願いします！ JavaScriptで音楽（トラック）を再生する方法動画や音声を扱うインターフェース（機能の呼び名や形を決める外装のようなもの）を派生させたAudioオブジェクトを生成することでAudioの各種機能を使用することが可能です。 Audioオブジェクトを活用したコードは以下のようになります。 Audioオブジェクトを生成するJavaScript var audio = new Audio(); 再生や停止など提供されている機能は、インターフェースであるHTMLMediaElementを参照してください。 HTMLMediaElementのリファレンス JavaScriptで音楽再生ソフトを作成してみよう画面に「再生」や「停止」のボタンを表示させることが可能です。 JavaScriptで押されたボタンに合わせて生成したAudioの機能を呼び出すことで動作します。 [PR] 未経験からWebエンジニアを目指す方法とはJavaScriptで音楽再生しようシンプルに再生ボタンと停止ボタンだけの画面を用意するコードです。 HTML <!DOCTYPE html> <html lang="ja"> <head> <meta charset="UTF-8"> </head> <body> <p> <button onclick="play();">再生</button> <button onclick="pause();">一時停止</button> </p> </body> </html> JavaScript var audio = new Audio(); audio.src = '【音声ファイルのURL】'; function play() { audio.play(); } function pause()

JavaScript

PythonのPydubを利用して音声ファイルを処理する方法を現役エンジニアが解説【初心者向け】

PythonのPydubを利用して音声ファイルを処理する方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。 Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 PythonのPydubを利用して音声ファイルを処理する方法について詳しく説明していくね！大石ゆかりお願いします！目次 Pydubモジュールとは Pydubモジュールの使い方実際に書いてみようまとめ Pydubモジュールとは Pydubとは、オーディオファイルをPythonを使って読み込み、音声処理を実装できるモジュールです。 Pythonでは音声処理を行うライブラリとしてPyaudioがあり、マイクを使って音声を録音、再生ができるようになっています。Pydubの場合は音声の録音はできませんが、音声ファイルの読み込みをほかのライブラリを使わなくても簡単に読み込みができるのが特徴です。 Pyaudioで音声ファイルを読み込むときは、特定の音声ファイルであれば別のモジュールで読み込んだファイルをPyaudioで読み込む必要があります。しかし、Pydubは提供されているメソッドだけで、ファイルパスを指定すれば音声を読み込めます。そして読み込んだデータはチャンネル数、サンプルレート、再生時間を自動的に算出できるので、そのデータをもとに波形データを生成できます。これにより、matplotlibを使った波形の可視化やディープラーニングを使った音声認識を簡単に実装できます。 [PR] 未経験からWebエンジニアを目指す方法とはPydubモジュールの使い方インストール実際の使い方を紹介します。まずはPydubのインストールを行います。やり方はpipコマンドだけでインストールできます。こちらはFFmpegに依存しているので、場合によってはFFmpegをインストールする必要があります。 pip install pydub オーディオファイルの読み込みオーディオファイルを読み込むときは以下の1行でメソッドを読み込みます。 from pydub import AudioSegment MP3ファイルを読み込むときには以下の1行で簡単に読み込めます。 sourceAudio = AudioSegment.from_mp3("audio.mp3") 同様にWAVファイルも読み込めます。 sourceAudio = AudioSegment.from_wav("audio.wav") また、別の書き方として以下のように書くと引数にファイル名と拡張子を指定することができるので、この書き方のほうがどんな拡張子のオーディオファイルでも対応しているので、覚えやすいと思います。なお、対応している音声ファイルの拡張子は以下のFFmpegがサポートしているオーディオファイルと同じです。 http://www.ffmpeg.org/general.html#File-Formats sourceAudio = AudioSegment.from_file("audio.mp3", "mp3") 音声の情報を取り出す読み込んだ音声のファイルのプロパティに表示されるような情報を取り出してみます。まずは、この動画の長さを取得します。以下の1行でfloatで動画の秒数を出力します。 sourceAudio.duration_seconds そして、この音声のフレームレートを見てみます。フレームレートは以下の1行で出力します。 sourceAudio.frame_rate 音声を編集する読み込んだ音源から編集をすることもできます。音声の音量を調整するときは整数で指定することで、調整できます音量を上げるときは+、音量を下げるときは–でできます。なお、指定する値はデシベルで指定します。 # 音量を上げる increced = sourceAudio + 5 # 音量を下げる decreced = sourceAudio - 5 音声を切り取ることもできます、例えば先程の音源から最初の5秒だけを切り取るときはsourceAudio[:5*1000]のようにリストの抽出をするイメージで操作をすることで編集できます。音声を出力する処理を行った音声を出力するには、以下の1行で出力します。出力形式を指定すれば目的の音声を簡単に出力できます。 editedAudio.export(mp3_filename, format='mp3') 実際に書いてみようそれでは、実際に音声ファイルを処理して結果の音声ファイルを出力します。まずは以下のコードをコピーして任意のフォルダに保存します。 from pydub import AudioSegment # 音声ファイルを読み込む sourceAudio = AudioSegment.from_mp3("input.mp3") # 音量を上げる processedAudio = sourceAudio + 3 # はじめの10秒を取り出す processedAudio = processedAudio[:10*1000] # 結果を出力 processedAudio.export("out.mp3", format="mp3") ここで、音声ファイルをダウンロードします。音声ファイルはお好きなものを用意して、ソースコードの保存先と同じフォルダに保存しましょう。ファイル名は適宣変えてお使いください。まとめ今回はPydubを使って音声をPythonで編集する方法を紹介しました。 Pythonで簡単に音声ファイルを処理できるので、音声認識などを行なうときのの前処理として使うのに便利なので、ぜひご活用してください。監修してくれたメンターメンター三浦モバイルゲームを運用している会社のエンジニアをしています。趣味でWEB開発やクラウドコンピューティングもやっており、ソフトもハードもなんでもやります。 TechAcademyジュニアではPythonロボティクスコースを担当しています。好きな言語はPython, Node.js。大石ゆかり内容分かりやすくて良かったです！田島悠介ゆかりちゃんも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！ TechAcademyでは、初心者でも、Pythonを使った人工知能（AI）や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。

Python

JavaScriptのAudioオブジェクトの使い方を現役エンジニアが解説【初心者向け】

JavaScriptのAudioオブジェクトの使い方について解説します。実際のコードをもとに解説していきますので、理解を深めていきましょう。また、入門向けのJavaSriptを学習できるサイトも紹介しているので、合わせてご覧ください。そもそもJavaScriptについてよく分からないという方は、JavaScriptとは何なのかについて解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプJavaScript/jQuery講座の内容をもとにしています。田島悠介今回は、JavaScriptに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 JavaScriptのAudioオブジェクトの使い方について詳しく説明していくね！大石ゆかりお願いします！ Audioオブジェクトとは Audioオブジェクトとは、音声を再生する際に使用するHTML5の要素です。HTML上のタグでは<audio>で表現されます。 <audio src="音源ファイル名">audioがサポートされていない場合のメッセージ</audio> JavaScriptではAudioインスタンスを作成して使用します。この記事ではこちらをご紹介します。 var music = Audio(); Audioオブジェクトについて、詳しくは以下の記事を参考にしてください。 audio(HTML要素) HTMLAudioElement(JavaScript) Audioオブジェクトの使い方この記事ではJavaScriptでAudioインスタンスを作成して使用する方法をご紹介します。基本的な使い方は以下の通りです。 var music = new Audio('mymusic.mp3'); music.play(); // 再生 music.pause(); // 一時停止完全に停止させて、次回再生した時に先頭から再生できるようにするには以下のように記述します。 music.pause(); music.currentTime = 0; 音源を連続で再生するには、再生終了時のイベント「ended」を使うのが確実です。 music.addEventListener("ended", function () { music.currentTime = 0; music.play(); }, false); イベント「ended」について、詳しくは以下の記事を参考にしてください。 HTMLMediaElementのendedイベント [PR] 未経験からWebエンジニアを目指す方法とは実際に書いてみよう今回のサンプルプログラムでは、音源を連続で再生します。音源ファイル名「mumusic.mp3」の部分は適宜お手持ちの音源ファイル名に変更してください。 <!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title>sample</title> </head> <body> <button onclick="stop()">停止</button> <button onclick="play()" id="play">再生</button> <script language="javascript" type="text/javascript"> var music = new Audio(); function init() {

JavaScript

【事例付き】様々なサービスに活用！画像認識技術とは

デジタルカメラのスマイルシャッターや、iPhoneXのFaceIDなど、画像認識の技術は私達の身の回りで多く使われており、生活を便利に豊かにしてくれています。近年のコンピューターの性能向上、とりわけ人工知能(AI)の技術の向上と共に、画像処理の技術は飛躍的な発展を遂げました。すでに画像／動画認識率において、コンピューターは人間のレベルを凌駕する領域にまで達しています。それでは画像認識はどのような技術なのでしょうか。仕組みや原理、どのようなシーンで使われているかなど、この記事で確認して行きましょう！なお本記事は、TechAcademyのオンラインブートキャンプ、AI講座とデータサイエンス講座の内容をもとに作成しています。目次画像認識とは画像認識の仕組み、原理とは画像認識の事例画像認識ができるライブラリまとめ田島悠介今回は画像認識について解説するよ。大石ゆかり田島メンター！画像認識というのは具体的にどのような技術なんですか〜？田島悠介パターン認識技術の1つなんだ。詳しく見ていこう。大石ゆかり分かりました！画像認識とは画像認識とは、画像や動画から特徴をつかみ、対象物を識別するパターン認識技術の1つです。人間は、画像に写っているものが何であるか、これまでの経験から「理解」して判断することができます。しかし、コンピューターは画像に何が写っているかを「理解」することができません。その代わりに、沢山の画像データから、対象物の特徴を学習させることで、未知の画像を与えた時に、対象物が何であるかを「確率」として表現することができるようになります。画像認識の歴史は古く、1960年頃から研究されて来ました。昔はコンピューターの性能が低く、価格も高価であったため、大学の研究機関などの限られた分野での利用が主でしたが、現在ではパーソナルコンピューターはもちろん、デジタルカメラやスマートフォンなど、多くの電子機器に画像認識機能が取り入れられています。また、画像認識は人工知能(AI)におけるディープラーニング技術により、近年著しい進化を遂げています。ディープラーニングによる画像認識が大きく注目されるようになったのは、2012年に開催された「ILSVRC2012」という画像認識の大会です。この大会では、ImageNetという大量のラベル付き画像（画像と写っている物の名前のセット）を基に画像認識率を競い会います。前年度までの正解率は、高くても70%台前半でした。 TensorFlow Inception-v3 ところが2012年、ディープラーニングを使ったモデルが、一気に約85%の正解率を叩き出します。翌年からは、ディープラーニングを使ったモデル同士が競い合うようになり、正解率もどんどん向上して行きました。現在では正解率95%以上、人間を超えるレベルにまで到達しています。それでは、画像認識の仕組み、原理はどのようなものなのでしょうか。詳しく見ていきましょう。 [PR] 未経験からWebエンジニアを目指す方法とは画像認識の仕組み、原理とははじめに、画像認識を行うためには、その前段階として、画像から対象物（もの）を抽出しなくてはなりません。人間は画像から対象物を視覚として判断できますが、コンピューターにとっては、画像はピクセル毎の情報（色合い、明るさ）の集合体でしかありません。また、対象物も様々な角度、大きさ、明るさで画像の中に存在しています。コンピューターに取ってみれば、ノイズだらけの混沌とした情報から、対象物を認識しなければならないのです。そのため、画像認識の前に、コンピューターが画像を認識しやすくする処理を行います。その作業を画像処理と言います。画像処理は概ね以下のような手順で行われます。画像のノイズや歪みなどを取り除くオブジェクトの輪郭を強調したり、明るさや色合いを調整することで、オブジェクトを抽出しやすくする画像からオブジェクトの領域を切り出す（領域抽出） ※領域抽出と画像認識は並行して行われることもあります。領域抽出を行うことで、オブジェクトを一定の大きさで扱うことが出来るため、画像認識を行いやすくなります。それでは、いよいよ画像認識についてです。コンピューターに対象物を認識させるためには、おびただしい量の画像データとラベル（画像データが何を表すか）を与え、対象物を学習させる必要があります。ここで機械学習が登場します。コンピューターは、画像データとラベルの組み合わせをもとに、ラベル毎の画像データの特徴を学習します。例えば「画像データのどの位置が濃い」といった特徴です。この学習の成果を「モデル」と言います。 Google この時、元の画像を白黒にしたり、傾けたりすることで、学習データを増やすことも良く行われます。 Google 学習が進むと、コンピューターは画像データから、対象物の特徴を判断できるようになります。例えば人であれば「目が2つ」「口が1つ」というような情報をコンピューターが得るわけです。少し前に、「Googleの研究開発によってコンピューターが猫を認識できるようになった」と話題になりました。その論文では、コンピューターが認識した「人間の顔」も掲載されていますので紹介しておきましょう。少し不気味ですが、目や口、鼻といった特徴が認識されていますね。 Google これらの学習結果をもとに、コンピューターに未知の画像を与えると、コンピューターは未知の画像から対象物を認識し、対象物が何であるかを「確率」として表現することができるようになります。画像認識の事例それでは次に、画像認識の事例について見ていきましょう。現在、画像認識技術はとても広い分野で活用されています。セキュリティ分野現在最も盛んに研究が行われている分野の1つでしょう。監視カメラの映像分析、顔認証システム、不審者侵入検出など、多くのソリューションが実用化されています。 NEC NeoFace http://jpn.nec.com/physicalsecurity/case.html 監視カメラ映像から顔認証を用いて犯罪者データベースと照合パナソニック顔認証ゲート http://news.panasonic.com/jp/press/data/2017/12/jn171215-1/jn171215-1.html 羽田空港での、日本人の帰国手続の合理化に貢献文字認識古くから研究されている分野です。文字読み取り技術は「OCR（Optical Character Recognition）」とも呼ばれます。最近は翻訳技術と組み合わせたシステムも多く実現されています。郵便区分機 https://ja.wikipedia.org/wiki/%E9%83%B5%E4%BE%BF%E5%8C%BA%E5%88%86%E6%A9%9F 機械学習ではありませんが、世界最大規模の文字認識システムは、郵便局の郵便区分機です。OCRだけでなく、物流と組み合わせたソリューションは、一読の価値があるでしょう。 Google翻訳の「リアルタイム翻訳」 https://play.google.com/store/apps/details?id=com.google.android.apps.translate&hl=ja Google翻訳アプリには、カメラを使ってテキストをリアルタイムに翻訳する機能が実装されています。文字認識精度、スピードも意外に速く、オンラインでは約38種類の言語に対応しています。文字認識と翻訳技術を組み合わせた、素晴らしいソリューションです。その他その他にも、画像認識技術はとても広く使われています。工場における異常生産品の検出 SNSや個人売買アプリにおける不適切な画像の検出自動車の運転アシスト技術農作物の生育状況把握画像認識ができるライブラリまとめ最後に、代表的な画像認識のライブラリをご紹介します。 OpenCV http://opencv.org/ 画像処理、画像認識ライブラリの代表格です。インテルが開発・公開しているオープンソースのライブラリ（一部アルゴリズムは非商用）で、画像認識だけでなく、画像のノイズ除去、3次元画像処理、AR/VR対応等、幅広い画像処理を行うことができます。 TensorFlow https://www.tensorflow.org/ ディープラーニングのライブラリですが、もちろん画像認識にも使うことができます。 Caffe http://caffe.berkeleyvision.org/ こちらもディープラーニングのライブラリです。特に画像認識に強いと言われています。 Chainer http://chainer.org/ Preferred Networksが開発した、国産のニューラルネットワークのライブラリです。 Google Cloud Vision API https://cloud.google.com/vision/?hl=ja Googleの画像認識技術の機能を利用できるAPIです。既に学習済のモデルを利用することができます。多くの対象物を認識できます。1000呼び出し/月まで無料で使えるので、試してみると良いでしょう。 Watson Visual Recognition https://www.ibm.com/watson/jp-ja/developercloud/visual-recognition.html IBMのWatsonの画像認識機能です。こちらも学習済のモデルを利用することができます。また、認識結果を日本語を含む多言語で返すことができるという特徴があります。田島悠介画像認識について、理解は深まったかな？大石ゆかり画像認識って、とても多く使われているんですね。勉強になりましたー！田島悠介気軽に利用できるAPIもあるから、使ってみるといいよ。深層学習や機械学習、自然言語処理については、また別のところで説明するね。大石ゆかり分かりました。ありがとうございました！今回は、画像認識について解説しました。これから画像認識を勉強したい、機械学習を使って何か作ってみたいという方は最初に理解しておきたい内容でしょう。 TechAcademyでは、初心者でも、AI（人工知能）の構築に必要な機械学習・ディープラーニングについて実践的に学習することができる、オンラインブートキャンプAI講座を開催しています。挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる

機械学習

Pythonにおける音声認識juliusの利用方法を現役エンジニアが解説【初心者向け】

Pythonにおける音声認識juliusの利用方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。これができるようになると、波形の特徴から話した人を特定したり、人が話したことを文字に起こしたりと、声から様々な情報を取ることができるようになります。ぜひ参考にしてみてください。 Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonにおける音声認識juliusの利用方法について詳しく説明していくね！大石ゆかりお願いします！音声認識とは？音声認識とは人の声などをコンピュータに認識させる技術のことです、これにより、波形の特徴から話した人を特定したり、人が話したことを文字に起こしたりすることが出来ます。 juliusとは？ juliusとは、京都大学や名古屋工業大学の研究室が開発しているオープンソースの音声認識ライブラリです。ソースはC言語で書かれており様々なプラットフォームへの移植や改造が容易です。また独自の辞書モデルを定義することが可能であるため、特定の目的に合わせた音声認識エンジンを開発することも可能です。 [PR] 未経験からWebエンジニアを目指す方法とはjuliusのインストール juliusは単体では動作せず、言語認識をするためのモデルを読み込んで動かす必要があります。 juliusの公式サイトには、そのような言語認識モデルと実行環境がセットになったパッケージがいくつかあります。今回はその中からディクテーションキットダウンロードします。こちらから最新版のパッケージをインストールします。なお、今回はWindowsで実行する方法を紹介します。ZIPファイルをダウンロードしたら解凍して任意の場所にバイナリを保存します。 juliusの使い方 juliusはコマンドラインで使用します。 julius単体では動作せず、以下のモデルが必要です。ただし、本記事で紹介したディクテーションキットではすべて用意されています。音響モデル（音素HMM）：音素ごとの音声波形パターンのモデル単語辞書：各単語の読みを定義する言語モデル（単語N-gram）：どのような単語列が出しやすいか，その単語間の接続制約を決定するローカルの環境で動かすので、精度には限界があります。実際にアプリケーションに実装する場合は、用途に合わせた単語辞書を使用したほうがいいでしょう。 juliusを利用して音声認識してみようそれでは、実際に音声認識を試していきます。ディクテーションで音声認識を試す場合は、先程インストールしたディクテーションキットのフォルダにコマンドプロンプトで移動した状態で行うものとします。下記のコマンドはDNN、つまり深層ニューラルネットを使用した音声認識を行う際のコマンドです。 cd dictationkitdir .binwindowsjulius.exe -C main.jconf -C am-dnn.jconf -demo -charconv utf-8 sjis -dnnconf julius.dnnconf こちらを実行すると、パソコンのマイクに話しかけて以下のように文字を起こします。短い文章ならしっかり認識します。 Pythonで使う場合今度はjuliusで認識した結果をPythonで取得してみます。ところが、先程のコマンドを実行した際、結果がその場で表示されますがプログラムで処理するには難しいです。そこでjuliusでサーバークライアントを立ち上げて、Pythonでソケットを使ってサーバの出力を取得するプログラムを作成していきます。デモを実行している場合は、Ctrl + Cでプログラムを止めてコマンドプロンプトでディクテーションキットのフォルダー上に移動して以下のコマンドを実行します。先程のコマンドの中の【-demo】を【-module】に置き換えただけです。 .binwindowsjulius.exe -C main.jconf -C am-dnn.jconf -module -charconv utf-8 sjis -dnnconf julius.dnnconf 実行後、以下のようにサーバーが立ち上がりポート番号を表示されます。次にPythonのsocketモジュールを使ってクライアントを作成します。以下のコードを任意のフォルダに保存します。 import socket host = '127.0.0.1' # IPアドレス port = 10500 # Juliusとの通信用ポート番号 # Juliusにソケット通信で接続 client = socket.socket(socket.AF_INET, socket.SOCK_STREAM) client.connect((host, port)) data = "" try: data

Python

Pythonのyoutube_dlでmp3ファイルをダウンロードする方法【初心者向け】

Pythonのyoutube_dlでmp3ファイルをダウンロードする方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 youtube_dlの使い方について詳しく説明していくね！大石ゆかりお願いします！ youtube_dlの使い方 youtube_dlはコマンドライン、またはターミナルから、ビデオをYouTubeからダウンロード出来るプログラムです。 MacOSであれば、一定のバージョン以上のPythonがインストールされていれば、youtube_dlをインストールし、使用することが出来ます。ターミナル等から、youtube_dlを実行することで、YouTube上の動画をダウンロードすることが出来ます。 (英語ではあるものの、公式ホームページにはインストール方法等が記載されています。) https://rg3.github.io/youtube-dl/ 例えば、YouTube上の動画をmp3形式で音声のみ保存したい場合には、youtube_dlをインストールした後、 youtube-dl -i —extract-audio —audio-format mp3 --audio-quality 0 <ビデオURL> とコマンド上で実行することで、現在のディレクトリにビデオの音声がmp3形式でダウンロードされます。実際に書いてみよう実際にmp3ファイルをダウンロードしてみようそれでは実際にダウンロードしてみましょう。今回は、MacOSでよく用いられるパッケージマネージャーであるHomebrewを用いて、youtube_dlをインストールします。 Homebrewについての記事も合わせてご覧ください。 youtube_dlのインストールには、下のコマンドを実行します。 brew install youtube_dl では、動画をダウンロードしていきましょう。今回は、江南スタイル(https://www.youtube.com/watch?v=9bZkp7q19f0) の動画をmp3形式でダウンロードします。ターミナルを開き、mp3ファイルを保存したいフォルダに移動し、下のコマンドを打ちます。 youtube-dl -i —extract-audio —audio-format mp3 --audio-quality 0 https://www.youtube.com/watch?v=9bZkp7q19f0 # --extract-audio ではオーディオのみ書き出します。 # --audio-format mp3 では、mp3形式に変換します。 # --audio-quality 0 では、最高音質で書き出します。コマンドの実行により、コマンドを実行したフォルダに、ダウンロードした動画の音声がmp3方式で保存されます。 [PR] 未経験からWebエンジニアを目指す方法とは監修してくれたメンター川井健滉（かわいたけあき）フリーランスエンジニア（の卵）。Pythonでの開発力を売りに、種々システムの設計から実装まで行う。過去には、某大手サイトの開発 / 機械学習モデルの汎用性検証 / CBの作成等、幅広く経験、直近ではWebスクレイピングシステムやデータを活用した機械制御モデルの構築に従事。元々はカフェのオーナー。しかしコーヒーは飲めない。大石ゆかり内容分かりやすくて良かったです！田島悠介ゆかりちゃんも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！ TechAcademyでは、初心者でもPythonを使った人工知能（AI）や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。

Python

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

Pythonで音声認識する方法を現役エンジニアが解説【初心者向け】

Pythonで音声認識する方法（役に立つAPIなど）

実際に書いてみよう

事前準備

サンプルコード

実行結果

解説

監修してくれたメンター

関連するキーワード

あわせてよく読まれている記事

JavaScriptによる音楽再生ソフトの作成を現役エンジニアが解説【初心者向け】

PythonのPydubを利用して音声ファイルを処理する方法を現役エンジニアが解説【初心者向け】

JavaScriptのAudioオブジェクトの使い方を現役エンジニアが解説【初心者向け】

【事例付き】様々なサービスに活用！画像認識技術とは

Pythonにおける音声認識juliusの利用方法を現役エンジニアが解説【初心者向け】

Pythonのyoutube_dlでmp3ファイルをダウンロードする方法【初心者向け】

TechAcademyから
現役エンジニアの方へ
お知らせ

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

Pythonで音声認識する方法（役に立つAPIなど）

実際に書いてみよう

事前準備

サンプルコード

実行結果

解説

監修してくれたメンター

記事を検索

関連するキーワード

関連する記事

あわせてよく読まれている記事

TechAcademyから 現役エンジニアの方へ お知らせ

TechAcademyから
現役エンジニアの方へ
お知らせ