【Python – 音声認識】無料で日本語の文字起こしのやり方(録音・音声ファイル編)

【SpeechRecognitionの使い方 – Google Colaboratoryサンプルコード等は記事ページにあります】音声ファイル(.wav・WAVE形式等)の文字起こし・テキスト化をする方法を解説してみました。わずか7行のプログラミングコードでこれだけ出来てしまうので凄いですね…
今回はGoogle Speech Recognitionの音声認識エンジンを使用していますが、SpeechRecognitionでは様々な音声認識エンジンをサポートしているようです。

Uberi/speech_recognition | GitHub
(Author:Anthony Zhang・the 3-clause BSD license)
https://github.com/Uberi/speech_recognition

SpeechRecognition
(Author:Anthony Zhang・BSD License)
https://pypi.org/project/SpeechRecognition/

色々と試してみると面白そうですね。

使ってみた感じでは、概ね上手く文字起こし出来るようですが、適宜修正はする必要はありそうです。

動画を作成する際に遭遇した失敗例
(音声)音声→(文字起こし結果)温泉
(音声)してみる → (文字起こし結果)して見る
(音声)スピーチリコグニション→(文字起こし結果)入り込ん
(音声)ギットハブ→(文字起こし結果)きっと ハグ

上手く認識しにくい場合の要因として、雑音・音の大小・抑揚・間の取り方等が音声認識に影響していそうでした。会議の議事録等の用途で使えるかはわかりませんが、無料でこれだけ出来てしまうので、プログラミング初学者にとってはありがたいですね。

学習の利便性を考え、以下の記事ページにこの動画で使っている
・Google Colaboratoryのサンプルコードへのリンク
・日本語音声ファイル(.wav形式)

を公開しておきました。必要に応じてご活用ください。

記事ページ:
【Python入門】日本語の文字起こしのやり方(音声認識:音声ファイル編)サンプルコード

【Python入門】日本語の文字起こしのやり方(音声認識:音声ファイル編)サンプルコード

#Python入門 #Pythonできること

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です