音声認識だけで音声をテキスト化・文字化させてはいけない!テープ起こし・文字起こし屋が考える、人力でのテープ起こし・文字起こしがまだまだ必要だと思う理由

こんにちは。カナ文字工房です。
今回はずいぶん前にお問い合わせいただきました「音声認識だけで音声をテキスト化・文字化させてはいけない!テープ起こし・文字起こし屋が考える、人力でのテープ起こし・文字起こしがまだまだ必要だと思う理由」というテーマで、話を進めていきます。
私は全て手入力でテープ起こし・文字起こしをさせていただいており、音声認識アプリは全く利用しておりませんが、最近ではスマホアプリなどで音声認識できるようになってきたために人によるテープ起こし・文字起こしってできるんでしょうか?とお問い合わせをされる方が増えてきました。
この記事にたどり着いたあなたも、きっと音声認識アプリだけでテキスト化・文字化を済ませたいと思っていることでしょう。
すぐ思いついたときにテキスト化・文字化たいでしょうし、人に依頼するのはそれなりの代金がかかるし、打ち合わせなどの手間をかけたくない……。
そうした苦労なしに結果を手に入れたいというのは、誰しも思うことなのかもしれませんね。
ただ、まだ2021年現在では音声認識だけに頼るのは危険だなと感じています。
なぜなら、音声認識の正答率はあとまで残る原稿にできるほど正確なものではないからです。
したがって、私は音声認識アプリだけでテキスト化・文字化できますか?とお問い合わせいただいた方皆さまに対し、
「音声データを直接音声認識するだけでは、完全に正確なテキスト化・文字化をすることはできません」
と回答させていただいております。
この記事をお読みいただけると認識の正答率やテープ起こし・文字起こし屋が人力作業を推奨する理由が分かりますので、最後までお付き合いいただけたらうれしいです。
音声認識アプリを用いたテキスト化・文字化の調査
以前、私もあなたと同じように「音声を音声認識アプリに聞かせてテキスト化・文字化すればいいじゃん!」と思って、テスト音声で認識率を調べたことがありました。
調査方法(著作権の関係で、調査対象音声がどれなのかは伏せさせていただきます)
(1)静かな部屋で筆者が一人で話しているだけの音声、Youtubeで公開されているほかの方の音声のうちBGMを入れて一人で話しているもの、津軽弁で話す音声をそれぞれ用いる。
(2)音声認識アプリに『UDトーク』を使ってテキスト化・文字化する。
(3)正答率を出すため、音声認識原稿をテープ起こし・文字起こしし、差分解析ソフト『Diffty』を用いて正答率を調査する
正答率
以下のような認識率になりました。
音声の例 | 認識率 |
静かな部屋で一人で話している音声 | 80%程度 |
BGMが入っている音声で一人で話している音声 | 60%程度 |
津軽弁の方言 | ほぼ認識できず |
表の結果から、標準語に近いアクセントで発音され、かつBGMが入っていない音声であればかなり高い認識率が得られることが分かりました。
一方、津軽弁音声ではほとんど認識できなかったのですが、これは音声認識データが標準語や関西弁より少ないためかと思われます。
今回は調査しておりませんが、複数話者が登場する、録音機材から遠い場所で発話されている、騒がしい場所で録音された場合などはもっと認識率が下がることが予想できます。
今後の技術革新に期待、ですね。
音声認識した原稿を修正した際の感想と人力でテープ起こし・文字起こしを推す理由
あくまで個人的な感想ですが、テープ起こし・文字起こしを職業とする人間からすると人力で作業したほうが確実で正確な原稿ができるなと感じています。
理由は、以下のとおりです。
・誤変換がまだまだあるので聞き直ししながら文字の修正をする必要があった
・油断すると誤字を見落とすので目をこらして修正しなければならず、作業中は目が疲れた
・手入力の場合よりも聞き直し回数が増えてしまい、かえって作業時間と手間がかかった
・音声認識アプリは表記統一まではできず、表記統一させる手間がかかった
・津軽弁音声の原稿は全く音声認識できなかったので、はっきり言って手入力のほうが確実だと思った
・音声認識アプリはインターネット回線がつながっていない場所では使えない
・インターネット回線を経由して音声認識するのだと、秘密保持が難しいことがある
以上です。
あなたがこの感想を見てどのように思われるかは分かりませんが、もし音声認識アプリを使って音声をテキスト化・文字化する場合には上記のようなことが起こることを念頭に修正作業をしてみてください。
どうすれば認識率を上げられるの?
もし、どうしても音声認識アプリの力を借りてテープ起こし・文字起こしをしたいというあなたに、一体どうすれば認識率を上げられるのか私が思うヒントを記しておきますので、参考にしていただけたらうれしいです。
私が思うに、以下を注意することで認識率向上に貢献できるかと存じます。
・音声録音の際は、マイク(できれば単一指向性マイク)を使って録音する
・口元からマイクまでの距離が5cm以内になるように気を付ける(マイクから口元が遠いと、音声認識アプリが発話を認識できません)
・BGMがかかっている場所や、関係ない人がいる場所を避ける(防音できるカラオケボックスや会議室など、静かな場所で録音する)
・一人ずつ、はっきり、できるだけ標準語に近い話し方をする(関西方言の方は認識率は標準語並みなので、修正不要と思われます)
以上です。
今回も最後までお読みいただき、ありがとうございました。
この記事が、あなたの何かに役立てば幸いです。
もしよろしければ、関連記事もご覧いただけるとうれしいです。