ブログblog

AWSのAIサービス「Transcribe」についての検証

Writer: noda 更新日:2022/03/30

AWSのサービスTranscribeについて変換精度の検証をしました。

どんなサービス?

音声データを入力し、音声をテキストに変換してくれるサービスです。

検証すること

音声データからどれくらいの精度で文字起こしができるかを検証する。

検証方法

「吾輩は猫である」の冒頭を音読した音声データを文字起こしする。
1.静かな場所で音読している音声データを用意
2.BGMとして雑音(風などの環境音)を流し、音読している音声データを用意(雑音は声と同じくらいの音量)
3.2つのデータをTranscribeで文字起こししてどの程度文章が異なっているかを検証

検証結果

解析結果はTranscribeの出力をそのままコピペしています。

静かな場所での音読

元の文章 解析結果
吾輩は猫である。名前はまだ無い。
 どこで生れたかとんと見当けんとうがつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪(どうあく)な種族であったそうだ。この書生というのは時々我々を捕まえて煮て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始めであろう。この時妙なものだと思った感じが今でも残っている。第一毛をもって装飾されべきはずの顔がつるつるしてまるで薬缶(やかん)だ。その後猫にもだいぶ逢ったがこんな片輪には一度も出くわした事がない。のみならず顔の真中があまりに突起している。そうしてその穴の中から時々ぷうぷうと煙けむりを吹く。どうもむせぽくて実に弱った。これが人間の飲む煙草(たばこ)というものである事はようやくこの頃知った。
吾輩 は 猫 で ある 名前 は まだ ない
 どこ で 生まれ た か とんと 見当 が つか ない 何? でも すぐ 来 ジメジメ し た ところ で ニヤニヤ 泣い て い た こと だけ は 記憶 し て いる 我が家 ここ で 初めて 人間 という もの を 見 た しかも あと で 聞く と それ は 焼成 という 人間 中 で 一番 同 枠 な 修学 で あっ た そう だ この 焼成 という の は 時々 我々 を 捕まえ て 似 て くる という 話 で ある しかし その 当時 は 何? という 考え も なかっ た から 別に は 恐ろしい と も 思わ なかっ た ただ 彼 の 手のひら の 上 に 乗せ られ て ずっと 持ち上げ られ た 時 何ら か ふわふわ し た 感じ が あっ た ばかり で ある 手のひら の 上 で 少し 落ち着い て 焼成 の 顔 を 見 た の が いわゆる 人間 という もの を 見 始め で あろ う この 時 妙 な もの だ とか 思っ た 感じ が 今 でも 残っ て いる 第 一 系 を 持っ て 装飾 さ れる べき はず の 顔 が つるつる し て あれ で 夜間 だ その後 猫 に も だいぶ あっ たら こんな 形 に は 一 度 も 軸 は し た こと が ない 海 なれ ず 川 の 真ん中 が あまりに 突起 し て いる そうして その 穴 の 中、 から 時々 プププ と 煙い 洋服 どうも お 店 っぽく て 実に 終わっ た これ が 人間 の 飲む たばこ という もの で、 ある こと は ようやく この 殺し た

雑音をBGMにした音読

元の文章 解析結果
吾輩は猫である。名前はまだ無い。
 どこで生れたかとんと見当けんとうがつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪(どうあく)な種族であったそうだ。この書生というのは時々我々を捕まえて煮て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始めであろう。この時妙なものだと思った感じが今でも残っている。第一毛をもって装飾されべきはずの顔がつるつるしてまるで薬缶(やかん)だ。その後猫にもだいぶ逢ったがこんな片輪には一度も出くわした事がない。のみならず顔の真中があまりに突起している。そうしてその穴の中から時々ぷうぷうと煙けむりを吹く。どうもむせぽくて実に弱った。これが人間の飲む煙草(たばこ)というものである事はようやくこの頃知った。
その はい は 猫 で、 ある 名前 は まだ ない
どこ で 生まれ た バトン と 健康 を 伝える 何 でも 人 ぐらい ジメジメ し た ところ で やや 泣い て い た こと だけ を し て いる 我が家 これ 初めて 人間 という もの を 見 た しかも あと で 聞く と それ は 小説 っていう 人間 中 で 一番 どう 悪 な 人 くらい あっ た そう だ この 焼成 と 言わ れる 時々 我々 を 捕まえ て 似 て くる という 話 で ある と しかし その 当時 は 何? という 考え も なかっ た から 別段 恐ろしい と も 思わ なかっ た ただ 彼 の 掌 が 添え て ずっと 持ち上げ られ た 時 片 中 ふわふわ し た 感じ が あっ て も 借り で ある 手のひら の 上 で 少し 落ち着い て 焼成 の 顔 を 見 た の が いわゆる 人間 という もの が み 一 で あろ う こういう 時 嫌 な もの だ と 思っ た 感じ が いま で お 乗っ て いる 大 事件 を 持っ て 装飾 さ れる べき 元 の 顔 は ちょろちょろ し て まるで 夜間 その後 猫 リンゴ 大和 が あっ たら そんな 方 に は 一 度 も 陸 が し た こと が ない のみ なら ず 川 の 真ん中 が あまりに 時 し て いる そして それ から 時々 ぷぷぷ だけ で よく 道 も 積極 的 に 終わっ た これ が 人間 の 分 は たばこ っていう の ある こと は ようやく この 殺し た

結果について

両者共通の結果
・句読点はほぼつかない
・文字間にスペースが入る
・読み方が何通りかある単語については漢字の間違いがある

静かな場所での音読
・変換ミスはあるものの、なんとなく意味は理解できる

雑音をBGMにした音読
・はっきりと聞こえた単純な単語は認識できているものの、一気に精度は落ちあまり意味は分からない

所感

漢字の間違いなどについては、Transcribeのカスタム語彙という事前に語彙を登録しておくような機能でカバーできるのではないかと思います。
静かな場所ではっきり話していればまあまあの精度で、雑音などが入るとかなり精度が落ちるので人間の声をしっかり聴き分ける能力はまだ低そうです。
今回は純粋に解析だけをした場合の精度検証なので深くは調べていませんが、音声を学習させるような機能もあるので、それを使用して精度を高めることもできそうです。
またレスポンスから何秒時点で何を話したかもわかるので、用途によっては活用できると思いました。