Tech Racho エンジニアの「?」を「!」に。
  • IT Tips

Microsoftの文字起こしiPhoneアプリ「Group Transcrib‪e‬」を試してみた

以下の記事を見て、Group Transcripbeの音声文字起こし機能を自分のiPhoneで試してみました。なお複数ユーザー間での自動翻訳機能もあるそうですが、試していません。

参考: Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 - iPhone Mania

iPhoneのGroup Transcripbeは無料版のみでした。実行の際は、Bluetoothとマイクの利用をアプリに許可する必要があります。

日本語の文字起こし

お題として、自分が翻訳した以下の記事の冒頭部分を読み上げてみました。

HTML5のLocal Storageを使ってはいけない(翻訳)

読み上げの際は、外部ノイズの少ない自宅でそれなりに姿勢を正して、普段より少しゆっくり目に読み上げてみました。この日本語文字起こしは、練習やリトライなどを行っていないガチのファーストトライアルです。

以下の文字起こしテキストでは、目についた差分を太字と[]で強調しています。

セッション: LTKRZ
2021年3月17日 水曜日 11:53

00:00 セッションが開始されました: LTKRZ
00:00 hachi8833 がセッションに参加しました
00:37 hachi8833: はじめまして。
00:42 hachi8833: 本気で申し上げます。
00:44 hachi8833: ローカルストレージを使わないでください。
01:02 hachi8833: ローカルストレージ[に]セッション情報を保存する開発者がこれほど多い理由について、私にはさっぱり見当がつきません。しかし[、]どんな理由であれ、その手法は地上から消えてなくなってもらう必要がありますが、明らかに手に負えなくなりつつあります。
01:21 hachi8833: 私は毎日のように重要なユーザー情報をローカルストレージに保存するウェブサイトを、新たに開いては頭を抱え、それをやらかして致命的なセキュリティ問題への扉を開いてしまう[]開発者がいかに多いかを思い知って[]つらい気持ちになっています。
01:35 hachi8833: それでは、ローカルストレージとは何か?そしてローカルストレージセッションデータを保存してはならない理由について、私の魂の奥底の叫びをお伝えしたいと思います。

  • 大きな間違いは見られず、句点を入れるかどうかの違いがほとんど。
  • 読み上げの「間」を適切に検出して、句点や読点も適切に付けている。

試した範囲では正直かなりの精度だと思いました。句点や読点まで適切に判断する音声認識ソフトを使ったのは初めてです。


なお、上で使ったサンプルには紛らわしい同音異義語が含まれていませんので、同音異義語もちょっとだけ試してみました。

00:08 hachi8833: ここで補足させてもらっていいでしょうか?
00:13 hachi8833: どうやら私の足取りを[補足]されたようです。
00:18 hachi8833: [補足]といっても補う方の補足ではなくて。
00:20 hachi8833: キャプチャーする方の[補足]です。

やはり区別できていませんでした。日本語の同音異義語を音声だけで判定するのは原理的に厳しいので仕方ないかなという気持ちです。

参考: 同音異義語 - Wikipedia
参考: 同音異義語への異議

英語の文字起こし

英語についても、同翻訳記事の元記事冒頭部分を自分で読み上げてみました。読み上げの際は、左上のメニューでアプリの言語を英語に切り替えたうえで、一応自分なりに英語っぽいリズムで話すよう心がけました。この英語文字起こしも、上の日本語文字起こしに続いて練習なしで行ったセカンドトライアルです。

参考: Randall Degges - Please Stop Using Local Storage

2021年3月17日 水曜日 12:03
00:00 セッションが開始されました: XAGRT
00:00 hachi8833 がセッションに参加しました
00:04 hachi8833: Hello.
00:11 hachi8833: Seriously[, j]ust stop it already.
00:24 hachi8833: I don’t know what it is exactly that drives so many developers to store session information in local storage, but whatever the reason[, ]the practice needed to die out.
00:28 hachi8833: Things are getting completely out of hand.
00:45 hachi8833: Almost every day I stumbled across [the] new [insight] storing[. Since we use] the information in local storage and it bothers me to know that so many developers are opening themselves up to catastrophic security issue by doing so.
00:57 hachi8833: Let’s have a heart to heart and talk about local storage and why you should stop using it to store session data.
01:01 hachi8833: What is [Locust rage]?
01:08 hachi8833: I’m sorry if I was a bit grumpy earlier.
01:16 hachi8833: You don’t deserve that. Heck, you might not even be familiar with what local [stretch] is.
01:37 hachi8833: Let alone be using it to store your session information. Let’s start with the [basic] local storage is a new feature of HTML5 that basically allows you a web developer to store any information you want in your user[s] browser using JavaScript Simple, right?
01:49 hachi8833: In practice, local storage is just one big old JavaScript object that you can attach that or you move data from.
02:03 hachi8833: Here’s an example of some JavaScript code that stores some of my personal info in local storage, echoes it back to me, and then optionally removes it.

英語文字起こしもかなりの精度だと感じました。カンマやピリオドの認識も精度が高いですね。

原文の:()のような、元々声に出しようがない表記はさすがにキャプチャできませんでしたが、これは無理もないと思います。user'susersの違いなどは人間でも間違えやすいですよね。

聞き取りが違っている部分の大半は、むしろ自分の英語の発音に問題があったかもしれないと推測しています。

Group Transcribeについて他に気づいた点

冒頭の記事では、「滑舌が悪くてもかなりの精度で書き起こせた」とあり、自分もそのように感じました。


Group Transcribeは近距離でのSNS的な機能を持っているようです。自分ひとりなのでまだ試していませんが、BluetoothまたはWi-Fiを経由して最寄りのiPhoneでオープンしているGroup Transcribeセッションを検出して参加したり、主催者がGroup TranscribeでQRコードを表示し、それを参加者がiPhoneで開いて参加したりできるようです。

参考: 日本語の文字起こしもOK。多言語の会話の翻訳をリアルタイムに行なえる「Group Transcribe」 - ケータイ Watch

セッションを共有する外部サーバーは今のところなさそうなので、会議室のような限定された空間内での利用を前提としているように思えました。このあたりは今後外部サーバーが使える有料版が出るなどしたら変わりそうですね。


Group Transcribeには、音声データそのものを自分用に保存する機能は見当たりませんでした。また、セッションの相手の音声を自分のiPhoneで再生するといった機能もないので、セッションで共有できるのは起こした文字だけとなります。


Group Transcribeでは、音声データをマイクロソフトに提供するかどうかを設定で選べるようになっています。


書き起こしの言語は、日本語や英語を含めて80言語以上に対応しているそうです。試しに日本語モードのままで「Hello, there.」と話しかけてみると「ラーメン」と認識されました🍜。日本語モードのときは英語交じりで話さない方がよさそうですね。

最後に

自分は、会議での同時通訳的な利用よりも音声からの文字起こし機能に関心があります。それもあって自動翻訳はチェックしていませんが、Group Transcribeの文字起こし機能は実用的なレベルに達していると言ってもよいと思えました。

ただ自分が試したときは、音声認識システムが苦手にしそうな話し方をなるべく避けたので、音声認識システムのことを気にしない一般ユーザーがカジュアルに使うとまた結果が違うかもしれません。その点ご了承ください。

音声からこのレベルで文字起こしできるのであれば、たとえば技術系のカンファレンス会場やオンラインカンファレンスで、英語スピーカーの話をGroup Transcribeで文字起こしして、その場でスクリーン横に表示されるようになったらとてもありがたいと思います。自動翻訳までしなくても、その場で字幕の英語が見えるだけで助かります。同時通訳者が活用するかもしれませんね。

ちょっと変わった使い方としては、英語の発音練習や発音の試験に使うなんてのも考えられます。そのうちTOEFLやTOEICでも使われるようになったりして。

将来、選択できる言語にプログラミング言語も追加されたりしたら、そのうち音声だけでコーディングからテスト作成からデプロイまでこなす猛者が続々出現するかもしれないなどと空想してみました。


CONTACT

TechRachoでは、パートナーシップをご検討いただける方からの
ご連絡をお待ちしております。ぜひお気軽にご意見・ご相談ください。