会議や対談の文字起こし。色々な機材が売られている。スマホのアプリでも可能だ。
以前であれば、かなりの作業になっていたが、かなり使えるようになったと思う。
ちょっとした隙間時間にメールを書く時、スマホの音声認識でやっている人もいる。
まずは声で話して大体のテキストにして、それを直す方が早くメールが仕上がるという訳だ。
もう少し精度が欲しくて、新しいものが出るたびに購入して、幾つも試してきた。
買った時は、しっかりとマイクに向かって話すので、精度の高さを実感する。
でも、実際に使うシーンでは、そのまま使えるまでの精度にはなかなか達しない。
マイクに声が入るまでに、距離や周囲の雑音の影響があり、おかしな文章が出来上がる。
これに翻訳が加わると、さらに精度が落ちる。そもそも綺麗な日本語を使っていないのも原因だ。
声の抽出で精度が落ち、翻訳でも精度が落ちる。やはり人間の類推能力は素晴らしいと感じる。
まだまだ機械やAIでは人間には勝てないな。でもうまく使っていけば役に立つ。
そんな風に思っていた時、ふと面白いモノを目にした。既存技術の組み合わせだが感心した。
2人で対話をするシーンで使えるものだ。2人の間には透明のパネルのディスプレイがある。
2人が異なる言語で話すと、瞬時にそのパネルに互いの言葉の翻訳が現れる。反応速度が高い。
これまでとの違いは、速さと、互いの顔を見ることだ。目をみたコミュニケーションができる。
精度もどうやらかなり良いらしい。こんな使い方があったのかと感心させられる。
往々にして、翻訳という機能に着目してしまう。どれだけの精度を出せるかと頑張る。
でも、このサービスは異言語の対話をどう成立させるかという目的にまっすぐな取り組み方だ。
精度だけではなく、リアルタイム性、さらには目を見て話せること。大事なポイントだ。
機能ではなく、新たな価値をもたらす。人中心の新しい価値を作る時に役立つ考え方だと思う。