失った声を取り戻す――「ボイスバンクプロジェクト」の挑戦

 最先端の音声合成技術をつかい、病気で声が出無くなってしまった方の声を取り戻す「ボイスバンクプロジェクト」。「ボイスバンクプロジェクト」とはなにか、最先端の音声合成技術がどのように医療分野に使われているのか、自分の声を取り戻す意義とは。プロジェクトの代表者である、山岸順一氏にお話を伺った。(聞き手・構成/山本菜々子)※本記事は電子マガジン「α-Synodos」vol.155(2014年9月1日号)より転載しております。

 

 

「平均声」で出来ること

 

――最先端の音声合成技術を使って、病気で声が出なくなってしまった方の声を取り戻す「ボイスバンク」プロジェクトを行っている、山岸順一先生にお話を伺いたいと思います。山岸先生のご専門はなんでしょうか。

 

私は医療ではなく、数学を使った音声情報処理や、音声合成を専門としています。なぜか、縁あって医療の分野と関わっています。

 

「音声合成」と言われると、あんまりピンとこないかもしれませんが、カーナビのような音声読み上げ機能や、最近ではボーカロイドなど、様々な場面で技術が使われています。

 

 

――身近な技術ですね。山岸先生はどのような研究をされていたのでしょうか。

 

これまでの音声合成は、大規模な音声データが必要でした。本人の声を再現するためには、一人数百時間や、何か月にもわたってスタジオで収録するのが主流です。

 

それをなんとか数学で面白く、実用的にできないかと考えました。そこで、その人自身の声だけではなく、他の人達の声を集めて、平均声をつくり、その平均声を基にして、目標の声をつくるという方法を思いつきました。

 

 

p-1-2-1

 

 

―――たくさんの人の声を集めて、声の雛型をつくってから、目標の声に近づけるわけですね。そのメリットはどこにあるのでしょうか。

 

平均声を利用することで、その人の収録時間がかなり減らせます。今まで本人の声を再現するのに、本人の声で数十時間~百時間の収録が必要でしたが、今では10分ほどの収録で、その人らしい声をつくことが可能です。この技術を開発したのが2002~2006年ごろですね。

 

当時は、医療分野に応用しようとは明確に考えておらず、単純な数学的興味から取り組んでいました。

 

 

自分の声はアイデンティティ

 

――なぜ、医療分野に音声合成の技術を使ってみようと思ったのでしょうか。そのきっかけはなんですか。

 

実は、当時指導を担当していたシーフィールド大学の学生さんがきっかけなんです。音声合成の技術がALSなどの方が使う意思伝達装置の音声合成器に利用できるのではと、提案してくれたんです。

 

そこで、喉頭を摘出する前の音声を7分収録して、当時私が持っていた平均声のツールを提供して音声合成器を作りました。これが2007年のことです。

 

技術的には2006年にほぼ完成されていましたが、医療を対象にすることが新しかったので、イギリスの新聞でも記事になり、とても反響がありました。

 

 

――医療分野と組み合わせることが画期的だったんですね。「意思伝達装置」とはなんですか。

 

意思伝達装置――重度障碍者用伝達装置ともいわれますが――科学者のスティーヴン・ホーキング先生が使っていることで有名です。声に障害が起こってしまったときに、合成音声で会話の補助をするものです。

 

これまでの、市販されていた意思伝達装置は、合成音声で読み上げてはくれますが、声の種類を選べませんでした。せいぜい、男性か女性かを選択できる程度です。その人の年齢や方言、発話様式、たとえば、関西出身か東京出身か、それらを適切に表現できているとは言い難いものです。

 

 

――たしかに、機械的な音声で読み上げているイメージがあります。

 

本人の声を使った音声合成器もありますが、非常に高額です。つくると100万円はかかってしまいます。そもそも、意思伝達装置自体も100万円ほどします。しかも、収録にかなりの時間が必要です。ただでさえ声を出すのがつらい状態なのに、何百時間も収録するのは患者さんにとってはかなり大きな負担です。

 

日本ではウォンツさんなどが、本人の声をつかった音声合成器を提供しています。

 

巨大なデータベースから、声を切り貼りする手法をとっていますし、収録した膨大な音声データを整備する費用もあって、一人の声をつくるのに非常にコストがかかります。

 

 

――自分の声は高級品なのですね。

 

そうはいっても、つい数か月前まで喋れていたのに、急に喋れなくなるというのは心理的な負担が大きいですよね。

 

英国で研究していた時、あるALSの男性から自分の声で音声合成器を作れないか打診されたことがありました。でも、彼はもうすでに2つも音声合成器を作っていました。

 

なぜ、そんなに自分の声の音声合成器を作りたいのか、疑問に思い聞いてみたんです。彼は、自分のお子さんに自分の声を覚えて欲しいと語っていました。自分の声はアイデンティティだとも。

 

親しい人たちに、自分の声を覚えて欲しいし、周囲の人も患者さんの声を聴きたいでしょう。自分の声を残すことに、強い思いを持つのは不思議ではありません。

 

そんな人にぜひ音声合成器を届けたいと思いました。私の開発した平均声の技術が役にたつと思ったんです。実は、2006年までALSのことを知りませんでしたので、色々と声の障害について勉強することになります。

 

そして、ALSなどを専門に研究しているユアン・マクドナルド研究所が、2011年にALSの患者さんの声を診断直後に収録していましたので、その音声を基に音声合成器をつくりました。症状が進んだ9か月後に、会話補助アプリとして届けました。

 

その際、当時持っていた平均声をそのまま使ったのですが、方言の強い英国の北の方に住んでいたので、普通の平均声では忠実に再現できませんでした。

 

ですので、その地域の方20名に協力していただき、地域の方言の平均声をつくりました。そこから患者さんに近い声をつくることができました。

 

 

――地域の平均声をつくることで、方言にも対応することができるんですね。

 

やはり、方言も自分の声をつくる大きな要素ですし、大切なアイデンティティだと考えています。

 

 

――私は地方出身者なんですが、もし例文を読めと言われたら、勝手に標準語で読んでしまうと思います。そのあたり難しいかなと感じたのですが。

 

文章を用意するむずかしさはありますね。イギリスの方も、アメリカ英語で例文を渡されると、自分の方言でしゃべれなくなってしまいます。ですので、方言を再現しやすい例文にするよう気をつけています。

 

日本でやる場合、関西の方言などは違いが分かりやすくていいですが、名古屋などの方言は難しいですね。文章を用意するのもけっこう大変です。また、琉球方言など、消えかかっているものをどう組み込んでいくのか、そのあたりも色々と考えなければいけません。

 

 

なぜALSか

 

――そこから、ALSの方を中心にした音声合成器の開発に力を入れていますよね。数ある病気の中で、ALSを中心にしたのはなぜでしょうか。

 

日本やアメリカでは単に「ALS」と呼ばれますが、正確にはMNDの症状の一つがALSです。ですので、厳密にいえばMNDですね。イギリスではMNDという呼び名が一般的です。でも、ここでは、「ALS」と統一してお話したいと思います。

 

ALS患者は頭の中の運動ニューロンが消えていき、筋肉を動かせという伝達命令が届かなくなって、結果として筋肉が弱くなって声も出なくなってしまいます。患者さんの75%に声の障害がおこると言われています。

 

とはいえ、ALS以外にも、声の障害を伴う病気は数々あります。ALSやパーキンソン病が進行性の声の障害とするならば、小児麻痺は先天性の障害と言えるでしょう。舌のガンや脳卒中は突発的な障害と位置づけられます。

 

ボイスバンクはどのタイプの病気も対象にしていますが、ALSを中心として取り組みをはじめました。ALSは進行性ですので、初期や中期の段階で収録が可能です。病気が発覚してすぐ録音すれば、音声合成器が必要になる後期に提供できます。技術の面とニーズとが適合していると言えますね。

 

 

p-1-1

 

 

元の声に修復せよ!

 

――平均声の技術を利用して、より安く、より簡単に、しかも方言なども再現した患者さんに近い声を提供できるようになったことが分かりました。

 

そこで、提供するALSの患者さんを広げる取り組みをはじめたのですが、もうひとつの課題が浮かんできました。

 

はじめの事例では構音障害がない状態の音声から、音声合成器をつくりました。しかし、たいていの場合は、構音障害がない時点で録音できません。

 

体のどこかがおかしい、声がおかしい、という異変を感じて、診断を受けられるケースが多いわけです。ですので、多くの方は診断直後の時点で、構音障害が起きてしまっています。

 

まずは、既存の技術をそのまま使うとどうなるか試してみました。すると、録音した音声を再現するので、音声合成器もそのまま障害を再現してしまうんですね。

 

でも、患者さんが利用したいのは、構音障害のある声ではなく、元の自分の声ですよね。障害を伴った音声からどうやって、元の声をコンピューターが推測して音声合成器を作れるのか、模索を始めました。

 

 

――元の声に修復する、という課題が生まれたのですね。その課題をどう乗り越えたのでしょうか。

 

母音を発音する際の位置関係に注目しました。母音は、口の中のどこで舌を動かすのかによって区別されます。Iはここ、Eは口の真ん中、Oは口の奥、などとだいたい決まっているんです。

 

 

p-1-2-2 (2)

 

 

日本人は、口の中のどのあたりで母音を発声しているのか。日本人60人の平均でみるとこのようになります。イギリスではまた異なった位置で母音を発声しています。

 

 

p-1-2-3

 

 

――国によって違うんですね。

 

そうですね。日本人の「あ」とイギリスの「a」では違います。個人性はありますし、国によっても違いがあります。

 

それらの位置関係を結ぶと、三角形があらわれます。口の大きさは人それぞれですから、頂点は違っていますが、三角形の相対的な関係は似ているんですね。

 

そして、「あいうえお」の相対的な位置関係は、同じ方言の中では共通です。これを「母音三角形」と言います。この母音三角形の情報をうまく使って復元することを考えました。

 

実際にはもっと複雑なことをやるのですが、コアのアイディアを説明したいと思います。

 

たとえば、患者さんが構音障害により、「あ」と「う」しか発音できなくなってしまったとします。ほかの「い」「え」「お」はしゃべれないと。もとの声を再現するためには、この「あ」と「う」から母音の「い」「え」「お」を類推することが必要です。

 

そこで、先ほどの母音三角形の平均を使うんです。「あ」と「う」を三角形に合わせると、同時に「い」「え」「お」もこの辺にあるのではと、類推できるんです。

 

実際はもっと細かくて難しいです。たとえば、英語には二重母音がありますね。短い音の中で音が変わるような母音です。この2重母音を発声するときには口の中で、eからiに急速に舌を動かすなどの作業が必要です。

 

舌を動かす筋力が弱っているALSの方には、非常に困難な発声だったりします。急速に舌を動かすのが難しいんですね。

 

こういった場合にも、コンピューターがもとの声を類推します。iとeを発声出来るのなら、あとは舌を動かすスピードが必要です。ほかの人の舌の動かすスピードを参考にして声を再現します。

 

 

――すごい技術ですね。

 

大事なのは、他の人の母音三角形を使っている点です。ほかの人の声のヒントがあったから、コンピューターはそれを手がかりに、発生できない「い」「え」「お」をその人が発生できる「あ」「う」から類推できた。

 

他の人の母音三角形や2重母音での舌を動かす速度、加速度を計算することで、発音できない声を補うことができます。

 

 

――母音三角形のサンプルは、一人でいいのでしょうか。それとも、平均声をつくる時のように20人ほど集めた方がいいのでしょうか。

 

技術的にはどちらでも可能です。もし、ご自身に双子や、同性の兄弟・姉妹がいらっしゃるのではその人を参考にするのがいいと思います。年齢、性別、社会方言が一致しているので、限りなく本人の声を修復するうえで参考になります。

 

しかし、そのような兄弟がいないケースももちろんあります。そういった場合は、特定の人よりも、方言・年齢・性別が同じな人達を集め、平均的な母音三角形や加速度を見る方がいいです。そのあたりはケースバイケースですね。でも、方言・年齢・性別は合わせるのは鉄則です。

 

たとえば、特別な母音のある方言もありますし、地域によって母音が微妙に違います。さらに、年齢も大切です。方言は15年ごとに微妙に変わっていきます。性別が違うと口の大きさが違うので、どこで母音を出しているのか、スピードの計算も変わってきます。

 

なるべく障害者に似たような人のデータを集めることが、よりよい修復に繋がります。完璧ではないですが、なるべく近づいた声にすることができますね。

 

 

 

■■■ アンケートにご協力ください。 ■■■

 

 

1 2
300_250_5g 困ってるズ300×250 α-synodos03-2

vol.198 特集:大人の学習

・関本保孝氏インタビュー「棺桶に夜間中学の卒業証書を入れてほしい――夜間中学における大人の学習とは」

・舞田敏彦「成人にも開かれた教育機会を――求められる『リカレント教育』とは」

・福田一彦「朝活学習は効果的なのか?」

・石村源生「サイエンスカフェの拓く未来――市民が互いの学習環境を能動的にデザインしあう社会を目指して」