2024/07/17

AI Lab、音声・言語処理分野のトップカンファレンス「INTERSPEECH 2024」にて5本の論文採択

株式会社 サイバーエージェント 

AI Lab、音声・言語処理分野のトップカンファレンス「INTERSPEECH 2024」にて5本の論文採択

ー広告文の自動生成やテキスト音声合成技術に関する分析・新手法を提案ー

広告 |2024年7月17日


株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田 晋、東証プライム市場:証券コード4751)は、人工知能技術の研究開発組織「AI Lab」に所属する研究員の宮崎 晃一、村田 雅人、郡山 知樹、李 莉、および「AI Lab」リサーチインターンシップ参加者のYang Dong※1らによる論文が音声言語処理分野の国際会議「INTERSPEECH 2024」※2に採択されたことをお知らせいたします。「AI Lab」において、本会議での論文採択は初となります。

「INTERSPEECH」はInternational Speech Communication Association(ISCA)が主催する音声言語処理分野における世界最大規模の国際会議で、今回が25回目の開催となります。このたび採択された論文は、2024年9月にギリシャ・コス島で開催される「INTERSPEECH 2024」での発表を予定しています。

■研究背景

近年、機械学習の発展に伴いAI技術を活用した新たな広告クリエイティブの制作やデジタルマーケティングが注目されており、AI Labではそれらの領域におけるさまざまな技術課題に対して、研究領域の幅を広げAI技術の研究・開発に取り組んでいます。

AI Labの音声・音響分野の研究に取り組むAudioチームでは著名人のデジタルツイン音声や音声広告、コールセンターのボイスボットへの応用など、自然で高度な音声対話の実現に向けて研究に取り組んでいます。
今回採択された5本の論文では、音声認識や音声合成などの技術向上により、音声を使用した広告やサービスへの活用が期待されます。

■採択された5本の論文について

「Exploring the Capability of Mamba in Speech Applications」
著者:宮崎 晃一(サイバーエージェント AI Lab)、升山 義紀( 東京都立大学)、村田 雅人(サイバーエージェント AI Lab)

Mambaは状態空間モデルに基づくアーキテクチャであり、計算効率と性能の高さから、従来の主流モデルであるTransformerに代わる新たな選択肢として注目されています。
本研究では、音声認識、テキスト音声合成、音声理解、音声要約など様々な音声処理タスクでMambaの性能を評価しました。
実験の結果、Mambaは多くのタスクで音声用に改良されたTransformerモデルと同等以上の性能を示しました。特に長時間の音声処理において優位性が見られ、メモリ効率も高いことから、さらに広範なタスクへの応用が期待されます。

<論文リンク>
https://arxiv.org/abs/2406.16808


「An Attribute Interpolation Method in Speech Synthesis by Model Merging」
著者:村田 雅人(サイバーエージェント AI Lab)、宮崎 晃一(サイバーエージェント AI Lab)、郡山 知樹(サイバーエージェント AI Lab)
広告音声では、様々な話者や感情の音声が必要とされ、このような多様な音声を生成できる音声合成技術が注目を集めています。
本研究では、2つの学習済みの音声合成モデルを用いて、各モデルの中間的な属性をもつ音声を合成するModel merging attribute interpolationという手法を提案しました。
話者補間と感情強度制御の2つの応用タスクにおける実験を行い、提案法によって高い品質で音声の属性を制御できることを確認しました。
本技術を用いることで、多様な表現を持つ広告音声生成が可能になることが期待されます。

<論文リンク>
https://arxiv.org/abs/2407.00766


「VAE-based Phoneme Alignment Using Gradient Annealing and SSL Acoustic Features」
著者:郡山 知樹(サイバーエージェント AI Lab)
音声信号とその内容の書き起こしテキストの時間的対応を見つける音声アライメントは、音声の分析や、音声生成の効率的な学習において重要なタスクです。
本研究では、変分オートエンコーダ(VAE)や勾配のアニーリング、自己教師あり学習に基づく音響特徴量など、様々な学習技術を組み合わせることで、より正確な音声アライメントを実現する手法を提案しました。
本技術を用いることで、動画広告らしい特徴的な音声を用いた音声合成の学習が容易になり、音声広告の表現力を拡大することが期待されます。

<論文リンク>
https://arxiv.org/abs/2407.02749


「Frame-Wise Breath Detection with Self-Training: An Exploration of Enhancing Breath Naturalness in Text-to-Speech」
著者:Yang Dong(東京大学)、郡山 知樹(サイバーエージェント AI Lab)、齋藤 佑樹(東京大学 講師)
動画広告やコミュニケーションロボットにおける生成音声で、より人間らしさを感じる要素に「息」があります。従来の音声合成では息を考慮しないモデル学習が主流だったため、息の有無を制御できませんでした。
本研究では、音声の周波数間の分散など、息の持つ音響的特徴に注目し、その自動検出アルゴリズムを提案しました。また、自己学習によって大規模データで一貫性のある息の特徴検出ができることを示しました。
これによって、より人間らしさを感じさせる音声合成データベース作成ができ、生成音声を用いた聴取実験においてその有効性を確認しました。

<論文リンク>
https://arxiv.org/abs/2402.00288


「Improved Remixing Process for Domain Adaptation-Based Speech Enhancement by Mitigating Data Imbalance in Signal-to-Noise Ratio」
著者:李 莉(サイバーエージェント AI Lab)、 関 翔悟(サイバーエージェント AI Lab)
音声強調は雑音に埋もれた音声を抽出する技術です。最近では様々な環境でも動作する汎用的な音声強調を実現するために、実環境で収録された大量の音声データをいかに活用するかが注目されています。
これまでに、入力信号を分離・再混合するプロセスを導入することで観測されるノイジー音声のみで動作する音声強調モデルの学習アルゴリズムが提案されており、我々も先行研究においてRemixed2Remixedと呼ぶ改良アルゴリズムを提案しました。※3
本研究では学習データに着目し、再混合プロセスにおける音響特性の変化が学習アルゴリズムに与える影響を実験的に明らかにするとともに、音声強調性能を改善するためのデータ拡張手法を提案しました。

<論文リンク>
https://arxiv.org/abs/2406.13982


■今後

これらの研究による音声認識や音声合成などの技術は、音声を使用した動画広告、音声アシスタントやコールセンター自動化など、様々なビジネスへの活用等が期待されます。
AI Labは今後も、ビジネス・社会課題の解決に向けたAI技術をプロダクトに取り入れるとともに、技術発展と学術発展に貢献するべく、研究・開発に努めてまいります。

※1:東京大学所属・2023/9/6よりリサーチインターンシップに参加
※2:INTERSPEECH 2024
※3:L. Li and S. Seki, “Remixed2Remixed: Domain adaptation for speech enhancement by Noise2Noise learning with Remixing,” in Proc. ICASSP, pp. 806-810, 2024.



Tweet

この企業のニュース

業界チャネル Pick Upニュース

注目キーワード