IS 2022 | 位元組AI Lab聯合南科大提出:利用偽標註資料提升端到端S2ST

語言: CN / TW / HK

本站內容均來自興趣收集,如不慎侵害的您的相關權益,請留言告知,我們將盡快刪除.謝謝.

網際網路的極速發展使得世界各地可以更加緊密地進行商務及日常交流,然而語言不通使得這樣的交流產生了壁壘。  機器翻譯的研究致力於打破不同語言使用者交流的壁壘,追求更流暢的溝通。 文字翻譯一直是機器翻譯的主要工作方向,然而現在的資訊表達方式更加多樣化,單純文字的翻譯難以滿足多樣化的場景需求。 語音是人類日常交流中的主要資訊載體,語音到語音的翻譯 (Speech-to-speech Translation, S2ST) 可以幫助人們更加自然高效地交流。 在很多場景下,語音到語音的翻譯可以提升交流體驗感,例如: 視訊直播、國外旅遊、國際貿易等。

論文地址:

http://arxiv.org/pdf/2205.08993.pdf

程式碼地址:

http://github.com/fengpeng-yue/speech-to-speech-translation

一、端到端語音到語音翻譯的現狀以及挑戰

語音到語音翻譯可以有兩種實現方式,一種是級聯語音識別、機器翻譯以及語音合成系統;另一種是端到端的方案: 採用一個模型直接把一種語言的語音翻譯合成為另一種語言的語音。 相比於級聯的方案,端到端的研究起步比較晚,並在近些年被Jia等人正式提出並驗證可行,該工作被稱為 Translatotron [1]。之後,Translatotron2[2]被提出以便提高預測語音的魯棒性,並在翻譯中保留源說話者的音色。另一方面,Lee提出在目標語音上採用離散單元 (discrete units)表示的方法[3],旨在為沒有文字的語言構建直接的S2ST系統。該方法不再預測連續的頻譜圖,而是預測從目標語音的自監督表示中學習的離散單元。文字資料可以在多工學習框架下被使用,也可以不使用。此外,Lee等人提出了一種無文字 S2ST 系統[4],可以在沒有任何文字資料的情況下進行訓練。同時,它首次嘗試了採用真實世界的 S2ST 資料進行訓練來生成多說話人目標語音。

端到端的系統往往有更低的延時,同時能緩解級聯絡統中的誤差累計問題。相比於級聯絡統,資料量不足是端到端系統面臨的最大挑戰之一。利用偽標註資料在深度學習領域是一種十分有效的提升模型效能的方法,本文將為大家介紹一篇由位元組跳動 AI-Lab 與南方科技大學共同發表在 InterSpeech 2022 上的文章 ——Leveraging Pseudo-labeled Data to Improve Direct Speech-to-Speech Translation[5]。

二、偽標註資料的使用方法

隨著工業和學術界的不斷積累,語音識別的開源資料量越來越多。我們可以將開源的語音識別資料中的文字經過機器翻譯系統翻譯到目標語言,再將目標語言的文字經過語音合成系統合成到目標語音,以此來構造偽標註的語音到語音的翻譯資料集。為了緩解端到端語音到語音翻譯資料量不足的問題,本文探索了三種利用 偽標註資料  (Pseudo Translation Labeling,PTL) 的方法:1、Pre-training and Fine-tuning,2、Mixed-tuning,3、Prompt-tuning。

1. Pre-training and Fine-tuning

在這個方法中,論文利用偽標註資料首先預訓練一個端到端的語音到語音翻譯的模型。然後利用真實資料在這個模型上進行微調。

2.  Mixed-tuning

相比於Pre-training and Fine-tuning,在微調階段除了採用真實資料,論文使用真實資料和偽標註資料一起微調模型。

3. Prompt-tuning

為了增強模型學習各種資料來源之間差異的能力,論文采用 “預訓練、提示和預測” [6]正規化。在預訓練的基礎上,將資料集的類別作為prompt,並在提示調整階段以預定義embedding的形式將其附加到每個樣本的輸入特徵中。通過明確的prompt,其可以在推理階段操縱模型適應不同源的資料。

三、實驗設定及效能分析

資料構造

論文中對西班牙語到英語 (Es->En) 和英語到中文 (En-Zh) 兩個語言對進行了實驗。前者屬於同一個語系,而後者屬於不同的語系。文中基於兩個Speech-to-text Translation (ST) 資料集:Fisher Spanish[7]和TedEn2Zh[8],使用內部語音合成系統從翻譯文字中合成目標語音來構造Speech-to-speech Translation (S2ST) 資料集。同時,論文采用語音識別資料集Gigaspeech[9]和multilingual LibriSpeech[10]中的西班牙語資料構造偽標註資料。其統計資訊如下:

模型效能

其論文采用了Transformer-based Translatotron的模型結構,並對引數進行了細緻調優。在一個性能表現良好的baseline上,論文中的方法對不同語種BLEU評測都得到了有效的提升。在Fisher資料上其方法超過了之前報告的眾多方法。

方法比較

論文中比較了上述三種利用偽標註方法。當通過偽標記資料 (Method-I) 將預訓練應用於S2ST時,與基線相比,BLEU分數顯著提高。此外,基於預訓練,mix-tuning (Method-II) 在Fisher上提高了2.8 BLEU,在TedEn2Zh上提高了5.5 BLEU。如下表所示,兩種語言對中的原始資料和偽標註資料存在明顯的不匹配。Prompt-tuning (Method-III) 幫助模型區分不同的資料來源,並且可以在兩種語言對上獲得進一步的收益。

主觀評測

為了進行人工評測,論文中使用Hifi-GAN[9]聲碼器從預測的頻譜圖合成音訊,並進行Mean Opinion Score (MOS) 測試以評估音訊的自然度。PTL的方法在MOS上的收益與BLEU一致。同時,PTL方法顯著提高了TedEn2Zh資料集上音訊的可理解性。

四、總結

今天為大家介紹了InterSpeech 2022上關於利用偽標註資料提升端到端S2ST的論文。該工作嘗試採用了三種不同的方式利用偽標註資料,最終prompt-tuning是最為有效的。實驗表明,模型的BLEU和MOS評測效能都得到了顯著提升。

參考文獻

[1]. Jia, Ye and Weiss, Ron J and Biadsy, Fadi and Macherey, Wolfgang and Johnson, Melvin and Chen, Zhifeng and Wu, Yonghui, “Direct Speech-to-Speech Translation with a Sequence-to-Sequence Model,” in Proc. Interspeech 2019, 2019, pp. 1123–1127.

[2]. Jia, Ye and Ramanovich, Michelle Tadmor and Remez, Tal and Pomerantz, Roi. Translatotron 2: Robust direct speech-to-speech translation arXiv preprint arXiv:2107.08661, 2021.

[3]. Lee, Ann and Chen, Peng-Jen and Wang, Changhan and Gu, Jiatao and Ma, Xutai and Polyak, Adam and Adi, Yossi and He, Qing and Tang, Yun and Pino, Juan et al., “Direct speech-to-speech translation with discrete units,” arXiv preprint arXiv:2107.05604, 2021.

[4]. Lee, Ann and Gong, Hongyu and Duquenne, Paul-Ambroise and Schwenk, Holger and Chen, Peng-Jen and Wang, Changhan and Popuri, Sravya and Pino, Juan and Gu, Jiatao and Hsu, Wei-Ning,. Textless speech-to-speech translation on real data,” arXiv preprint arXiv:2112.08352, 2021

[5]. Qianqian Dong and Fengpeng Yue, Tom ko and Mingxuan Wang, Qibing Bai and Yu Zhang. “Leveraging Pseudo-labeled Data to Improve Direct Speech-to-Speech Translation”, arXiv preprint arXiv:2205.08993, 2022.

[6]. Liu, Pengfei and Yuan, Weizhe and Fu, Jinlan and Jiang, Zhengbao and Hayashi, Hiroaki and Neubig, Graham. “Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing,” arXiv preprint arXiv:2107.13586, 2021

[7]. Post, Matt and Kumar, Gaurav and Lopez, Adam and Karakos, Damianos and Callison-Burch, Chris and Khudanpur, Sanjeev. “Improved speech-to-text translation with the fisher and callhome spanish-english speech translation corpus,” in Proceedings of the 10th International Workshop on Spoken Language Translation: Papers, 2013.

[8]. Liu, Yuchen and Xiong, Hao and Zhang, Jiajun and He, Zhongjun and Wu, Hua and Wang, Haifeng and Zong, Chengqing. “End-to-end speech translation with knowledge distil-

lation,” Proc. Interspeech 2019, pp. 1128–1132, 2019.

[9]. Kong, Jungil and Kim, Jaehyeon and Bae, Jaekyoung. “Hifi-gan: Generative adversarial net-

works for efficient and high fidelity speech synthesis,” Advances in Neural Information Processing Systems, vol. 33, pp. 17 022–17 033, 2020.

作者:嶽鳳鵬

Illustration  b y Dani Grapevine   from icon s8

-The End-