【jkfun 029】超級同傳!AI完成101種言語即時翻譯
。超級我國科學報訊。同傳 科幻小說《銀河系周游攻略》中的完成jkfun 029翻譯動物“巴別魚”,或許離實際更近了。語即譯美國互聯網科技公司Meta的時翻研究人員開發了一種機器學習體系,簡直能夠立行將101種言語的超級語音翻譯成36種目標言語中的恣意一種。
這種大規模多言語和多模態機器翻譯(SEAMLESSM4T)體系還能夠將語音轉換成文本、同傳文本轉換成語音、完成文本轉換成文本。語即譯jkfun 029相關研究成果1月15日發表于《天然》。時翻
Meta運營著臉書、超級WhatsApp和Instagram等交際媒體網站。同傳該公司表明,完成在向全球學術研究人員成功發布LLaMA大言語模型后,語即譯將把SEAMLESSM4T開源用于非商業用途。時翻
曩昔幾十年里,機器翻譯取得了巨大進步,這在很大程度上歸功于在大數據集上練習的神經網絡。英語等首要言語的練習數據舉目皆是,但其他言語的練習數據卻少得不幸。這種不平等約束了機器能夠翻譯的言語規模。美國康奈爾大學的計算機科學家Allison Koenecke表明:“這影響了不經常呈現在互聯網上的那些言語。”。
Meta團隊在之前語音對語音翻譯作業的基礎上,敞開了一個名為“不讓任何言語掉隊”的項目,旨在為大約200種言語供給文本到文本的翻譯。依據經歷,Meta和其他組織的研究人員發現,即便在翻譯那些練習數據有限的言語時,使翻譯體系多言語化也能進步其功能,但原因尚不清楚。
該團隊從互聯網和聯合國檔案等來歷收集了數百萬小時的音頻文件,以及這些語音的人工翻譯。他們還收集了其間一些講演的文字記載。
研究人員運用牢靠的數據練習模型辨認兩份匹配的內容。這使研究人員能夠將大約50萬小時的語音與文本配對,并主動將一種言語的每個片段與其他言語的對應片段匹配。
SEAMLESSM4T能夠將語音轉換成語音,而無須先將其轉換為文本。語音合成器用于產生音頻,它能夠翻譯101種言語中的任何一種語音,不過到目前為止,只要36種言語可輸出。該體系還能夠履行其他翻譯使命,比方完結不同言語的文本到語音的翻譯。
論文作者之一、Meta的計算機科學家Marta Costa-juss表明,除了添加言語數量外,他們還經過整合文本和語音的不同組合進步體系功能。“這些是改進的要害。”她彌補說,該體系的時間延遲一般為幾秒鐘,與專業人工翻譯的體現適當。
作者表明,他們對SEAMLESSM4T進行了微調,例如當翻譯中呈現與原文不符的攻擊性言語時,能夠約束這種狀況產生。他們還對體系進行了操控,以避免它將一種言語中無性其他專有詞匯(如英語中的“護理”)翻譯成其他言語中有性其他對應詞。
Koenecke在談論中寫道,為進一步約束主動翻譯的潛在危險,“開發人員應該考慮如安在清晰模型局限性的前提下輸出翻譯”,并考慮“在準確性有爭議時徹底拋棄輸出”。
英國吉爾福德薩里大學的翻譯研究員Sabine Braun說,在機器翻譯被廣泛選用前,應該進行更多檢查,并就怎么運用機器翻譯進行教育訓練,尤其是身處醫療或法令等要害作業崗位的人。(李木子)。
相關論文信息:
https://doi.org/10.1038/s41586-024-08359-z。
《我國科學報》 (2025-01-20 第2版 世界)。