本部要聞 來源:中譯語通日期:2024-02-21瀏覽次數(shù):5556
日前,中譯語通“格物”大模型又實現(xiàn)新突破,GeWuMT-18B模型以機器翻譯任務為導向,支持在81個語種之間互譯,經(jīng)專業(yè)評測,相較于Meta發(fā)布的NLLB-54B模型,格物僅使用了其三分之一的參數(shù)量規(guī)模,實現(xiàn)了在以中文為目標語言的80個語種的自動評測中平均BLEU值提升超過27%,無論是翻譯的流暢性還是準確度,大模型的翻譯結果質量又得到了進一步提升。
GeWuMT-18B模型翻譯效果與其他在線翻譯引擎比較,測評結果如下:


GeWuMT-18B機器翻譯大模型除了在翻譯準確度上有明顯提升外,對系統(tǒng)運維復雜度和運行的資源需求均有明顯的提升。既往的機器翻譯引擎每一個語言方向是一個單獨的模型,支持80個語種到中文的翻譯需要部署80套引擎,大模型實現(xiàn)了一個單一模型支持80個語種到中文的翻譯,大大減少了用戶使用期間運維支持的工作難度。GeWuMT-18B大模型可以運行在一塊80G顯存的GPU卡上,實現(xiàn)單機支持80個語種同時運行,對比支持80個語種的雙語模型在存儲空間和計算資源消耗上至少節(jié)省了80%,大大降低了運行成本。
GeWuMT-18B機器翻譯大模型實現(xiàn)了技術的完全自主可控,擺脫對國外商用機器翻譯模型的依賴,提升了數(shù)據(jù)安全性,尤其是對國防軍事、金融、科技等敏感領域意義重大。同時對于構建自主可控的語言生態(tài)體系,提升國家文化軟實力也有著重要意義。大模型針對特定任務和語種進行定制化訓練,翻譯質量顯著提升,滿足垂直領域的高精度翻譯需求。
中譯語通團隊深入分析了包括GPT4、Google Gemini、NLLB-54B等在內的多個大模型的成功之處,并在自主可控的機器翻譯大模型上進行了一系列不懈的技術創(chuàng)新嘗試。對所用數(shù)據(jù)以及訓練方法進行優(yōu)化,顯著提升了模型的翻譯能力。
與其他在線翻譯引擎不同,本次中譯語通發(fā)布的GeWuMT-18B模型在訓練方法上,采用了基于MoE(混合專家模型)的Transformers encoder-decoder框架,為容納80個外文語種共設置了40個專家,在魯棒性、分布式訓練、多語言增量訓練等技術上都取得了一定的突破。基于交叉熵對訓練數(shù)據(jù)進行重采樣,確保在每一個數(shù)據(jù)分片上的訓練均有一定的正向收益。再者,訓練數(shù)據(jù)也是決定大模型質量好壞的關鍵因素之一,借助中譯語通擁有的國內最大高質量平行語料庫的優(yōu)勢,在百億平行語料和千億單語數(shù)據(jù)庫中進行精選,最終精調使用了約40億高質量平行語料與單語數(shù)據(jù)用于此次新模型的訓練。
為了保證質量與效能我們使用了多種訓練和調優(yōu)方式:
星環(huán)狀混合專家系統(tǒng)
混合專家系統(tǒng)在訓練過程中,會有大量時間開銷花費在all-to-all通信中,為了進一步縮短訓練時間,提升訓練效率,中譯語通提出了星環(huán)狀混合專家系統(tǒng)結構,在保障模型訓練精度的同時,大大降低all-to-all通信。混合專家系統(tǒng)的引入,提升了模型的容量,同時也利用多語言模型的知識遷移能力,既能保證資源豐富語種翻譯性能,又能提升資源稀缺語種的翻譯質量。
無監(jiān)督學習
GeWuMT-18B模型覆蓋了包括中文在內的81個常用語種,在這些語種中,不乏如古吉拉特語、馬耳他語等低資源的語種,數(shù)據(jù)資源的缺失直接會使得模型在相關的語言方向上學習不足,導致以該語種為目標語言的譯文困惑度較高,甚至出現(xiàn)翻譯脫靶(Off-Target)的錯誤。為了解決這些問題,GeWuMT-18B模型在進行機翻任務訓練的同時,利用無監(jiān)督學習在選定單語數(shù)據(jù)上進行針對性的單語任務訓練,強化模型對低資源語種的語言理解能力,有效降低了低資源語種譯文的困惑度,大幅度提升了中到外方向上低資源語種的翻譯質量。
數(shù)據(jù)采樣
針對海量數(shù)據(jù)GeWuMT-18B模型還采用了數(shù)據(jù)分片訓練的策略,為了平衡每個數(shù)據(jù)分片,憑借基于溫度和訓練交叉熵的混合采樣策略,確保每個數(shù)據(jù)分片均能對模型訓練起到積極作用。這種數(shù)據(jù)采樣的方法,降低了對硬件顯存和內存的需求,同時也便于針對訓練的效果及時調整訓練數(shù)據(jù)。
中譯語通自2014年啟動機器翻譯的研發(fā)工作,持續(xù)致力于自主可控的人工智能機器翻譯引擎研發(fā),歷經(jīng)了統(tǒng)計機器翻譯、神經(jīng)機器翻譯到今天基于大模型的機器翻譯。在2020年承擔了科技部2030重大專項“以中文為核心的多語種自動翻譯研究”,在2021年承擔了工業(yè)和信息化部揭榜掛帥任務“超大規(guī)模多語言通用機器翻譯系統(tǒng)”,同時也承擔了云南省科技廳的“以中文為核心的超大規(guī)模神經(jīng)機器翻譯模型研究及產業(yè)應用”項目?;谶@三個項目形成的相關經(jīng)驗為中譯語通在超大規(guī)模多語言機器翻譯技術方面積累了堅實的技術基礎。在WMT2022和2023年度的評測中,以大規(guī)模多語言模型為基礎,累計獲得了7個語言方向的自動評測冠軍,在行業(yè)中名列前茅。

中譯語通于2021年啟動研發(fā)跨語言、多模態(tài)大模型技術,并在2022年11月發(fā)布“格物”大模型。該大模型涵蓋了四種模型,包括多語言預訓練模型、多語言機器翻譯超大模型、多模態(tài)預訓練模型和多語言生成式對話大模型。中譯語通“基于多模態(tài)思維鏈推理的可控內容生成大模型技術研究及示范應用”課題主要針對中文文本、圖像、音頻和視頻四模態(tài)對齊語料匱乏、四模態(tài)單一模型架構能力受限、應用時效性差等問題,突破多模態(tài)思維鏈的內容理解與可控生成技術,研發(fā)支持基于多模態(tài)思維鏈的四模態(tài)任意模態(tài)輸入輸出大模型,并在國防、政務、科技和金融等領域開展示范應用。同時,中譯語通參與了《大規(guī)模預訓練模型技術和應用評估方法 第一部分:模型開發(fā)》、《大規(guī)模預訓練模型技術和應用評估方法 第二部分:模型能力》和《大規(guī)模預訓練模型技術和應用評估方法 第四部分:模型應用》的標準起草編制工作。
2024年1月,中譯語通連續(xù)第三次被美國國防部列入“中國涉軍企業(yè)”制裁清單。這更堅定了公司在人工智能領域創(chuàng)新發(fā)展的決心。中譯語通將進一步加大在大模型數(shù)據(jù)和基礎研發(fā)的投入,并致力于大模型的行業(yè)落地以及國產化適配,為國防軍事、國家安全和政府等關鍵領域用戶構建可適應復雜場景的自主、安全、可信的私有大模型技術與應用,持續(xù)鑄造國家戰(zhàn)略科技力量。