掃二維碼與項目經(jīng)理溝通
我們在微信上24小時期待你的聲音
解答本文疑問/技術(shù)咨詢/運營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流
近期 NLP 界的大語言模型 (Large LM) 引領(lǐng)了一波研究熱潮 。有關(guān)大語言模型介紹的博文眾多、此處推薦一下 Stanford 為此專門設(shè)計的一門課程(僅開源了講義)。

Stanford CS324 - Large Language Modelsstanford-cs324.github.io/winter2022/
大語言模型當(dāng)然也影響到了機器翻譯領(lǐng)域。近一個月里 arxiv 上掛出了多篇相關(guān)的論文,而去年一年類似的工作基本都是在 WMT 比賽后作為參賽報告提交的。由此也可以窺見大語言模型對機器翻譯的沖擊。
這幾篇論文展示的一些結(jié)果很有啟發(fā),尤其是本次 Google 發(fā)表的論文很有在未來改變機器翻譯訓(xùn)練范式的潛質(zhì)——盡管筆者認(rèn)為論文的實驗分析存在一些瑕疵,我也贊同論文標(biāo)題對他們在 few-shot 機器翻譯上效果的形容:unreasonable。
接下來筆者將針對論文進行簡單介紹及評價。
The unreasonable effectiveness of few-shot learning for machine translation
機構(gòu):Google AI
鏈接:https://arxiv.org/pdf/2302.01398.pdf
本文的效果非常驚艷。作者聲稱只使用 decoder-only 的模型(類似PaLM) [https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html] 、中量級的單語數(shù)據(jù)做訓(xùn)練,再在infer時加上五組雙語對,就能讓 few-shot 機器翻譯的結(jié)果追平甚至超過 WMT’21 競賽的優(yōu)勝模型。
作者使用了深度為 32 層、寬度為 4096 hidden+16384 的 FFW 大型 decoder-only Transformer 就在 100M 級別的單語語料上進行訓(xùn)練、模型參數(shù)量在 8B 左右。各語種的數(shù)據(jù)量見下表
作者使用的單語語料數(shù)量級并不算大
由于采用了decoder-only的架構(gòu),作者使用了UL2的訓(xùn)練方法[https://arxiv.org/abs/2205.05131]。簡言之,這種方法和 BERT 的 mask recover 自監(jiān)督預(yù)訓(xùn)練很相似,只是添加了更多種類的噪音,并要求模型恢復(fù)被加噪音的token。
在 infer 階段,作者給定了如下的 prompt 模板來讓模型生成翻譯結(jié)果,其中是從 dev set 中隨機挑選的 5 個雙語句子。還需要提及的是 MBR[https://arxiv.org/abs/2111.09388] 作為解碼搜索算法而非 beam search。
prompt 模板中規(guī)中矩
如此簡單的步驟就完成了模型訓(xùn)練和 infer 的設(shè)置。
作者主要是和 WMT‘21 的前三模型以及自家的 LM 大模型 PaLM 做對比,所用的指標(biāo)主要是自家的 BLEURT。
下表為大語種翻譯的效果。一個有趣的點是三語訓(xùn)練的模型效果甚至比雙語的還要好——這一點其實和以往多語言訓(xùn)練的經(jīng)驗有些不同(語種越多、大語種的效果往往越差)。
兩個大語種的翻譯上,作者的模型追平或超過了往期冠軍、甚至戰(zhàn)勝了自家的 Google Translate 在線服務(wù)。
下表為小語種冰島語的翻譯效果。因為冰島語較少,作者實際上是先在英、德單語上預(yù)訓(xùn)練,再在冰島語單語上訓(xùn)練的(作者聲稱這種方法并不影響最終效果、只是為了訓(xùn)練啟動更快)。有趣的一點是同為大模型的 PaLM 在小語種上效果很差,而本文的方法反而不錯。
小語種的翻譯上不及往期冠軍,但遠超自家的大語言模型、比肩 Google Translate
此外論文還秀了一些術(shù)語翻譯、風(fēng)格化翻譯的效果。這里僅介紹一個實驗:作者使用了 IWSLT’22 的相關(guān)任務(wù)數(shù)據(jù)集(口語化翻譯和書面語化翻譯)。prompt 模板中填入的 dev set 被證實可以很好地控制翻譯風(fēng)格:
UMD 是當(dāng)期冠軍。作者的 few-shot 展示了與之匹敵的效果
筆者首先要指出的是,論文的評測可能存在一些問題,值得我們謹(jǐn)慎對待:
作者在附錄中低調(diào)地報告了 BLEU 結(jié)果,比 SOTA 差 10 個點左右
訓(xùn)練集和測試集的 overlap 衡量。測試集句子有 15 個 token 與訓(xùn)練集某句相同時,記為一次 overlap
*筆者在工作中也經(jīng)常比較各大公司的翻譯效果。在幾家競品翻譯人工評估結(jié)果相似的情況下,BLEURT 最偏好 Google Translate 的結(jié)果,有可能是兩者用了相同的訓(xùn)練數(shù)據(jù)。
*按照之前筆者參與 WMT 比賽的經(jīng)驗,有一個常見的競賽的 trick 是在往期的 dev set 上做微量精調(diào)[https://aclanthology.org/W19-5341.pdf], 此法可以小幅度提升 BLEU 值( 1-3 BLEU),這是因為 WMT 對 dev/test set 的譯文風(fēng)格有著較強的一致性控制。筆者按照本文的方法測量了往期 en-de 的 dev/test set 的 15 token 重合度,都不超過 0.3%,側(cè)面說明作者的 overlap 指標(biāo)有缺陷。此外,德語、冰島語作為屈折語,同個單詞的詞形變化非常地豐富,不清楚作者算 overlap 時有沒有對單詞做 stemming。
但即便論文實驗上有缺陷、行文也多少有些 overclaim,筆者認(rèn)為這篇論文足夠驚艷。
其一,作者的這一套方法幾乎不依賴雙語數(shù)據(jù)、對單語數(shù)據(jù)的要求也很少,唯一的門檻在于模型較大 (8 B)。然而在可見的未來,大語言模型作為大勢所趨,這個量級的模型的部署和訓(xùn)練也會越來越容易、也會有更多類似 BLOOM 的開源。即便作者的方法不能完全打敗傳統(tǒng)雙語訓(xùn)練的模型,也極大地降低了機器翻譯模型的門檻,尤其是數(shù)據(jù)門檻。
其二,作者的方法對于小語種翻譯模型的訓(xùn)練范式(尤其是無監(jiān)督機器翻譯)可以說是降維打擊。
其三,則是告訴我們大規(guī)模語言模型還有很多神奇性質(zhì)。之前的 seq2seq 范式下,單語 pretrain +雙語 few-shot 的效果并不好,很多時候得要用 Back-translation 等才能達到合格的水平。而本文通過把模型加大就直接解決了該類問題。Large LM 的潛力比我們預(yù)想的強。
此外還有一小點:風(fēng)格化翻譯、術(shù)語翻譯、特定領(lǐng)域是上一代機器翻譯沒有很好解決的問題,本篇論文給了一些 prompt 上的經(jīng)驗參考,可以說是給了一種低開銷的 prompt 方案(考慮到近期 NLP 社區(qū)也都在用 prompt 和 context learning 的方法來做這些任務(wù)了,沒有這篇論文,這類問題的技術(shù)路徑也是大體確定的)

我們在微信上24小時期待你的聲音
解答本文疑問/技術(shù)咨詢/運營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流