大語言模型的few-shot或許會改變機器翻譯的范式

近期 NLP 界的大語言模型 (Large LM) 引領(lǐng)了一波研究熱潮。有關(guān)大語言模型介紹的博文眾多、此處推薦一下 Stanford 為此專門設(shè)計的一門課程（僅開源了講義）。

Stanford CS324 - Large Language Modelsstanford-cs324.github.io/winter2022/

大語言模型當(dāng)然也影響到了機器翻譯領(lǐng)域。近一個月里 arxiv 上掛出了多篇相關(guān)的論文，而去年一年類似的工作基本都是在 WMT 比賽后作為參賽報告提交的。由此也可以窺見大語言模型對機器翻譯的沖擊。

這幾篇論文展示的一些結(jié)果很有啟發(fā)，尤其是本次 Google 發(fā)表的論文很有在未來改變機器翻譯訓(xùn)練范式的潛質(zhì)——盡管筆者認(rèn)為論文的實驗分析存在一些瑕疵，我也贊同論文標(biāo)題對他們在 few-shot 機器翻譯上效果的形容：unreasonable。

接下來筆者將針對論文進行簡單介紹及評價。

The unreasonable effectiveness of few-shot learning for machine translation

機構(gòu)：Google AI

鏈接：https://arxiv.org/pdf/2302.01398.pdf

本文的效果非常驚艷。作者聲稱只使用 decoder-only 的模型(類似PaLM) [https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html] 、中量級的單語數(shù)據(jù)做訓(xùn)練，再在infer時加上五組雙語對，就能讓 few-shot 機器翻譯的結(jié)果追平甚至超過 WMT’21 競賽的優(yōu)勝模型。

訓(xùn)練方法

作者使用了深度為 32 層、寬度為 4096 hidden+16384 的 FFW 大型 decoder-only Transformer 就在 100M 級別的單語語料上進行訓(xùn)練、模型參數(shù)量在 8B 左右。各語種的數(shù)據(jù)量見下表

作者使用的單語語料數(shù)量級并不算大

由于采用了decoder-only的架構(gòu)，作者使用了UL2的訓(xùn)練方法[https://arxiv.org/abs/2205.05131]。簡言之，這種方法和 BERT 的 mask recover 自監(jiān)督預(yù)訓(xùn)練很相似，只是添加了更多種類的噪音，并要求模型恢復(fù)被加噪音的token。

在 infer 階段，作者給定了如下的 prompt 模板來讓模型生成翻譯結(jié)果，其中是從 dev set 中隨機挑選的 5 個雙語句子。還需要提及的是 MBR[https://arxiv.org/abs/2111.09388] 作為解碼搜索算法而非 beam search。

prompt 模板中規(guī)中矩

如此簡單的步驟就完成了模型訓(xùn)練和 infer 的設(shè)置。

實驗效果

作者主要是和 WMT‘21 的前三模型以及自家的 LM 大模型 PaLM 做對比，所用的指標(biāo)主要是自家的 BLEURT。

下表為大語種翻譯的效果。一個有趣的點是三語訓(xùn)練的模型效果甚至比雙語的還要好——這一點其實和以往多語言訓(xùn)練的經(jīng)驗有些不同（語種越多、大語種的效果往往越差）。

兩個大語種的翻譯上，作者的模型追平或超過了往期冠軍、甚至戰(zhàn)勝了自家的 Google Translate 在線服務(wù)。

下表為小語種冰島語的翻譯效果。因為冰島語較少，作者實際上是先在英、德單語上預(yù)訓(xùn)練，再在冰島語單語上訓(xùn)練的（作者聲稱這種方法并不影響最終效果、只是為了訓(xùn)練啟動更快）。有趣的一點是同為大模型的 PaLM 在小語種上效果很差，而本文的方法反而不錯。

小語種的翻譯上不及往期冠軍，但遠超自家的大語言模型、比肩 Google Translate

此外論文還秀了一些術(shù)語翻譯、風(fēng)格化翻譯的效果。這里僅介紹一個實驗：作者使用了 IWSLT’22 的相關(guān)任務(wù)數(shù)據(jù)集（口語化翻譯和書面語化翻譯）。prompt 模板中填入的 dev set 被證實可以很好地控制翻譯風(fēng)格：

UMD 是當(dāng)期冠軍。作者的 few-shot 展示了與之匹敵的效果

筆者簡評

筆者首先要指出的是，論文的評測可能存在一些問題，值得我們謹(jǐn)慎對待：

評估指標(biāo)的問題：作者引用同組內(nèi)的研究
[https://arxiv.org/abs/2211.09102]
，聲稱 BLEU 這種 n-gram 的指標(biāo)不能良好地衡量大型 LM 生成的結(jié)果，而優(yōu)先使用了 BLEURT。然而，BLEURT 也有許多缺陷：一是 BLEURT 比較對翻譯流暢度的偏好高于準(zhǔn)確度，而大語言模型擅長生成好句子、同時 few-shot 模型在翻譯時經(jīng)常有漏譯的問題，作者們選用 BLEURT 有刻意揚長避短的嫌疑；二是 BLEURT 指標(biāo)和本文模型的訓(xùn)練語料都來自 Google 自家 household 的語料庫，這也許會造成評測上的不準(zhǔn)確（見下文筆者的經(jīng)驗談*）。

作者在附錄中低調(diào)地報告了 BLEU 結(jié)果，比 SOTA 差 10 個點左右

數(shù)據(jù)泄漏問題：WMT 測試集的領(lǐng)域非常單一、集中在新聞。在 WMT 比賽中官方發(fā)布的訓(xùn)練集一般是前一年的新聞?wù)Z料，而測試集是最近發(fā)布的新聞，由此避免數(shù)據(jù)泄漏。而本文用到的是網(wǎng)絡(luò)爬取的語料等，如果其中有和測試集類似的新聞報道，很有可能模型。盡管作者做了 training set 和 test set 間 token-level 的重疊度分析，但一方面作者用的指標(biāo)相對寬松、需要有 15 個 token 相同才視為重疊——即便如此重疊度在1%的水平；另一方面，正如作者認(rèn)為 BLEU 這種 token-level 的指標(biāo)不精確一樣，token-level 的重疊度一樣不能很好地衡量領(lǐng)域相似度，詞不相似但領(lǐng)域相似的訓(xùn)練數(shù)據(jù)一樣能帶來在測試集上的過擬合。

訓(xùn)練集和測試集的 overlap 衡量。測試集句子有 15 個 token 與訓(xùn)練集某句相同時，記為一次 overlap

Scaling 的問題：neural scaling law 及一些大模型的討論工作展示了大語料+大模型能大幅提升 NLP 效果。作為 Google 的研究團隊，作者們肯定不缺乏數(shù)據(jù)，然而論文只探索了 100M 級別的訓(xùn)練效果。我們應(yīng)當(dāng)思考，論文的方法在更大數(shù)據(jù)下的性能是否也會按照 scaling law 那樣增長？筆者認(rèn)為作者們有做加數(shù)據(jù)的實驗，但可能性能的提升效果不如預(yù)期。

*筆者在工作中也經(jīng)常比較各大公司的翻譯效果。在幾家競品翻譯人工評估結(jié)果相似的情況下，BLEURT 最偏好 Google Translate 的結(jié)果，有可能是兩者用了相同的訓(xùn)練數(shù)據(jù)。

*按照之前筆者參與 WMT 比賽的經(jīng)驗，有一個常見的競賽的 trick 是在往期的 dev set 上做微量精調(diào)[https://aclanthology.org/W19-5341.pdf]，此法可以小幅度提升 BLEU 值( 1-3 BLEU)，這是因為 WMT 對 dev/test set 的譯文風(fēng)格有著較強的一致性控制。筆者按照本文的方法測量了往期 en-de 的 dev/test set 的 15 token 重合度，都不超過 0.3%，側(cè)面說明作者的 overlap 指標(biāo)有缺陷。此外，德語、冰島語作為屈折語，同個單詞的詞形變化非常地豐富，不清楚作者算 overlap 時有沒有對單詞做 stemming。

但即便論文實驗上有缺陷、行文也多少有些 overclaim，筆者認(rèn)為這篇論文足夠驚艷。

其一，作者的這一套方法幾乎不依賴雙語數(shù)據(jù)、對單語數(shù)據(jù)的要求也很少，唯一的門檻在于模型較大 (8 B)。然而在可見的未來，大語言模型作為大勢所趨，這個量級的模型的部署和訓(xùn)練也會越來越容易、也會有更多類似 BLOOM 的開源。即便作者的方法不能完全打敗傳統(tǒng)雙語訓(xùn)練的模型，也極大地降低了機器翻譯模型的門檻，尤其是數(shù)據(jù)門檻。

其二，作者的方法對于小語種翻譯模型的訓(xùn)練范式（尤其是無監(jiān)督機器翻譯）可以說是降維打擊。

其三，則是告訴我們大規(guī)模語言模型還有很多神奇性質(zhì)。之前的 seq2seq 范式下，單語 pretrain +雙語 few-shot 的效果并不好，很多時候得要用 Back-translation 等才能達到合格的水平。而本文通過把模型加大就直接解決了該類問題。Large LM 的潛力比我們預(yù)想的強。

此外還有一小點：風(fēng)格化翻譯、術(shù)語翻譯、特定領(lǐng)域是上一代機器翻譯沒有很好解決的問題，本篇論文給了一些 prompt 上的經(jīng)驗參考，可以說是給了一種低開銷的 prompt 方案（考慮到近期 NLP 社區(qū)也都在用 prompt 和 context learning 的方法來做這些任務(wù)了，沒有這篇論文，這類問題的技術(shù)路徑也是大體確定的）

當(dāng)前題目：大語言模型的few-shot或許會改變機器翻譯的范式
網(wǎng)站路徑：http://uogjgqi.cn/article/dhdejdh.html

掃二維碼與項目經(jīng)理溝通

我們在微信上24小時期待你的聲音

解答本文疑問/技術(shù)咨詢/運營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

大語言模型的few-shot或許會改變機器翻譯的范式

訓(xùn)練方法

實驗效果

筆者簡評

掃二維碼與項目經(jīng)理溝通

其他資訊

行業(yè)動態(tài)

企業(yè)網(wǎng)站建設(shè)的重要性！

服務(wù)項目

網(wǎng)站建設(shè)

移動端/APP

微信/小程序

技術(shù)支持

其它服務(wù)

更多服務(wù)項目

聯(lián)系吧在百度地圖上找到我們

電話：13518219792

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

大語言模型的few-shot或許會改變機器翻譯的范式

訓(xùn)練方法

實驗效果

筆者簡評

掃二維碼與項目經(jīng)理溝通

其他資訊

行業(yè)動態(tài)

企業(yè)網(wǎng)站建設(shè)的重要性！

服務(wù)項目

網(wǎng)站建設(shè)

移動端/APP

微信/小程序

技術(shù)支持

其它服務(wù)

更多服務(wù)項目

聯(lián)系吧 在百度地圖上找到我們

電話：13518219792

企業(yè)網(wǎng)站建設(shè)的重要性！

聯(lián)系吧在百度地圖上找到我們