環(huán)球信息:認(rèn)真用用AI翻譯，再聊聊今后的人工翻譯

時(shí)間：2023-03-22 09:18:28

作者：航通社，題圖：由 Bing 采用 DALL-E 繪制

前天（沒趕上 0 點(diǎn)前發(fā)，只好改了時(shí)間）文心一言終于給我發(fā)邀請碼了，我一下午都跟本社讀者群群友沉浸在調(diào)戲國產(chǎn)大模型的歡樂之中。但要想寫個(gè)角度獨(dú)特的評測可不容易，因?yàn)檫@時(shí)已經(jīng)有很多人都評測過了。我會逐漸梳理清楚之后再寫自己的版本。

(資料圖片僅供參考)

但至少有一點(diǎn)是明確的：文心一言在翻譯方面的能力——這或許是它現(xiàn)階段表現(xiàn)最好的一種能力了——還是沒有 GPT 表現(xiàn)得那么穩(wěn)定。這一點(diǎn)很重要，不是說好不好，而是沒有那么穩(wěn)定。也就是說，偶爾它會對某些原文掉鏈子。

我昨天就在翻譯一篇新聞報(bào)道時(shí)遇到了這樣的問題，它甚至不舍得給我把 Deloitte 翻譯成德勤。這種情形，如果是在生產(chǎn)環(huán)節(jié)，那我是不敢一直用的，最后還要自己上的話，就耽誤事了。

我現(xiàn)在已經(jīng)義無反顧地完全使用 ChatGPT（只需要 GPT-3.5，不舍得用 GPT-4）來做翻譯，就像在之前的文章《ChatGPT 對 Grammarly 說：我干掉你，與你無關(guān)？》里說的那樣。此后我測試過很多篇文字，都可以無條件信任它的結(jié)果。

目前仍有很多人類的資深翻譯認(rèn)為，AI 大幅砍掉了人工翻譯的下限，但沒有定義人工翻譯的上限。最常用的例子是，有一些內(nèi)容涉及到大量本國的語言以及歷史文化，如果不了解該國歷史文化，會喪失很多閱讀時(shí)的樂趣，對歷史文化的翻譯幾乎相當(dāng)于再次創(chuàng)作。

經(jīng)過我的多次測試和實(shí)際使用，我的結(jié)論會是什么？

我將用兩個(gè)實(shí)例來解釋。這兩個(gè)實(shí)例都跑在 ChatGPT（GPT-3.5）上，不需要 GPT-4 效果就已經(jīng)足夠好了；而文心一言目前無法做到同樣的效果。

誰是麥太

我英語學(xué)得其實(shí)沒有特別好，盡管我在自己的同齡人中比較少見地在學(xué)前班就請了英語家教，但現(xiàn)在還依然是啞巴英語，讀和聽都湊和，說和寫就露怯。這也可能是中國成長的孩子們的通病吧。但自從谷歌翻譯和必應(yīng)翻譯到達(dá)基本可用的水平后，我都會半蒙半猜地直接閱讀機(jī)翻內(nèi)容。以前為了學(xué)英語我會逼自己閱讀英文原文，但現(xiàn)在到了用英語的時(shí)候，還是母語思維更為方便。

現(xiàn)在我可以先把下面這段翻譯成英文：

My English proficiency is not particularly good， even though I was one of the few in my age group who had an English tutor before starting preschool. Nevertheless， I still struggle with both speaking and writing， while my reading and listening skills are passable. This may be a common problem among children growing up in China. However， since Google and Bing translations have reached a reasonably usable level， I often read machine-translated content with half-guessing and half-mumbling. In the past， I would force myself to read English originals in order to improve my English， but now， when it comes to using English， my native language thinking is still more convenient.

然后再翻譯回來：

盡管在幼兒園前我就是少數(shù)接受英語家教的同齡人之一，但我的英語水平并不是特別好。盡管如此，我仍然在口語和寫作方面有困難，而閱讀和聽力技能則勉強(qiáng)可以。這可能是在中國成長的孩子普遍存在的問題。然而，由于谷歌和必應(yīng)翻譯已經(jīng)達(dá)到了一個(gè)相當(dāng)可用的水平，我經(jīng)常閱讀機(jī)器翻譯的內(nèi)容，有一半是猜測，有一半是咕噥。過去，我會強(qiáng)迫自己閱讀英語原著以提高我的英語水平，但現(xiàn)在，當(dāng)涉及到使用英語時(shí)，我的母語思維仍然更加方便。

雖然丟失了一部分“醍醐味”的微妙，但作為一種工具溝通完全沒問題了。我想過，如果六七年前我曾有這個(gè)工具，或許那時(shí)我會直接轉(zhuǎn)為 TechCrunch 總站的撰稿人呢。（我現(xiàn)在也可以試試……）

機(jī)緣巧合，我訂閱了一個(gè)在香港推介 NFT 的人的 Newsletter。最近，他也寫到跟 AI 翻譯有關(guān)的內(nèi)容。他開頭的一個(gè)觀點(diǎn)跟我想的一樣：

“建議把文章翻譯成英語，發(fā)展海外市場。那是既能保持自媒體的純粹，又能增加一個(gè)全新發(fā)展維度的‘低垂的果實(shí)’?！?/p>

中文世界有很多完全不輸給英文同行的優(yōu)秀寫作者以及同樣優(yōu)秀的文字作品，但因?yàn)檎Z言關(guān)系，沒有被譯介過去，而只能得到發(fā)展中國家的評價(jià)和待遇。打破“次元壁”的最好辦法就是通過翻譯，而所有在 ChatGPT 之前的翻譯質(zhì)量都會“差一點(diǎn)點(diǎn)”，或者說差了不止一點(diǎn)。

這“差一點(diǎn)點(diǎn)”其中一個(gè)重要的問題，就是瞎翻譯專有名詞和人名。英語對一個(gè)人的稱呼，第一次出現(xiàn)的時(shí)候給出全名，此后只叫姓。而漢語的習(xí)慣是每次都用全名或至少只用名，所以谷歌翻譯或必應(yīng)翻譯就經(jīng)常出現(xiàn)給個(gè)姓隨便套名字的奇觀，比如林鄭特首之前經(jīng)常被翻譯為“林瑞麟”，李家超特首直接就是“李約翰”。

“來自北京的24歲陳怡寧今年1月在英國羅漢普頓大學(xué)的畢業(yè)表演視頻出現(xiàn)后，也在網(wǎng)上贏得了數(shù)百萬粉絲。正在接受舞蹈實(shí)踐和表演研究生學(xué)位的陳說，她出于興奮而進(jìn)行了翻轉(zhuǎn)，并補(bǔ)充說她對壓倒性的反應(yīng)感到驚訝?；氐街袊?月3日，陳婷婷在抖音上上傳了畢業(yè)典禮的視頻片段后，數(shù)百萬人為她自信的風(fēng)格鼓掌?！保ū貞?yīng)翻譯）

在很多人用東北話、河南話、閩南話等輪番測試 AI 之后，這個(gè)人用在香港年輕人之間習(xí)慣使用的廣東話來測試 ChatGPT。香港粵語以廣州粵語為正音，但引入了一些對同一事物的不同翻譯，以及有很多語氣詞、專有名詞是與英語有關(guān)。舉個(gè)例子，麥當(dāng)勞的“麥香魚”被叫做“魚柳飽”。所以我把他的例子拿來又用 GPT-4 測了一次。

提示點(diǎn)：

“左膠”在 GPT-3.5 和 4 的翻譯都對。

“弱弱一問”的翻譯，Google 和 DeepL 上下文出現(xiàn)的兩次翻譯居然前后不一致。

“此地?zé)o銀”的意思應(yīng)該是“我說的是與字面相反的意思”。沒有一家的回答是正確的。

“魚蛋”的標(biāo)準(zhǔn)翻譯是 Fish ball。

由此可見，GPT-3.5 已經(jīng)基本可用，而 GPT-4 效果更佳。如果翻譯只是作為工具，目標(biāo)是不影響人與人的交流，那么 GPT-3.5 足矣。

該文作者最后舉了個(gè)例子：

麥嘜漫畫有這樣一個(gè)小故事。麥太問麥兜，為甚麼總是吃很多飯。心地善良的麥兜說，吃得飯多就有力氣，就可以幫別人打開瓶子了。

谷歌翻譯是：

McMug Comics has such a short story. Mai Tai asked McDull why he always eats a lot. The kind-hearted McDull said that if you eat a lot， you will have strength， and you can open bottles for others.

GPT-3.5 翻譯是：

There is a little story in McDull Comics. McDull"s mother asked him why he always eats so much rice. McDull， who has a kind heart， replied that by eating a lot of rice， he would have more strength to help others open bottles.

對于“麥太”，谷歌翻譯完全不懂，寫成“Mai Tai”；DeepL 可以翻譯成不算錯(cuò)誤的“Mrs. Mak”；但 GPT-3.5 可以翻譯成“McDull"s mother”，意味著它的知識幫它理解了正確的人物關(guān)系。

接下來是一個(gè)彩蛋。

我：請翻譯下面這段話為英文：灰太狼又被紅太狼拿平底鍋打了！

文心一言：The Wolf of the Gray has been beaten with a frying pan by Red Tooth.

“傅雷再造計(jì)劃”

之前人類智慧“皇冠上的明珠”被認(rèn)為是國際象棋或圍棋（后來的事我們都知道）。與之類似的是，在翻譯當(dāng)中，最考驗(yàn)人類智慧的，可能是那些玩弄當(dāng)?shù)卣Z言文字特性的“文字游戲”式的寫作。

這有點(diǎn)類似于現(xiàn)在的網(wǎng)友用“弱智吧”的問題去測試 ChatGPT 或者文心一言。大多數(shù)弱智吧問題的本質(zhì)，實(shí)際上是考察語言的多義性以及邏輯的連貫。當(dāng)然現(xiàn)有的產(chǎn)品在這方面都不是特別好，但是本地部署一個(gè) GPT 或同類的模型，并且進(jìn)行針對性的優(yōu)化，應(yīng)該很快就可以解決這種問題。其實(shí)，我甚至可以僅僅在 ChatGPT 里使用自然語言來教育它如何改正，應(yīng)該針對性注意語義中哪些雙關(guān)和歧義的演變。那試想如果把整本小雞詞典都喂給它，它還會怕什么？

這就是 ChatGPT 和之前所有的機(jī)器翻譯，包括谷歌翻譯或 DeepL 等一個(gè)最大的不同。它要想變換風(fēng)格或者微調(diào)某方面的效果，比此前人類創(chuàng)作出的所有翻譯工具都要簡單。只需要對它說話就行了。

我這段時(shí)間用大量復(fù)雜的自然語言，調(diào)教 ChatGPT 做了很多不同的用途。為了驗(yàn)證我的想法，我準(zhǔn)備用一些法語材料來形成相對更“有匠氣”的翻譯，雖然我完全不懂法語，只能機(jī)械地復(fù)制粘貼。

但首先我知道一個(gè)非常妙的例子。這就是《約翰·克里斯朵夫》第一句：

Le grondement du fleuve monte derriere la maison.

英譯本是：

From behind the house rises the murmuring of the river.

許聰這樣翻譯：江流滾滾，震動(dòng)了房屋后墻。

韓滬麟這樣翻譯：屋后江河咆哮，向上涌動(dòng)。

而傅雷這樣翻譯：“江聲浩蕩，自屋后上升?！?/p>

前四個(gè)字就完全把人震住了。這簡直是中國翻譯界的傳世經(jīng)典，有人評價(jià)說：“傅雷這翻譯，簡直可以把紙釘在墻上?！?/p>

下面，我讓 GPT-3.5 來翻譯這段話的法文原文，沒有給出任何其他的條件。

此處還有一樁公案：據(jù)說，翻譯家許淵沖曾認(rèn)為，江聲“浩蕩”是誤譯，英譯本的“murmuring”（潺潺聲、低語聲）是正確的譯法。他認(rèn)為法語的 grondement 意思是“沉悶的聲音”。

GPT-3.5 認(rèn)為，“grondement”在法語中的意思是“轟鳴聲”或“隆隆聲”。根據(jù)其他網(wǎng)絡(luò)搜索結(jié)果，“grondement”也被用來形容諸如火車駛來的聲音，各種線索都指向傅雷的翻譯似乎更準(zhǔn)確一些。當(dāng)然，我自己完全不懂法語。

接下來，我使用 prompt 讓 GPT-3.5 自行比對它的翻譯和人類的優(yōu)秀翻譯，指出其中風(fēng)格不同并盡力模仿。

一位中國翻譯家將這段話翻譯成：“江聲浩蕩，自屋后上升。雨水整天的打在窗上。一層水霧沿著玻璃的裂痕蜿蜒流下。昏黃的天色黑下來了。室內(nèi)有股悶熱之氣。” 請?jiān)囍诮酉聛淼姆g中，將語句翻譯成類似這樣有匠氣的風(fēng)格。

然后，我用其它經(jīng)典法語小說的開頭來測試：

在此處，我的測試其實(shí)并不嚴(yán)謹(jǐn)。可以看到 GPT-3.5 在翻譯第一個(gè)《洛麗塔》時(shí)，還是非常注重文辭修飾的，最終結(jié)果也和人類翻譯很接近；但越到后面，它似乎就越是忘記了我對于“有匠氣”的要求，而回歸到了平常的翻譯水準(zhǔn)，當(dāng)然也不差了。

為了節(jié)省精力，我把以上人類翻譯范文一起喂給了他，希望他最后生成一段汲取了人類翻譯風(fēng)格經(jīng)驗(yàn)教訓(xùn)的譯文。我的 prompt 是：

我將結(jié)合一些優(yōu)秀的人類翻譯對你的翻譯提出改進(jìn)意見。（在這里貼出對應(yīng)的翻譯段落）如果你可以對照這幾段人類翻譯，和你自己的翻譯之間的區(qū)別，那么請說你已經(jīng)準(zhǔn)備好了。我將再給你一些新的內(nèi)容讓你翻譯。

ChatGPT 回復(fù)：

非常感謝您的反饋和指導(dǎo)！我會認(rèn)真學(xué)習(xí)優(yōu)秀的人類翻譯，并努力改進(jìn)我的翻譯質(zhì)量。

它又給了幾個(gè)自己的例子來展示改進(jìn)效果，盡管這意味著它聽錯(cuò)了我的指令。

于是我發(fā)布指令：

好的，下面用更像是人類翻譯的風(fēng)格來翻譯這一段：

我選的是 2014 年諾貝爾文學(xué)獎(jiǎng)得主莫迪亞諾的小說《暗店街》的開頭。《文學(xué)報(bào)》的評論文章認(rèn)為：

莫迪亞諾的小說代表作——《暗店街》的幾個(gè)中譯本有著不同的開頭，鑒定譯本的優(yōu)劣，在我看來只需看看小說的開頭即可。

這篇評論緣起于《暗店街》在最新的一個(gè)譯本里更改了開頭，讓老讀者很不習(xí)慣。不過新譯本的編者說，開頭原本的翻譯“我的過去，一片朦朧”并不是嚴(yán)格對應(yīng)原文，只能說因?yàn)橥跣〔ǖ亩蝹鞑ゲ抛兊媚捴巳丝凇Ｋ麄冞x擇的是更忠實(shí)原文的譯本。

那么我們就來一起欣賞《暗店街》開頭的薛立華譯本（舊）、王文融譯本（新）和 GPT-3.5 譯本：

如果僅僅把三篇中譯看作是三篇同題“洗稿”文章，那么 GPT-3.5 的版本顯然支持新譯本的譯法“我什么也不是”，相比之下“我的過去，一片朦朧”對原文的改動(dòng)可能過多。

GPT 有幾處誤譯：“事務(wù)所”沒有翻譯出來?！叭榘撞Ａ簟苯o翻譯成了“瓷燈”?！熬碜凇弊兂闪恕拔募A”。“棕色”是用來形容頭發(fā)的，它弄成了棕色的眼睛。而且，“面部浮腫、棕色頭發(fā)”同時(shí)用來形容男子及男子妻子的情夫，應(yīng)該在上下文中保持一致以提起讀者注意。

但 GPT 一個(gè)顯著的特點(diǎn)——我個(gè)人喜歡這種特點(diǎn)——就是語言更簡練，特別是在前幾句話里可以很明顯地看出來。如果排除誤譯，我會更欣賞 GPT 的譯本。

GPT 的另一個(gè)驚喜來自《洛麗塔》那里，它自作主張把 4 英尺 10 英寸翻譯成了 1 米 48。對于文中單位的互譯，我覺得多數(shù)時(shí)候都不應(yīng)該變動(dòng)，特別是貨幣單位，就算換成文中時(shí)代的匯率對于現(xiàn)代讀者也毫無用處。然而將長度單位由英制改公制絕對可以說是一項(xiàng)“德政”。這個(gè)或許也應(yīng)該具體問題具體分析，但這個(gè)現(xiàn)象說明了 GPT 可以了解一些基礎(chǔ)的文化設(shè)定，就像它認(rèn)識麥兜他媽媽。

因此，在對復(fù)雜艱深的當(dāng)?shù)卣Z言進(jìn)行“再創(chuàng)作”時(shí)，人類譯者所需的背景資料，世界觀，該國文化設(shè)定等等，可以統(tǒng)一扔到大模型里面去訓(xùn)練，然后生成一個(gè)專精于翻譯培訓(xùn)的 bot 給人類翻譯人員答疑。

結(jié)論

在翻譯香港風(fēng)格的粵語時(shí)，ChatGPT 對一些專有名詞和表述的翻譯都比較成功，至少不會因?yàn)殄e(cuò)漏翻譯阻礙交流。而且，它對上下文的理解使得它不會忘記之前已經(jīng)出現(xiàn)過的內(nèi)容，進(jìn)一步保證了語義準(zhǔn)確和完整。

這個(gè)結(jié)果證明了我們這些外行和人類專業(yè)翻譯共同認(rèn)可的一點(diǎn)——現(xiàn)在的 AI 翻譯可以讓中底層的人類翻譯失業(yè)。而對此引發(fā)的進(jìn)一步后果，有兩種不同的預(yù)測：

一種是，因?yàn)槿瞬艛鄬?，新的高級翻譯無法從中低級翻譯晉升而來，因此人類翻譯將淪為小規(guī)模培訓(xùn)和傳承的類似非遺的手藝活，失去自我造血能力。我也基本上傾向于這種預(yù)測。

一種是，人類可以跳過中低級翻譯的訓(xùn)練，直接從教授高級別翻譯能力做起，一開始做的就是最難的題。這意味著將中低級翻譯工作和高級翻譯工作視為兩門不同的學(xué)科，尚不知道這樣是否可以成功。

從結(jié)果看，似乎在“有匠氣”和有獨(dú)特風(fēng)格方面，第二個(gè)實(shí)驗(yàn)不算成功。ChatGPT 的翻譯雖然不失精準(zhǔn)，但仍未能在風(fēng)格化這方面趕超人類。

然而，這樣的測試也讓我看到了用最小化的人力來補(bǔ)足的希望——這也就意味著專職的人類翻譯真正可以休息了。這就是讓擅長中國文學(xué)的人，而不是擅長外語的人成為這部分內(nèi)容的翻譯家。

新時(shí)代的翻譯人士可以完全不會外語。他們的作用就是把比較平直，但相對是逐字翻譯的內(nèi)容變得更有文采，負(fù)責(zé)“雅”的部分，然后也可以再喂給 AI 去進(jìn)一步促進(jìn)“信”和“達(dá)”。

其實(shí)，這就是那位一輩子不會說外語，但是翻譯了 180 多部作品的翻譯家林紓的經(jīng)歷。相信這樣的事情會在未來多次重現(xiàn)。

題圖：由 Bing 采用 DALL-E 繪制，描繪了來自世界各地的人士在紐約聯(lián)合國總部參加國際會議的情景。

prompt:people from different countries and races standing and chatting in new york united nations headquarters， detailed half-body photograph， news photo， live broadcast， sony camera， twitter trend

本文來自微信公眾號：航通社（ID：lifeissohappy），作者：航通社

關(guān)鍵詞：

延伸閱讀:

版權(quán)聲明：
凡注明來網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來源：網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
除來源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請讀者僅作參考并自行核實(shí)。

熱文