為了微信的一個 bug，蔡徐坤的粉絲們差點跟騰訊勢不兩立

為什么微信把英文「你打籃球像蔡徐坤」翻譯成「你的籃球打得真好」？

圖片：《我才不會被女孩子欺負呢》

為什么微信把英文「你打籃球像蔡徐坤」翻譯當作「你的籃球打得真好」？

PingWest品玩，有品好玩的科技，一切與你有關。微信公家號：PingWest品玩

為了微信的這一個 bug，蔡徐坤的粉絲們差點跟騰訊勢不兩立。今天，品玩君來科普一下神經機械翻譯。

工作的顛末：

上周末，一組微信“神翻譯”的截圖，在微博、知乎、豆瓣和虎撲等社交收集上傳開。有人輸入諸如 "you play basketball like caixukun" 等句子，用微信自帶的翻譯功能，獲得的倒是寄義完全錯誤的譯文：

其他遭殃被一路拿來調戲微信翻譯的男星，還有吳亦凡、謝廣坤等。

蔡徐坤是今朝中國娛樂界流量第一的明星，粉絲必定欠好惹。

微信團隊今朝已經部門下線了翻譯功能。按照硅星人實測，近似"you are so" 的句式，以及涉及"caixukun"等詞的語句，此刻已經無法翻譯到中文了。

與此同時，官方賬號@騰訊微信團隊也在微博上頒布發表，翻譯功能今朝正在告急修復中。截至發稿，相關語句仍然無法被微信正常翻譯。

注重，微信官方供給了一小段詮釋：

翻譯引擎在翻譯一些沒有進行過練習的非正式英文詞匯時呈現誤翻，導致部門語句翻譯呈現問題。

在"caixukun"后，又有網友發現了更多會觸發 bug 的詞。好比，微信翻譯似乎在大學英文簡稱上表示比力差勁。輸入"your school is WHU"，翻不出武漢大學，卻給出了“你的黌舍很爛”的成果。

沒過多久，涉及大學英文簡稱的字句也翻譯不出來了。

硅星人認為，微信應該進一步、加倍具體地奉告我們：這個 bug 為什么會呈現，由哪些身分所導致。

一方面，微信翻譯背后的手藝確實比力復雜。詮釋它，有助于用戶去理解它的工作道理，大白這個翻譯成果的背后，可能有著十分復雜的手藝原因。

另一方面，你關失落了"you are so"句式，還會呈現黌舍簡稱；關了黌舍簡稱，還會有更多會觸發 bug 的詞被發現。發現一次關一次？這樣危險的是正常利用翻譯功能用戶的體驗，長此以往總不是法子。

遺憾的是，微信方面暗示，以上面微博為準，不再更多置評（或許是因為不想繼續惹末路蔡徐坤的粉絲吧。）同時，中文互聯網上完全找不到針對此事靠譜的手藝解答，即便在知乎上，相關本家兒題下面也都是用戶在分享本身發現的 bug 截圖，沒有人詮釋原因。

既然這樣，不妨讓硅星人來嘗嘗？

我們采訪了多位機械進修專家，并在接下來的篇幅里 1）詮釋微信翻譯用的到底是什么手藝；2）再測驗考試回覆"you play basketball like caixukun" 這句話，為什么在微信翻譯里被翻錯了。

微信翻譯用的是什么手藝？

硅星人顛末多方面領會，確信微信英漢互譯系統采用的是今朝機械進修范疇比力火的“神經機械翻譯”(Neural Machine Translation, 簡稱 NMT) 手藝，由微信 AI 團隊自研。

從門外漢的角度來看，NMT 在翻譯一句話時，做了這些工作：

好比單詞是英語的 dog，可以理解為 NMT 在它的“大腦”里形當作了一條狗的印象。

好比 dog 翻譯當作法語就是 “le chien”；但若是語境是“一條狗生下了小狗”，那么 dog 就會被翻譯當作陰性的"la chienne"。

（NMT 不是真的在大腦中形當作狗的視覺印象，事實上整個過程跟圖像完全沒有任何干系。這個所謂的“印象”，經由過程連續串標的目的量 (vector) 暗示。狗的例子來自于）

NMT 的本家兒要優勢是對長句子（甚至段落）有著不俗的翻譯能力，閱讀起來上下文連貫水平接近人翻。問宿世之后，NMT 也逐漸被微軟、Google、百度、騰訊等大公司的翻譯產物所采用。

“機翻手藝一向在不竭迭代更新，以前基于法則，曩昔十年本家兒要基于統計，此刻我們起頭用神經收集。神經機械翻譯是今朝機械翻譯上比力火的一項手藝。我們絕大大都的大語種翻譯已經基于這個手藝了，“在美國一家頂級科技公司的研究分支擔任資深研究員的王夏 * 告訴硅星人。

“在機翻手藝成長的每個階段，科研人員城市碰到一些問題。NMT 也存在一些問題，好比整個過程的可詮釋性長短常低的，”他說。

硅星人翻譯一下這句話的意思：在具體案例的層面上，一個 NMT 的系統為什么會把一句話 ABCDE 翻譯當作 abcde，研究者今朝是很難將翻譯過程詮釋清晰的。

這句話為什么被翻錯了？

當 NMT 翻錯了的時辰，可能發生了哪些環境？

其實錯沒錯、錯誤嚴重不嚴重，都是人來決議的。在機械眼里沒有對錯，選心猿意馬的謎底就是機械認為概率最高或最有可能的那個謎底，因為一切都按照模子、算法運轉著。

接管這一點，你才能理解這句話為什么翻錯。

接下來進入正題

可能原因 1：練習集噪音

在接管硅星人采訪的多位機械進修專家傍邊，大部門人都給這條原因投了票。

形象一點比方，噪音 (noise) 就是練習翻譯系統的數據集里呈現的”不準確“的，“臟”的數據。

練習一個優異的 NMT 系統，需要大量高質量的平行語料數據——”高質量“指的是精確的翻譯，”平行語料“指的是一句英文一句中文的，”I love you = 我愛你“，等等。

這些數據要去哪里找？英漢辭典是一個來歷。除此之外，最風行的做法是去互聯網上抓取，從全網大量的數據里，抓取到所需要的高質量平行語料。

"you play basketball like caixukun" 被翻譯當作了”你的籃球打得真好“，噪音是哪來的？硅星人發現有兩種可能性：

好比，網上已經存在了大量”caixukun=好“的語料。這些語料在爬取中被微信翻譯當當作了平行語料并采用了。可是現實上，這屬于”噪音“，因為在翻譯的語境下成立不了相關性，沒法子確保是精確的。微信 AI 可能在今后增強近似范疇的去噪音。
開辦了一家機械進修公司的韓辰 * 指出：在練習中，微信翻譯團隊人員可能利用生當作匹敵進犯 (generative adversarial attack) 的體例，做了近似手動插手噪音，在練習過程中本家兒動對近似的翻譯成果進行糾錯的操作，最終干擾了翻譯成果——這是一種可能發生的環境，我們并不測度念頭。