為什么微信把英文「你打籃球像蔡徐坤」翻譯當作「你的籃球打得真好」?
PingWest品玩,有品好玩的科技,一切與你有關。微信公家號:PingWest品玩
為了微信的這一個 bug,蔡徐坤的粉絲們差點跟騰訊勢不兩立。今天,品玩君來科普一下神經機械翻譯。
工作的顛末:
上周末,一組微信“神翻譯”的截圖,在微博、知乎、豆瓣和虎撲等社交收集上傳開。有人輸入諸如 "you play basketball like caixukun" 等句子,用微信自帶的翻譯功能,獲得的倒是寄義完全錯誤的譯文:
其他遭殃被一路拿來調戲微信翻譯的男星,還有吳亦凡、謝廣坤等。
蔡徐坤是今朝中國娛樂界流量第一的明星,粉絲必定欠好惹。
微信團隊今朝已經部門下線了翻譯功能。按照硅星人實測,近似"you are so" 的句式,以及涉及"caixukun"等詞的語句,此刻已經無法翻譯到中文了。
與此同時,官方賬號@騰訊微信團隊也在微博上頒布發表,翻譯功能今朝正在告急修復中。截至發稿,相關語句仍然無法被微信正常翻譯。
注重,微信官方供給了一小段詮釋:
翻譯引擎在翻譯一些沒有進行過練習的非正式英文詞匯時呈現誤翻,導致部門語句翻譯呈現問題。
在"caixukun"后,又有網友發現了更多會觸發 bug 的詞。好比,微信翻譯似乎在大學英文簡稱上表示比力差勁。輸入"your school is WHU",翻不出武漢大學,卻給出了“你的黌舍很爛”的成果。
沒過多久,涉及大學英文簡稱的字句也翻譯不出來了。
硅星人認為,微信應該進一步、加倍具體地奉告我們:這個 bug 為什么會呈現,由哪些身分所導致。
一方面,微信翻譯背后的手藝確實比力復雜。詮釋它,有助于用戶去理解它的工作道理,大白這個翻譯成果的背后,可能有著十分復雜的手藝原因。
另一方面,你關失落了"you are so"句式,還會呈現黌舍簡稱;關了黌舍簡稱,還會有更多會觸發 bug 的詞被發現。發現一次關一次?這樣危險的是正常利用翻譯功能用戶的體驗,長此以往總不是法子。
遺憾的是,微信方面暗示,以上面微博為準,不再更多置評(或許是因為不想繼續惹末路蔡徐坤的粉絲吧。)同時,中文互聯網上完全找不到針對此事靠譜的手藝解答,即便在知乎上,相關本家兒題下面也都是用戶在分享本身發現的 bug 截圖,沒有人詮釋原因。
既然這樣,不妨讓硅星人來嘗嘗?
我們采訪了多位機械進修專家,并在接下來的篇幅里 1)詮釋微信翻譯用的到底是什么手藝;2)再測驗考試回覆"you play basketball like caixukun" 這句話,為什么在微信翻譯里被翻錯了。
微信翻譯用的是什么手藝?
硅星人顛末多方面領會,確信微信英漢互譯系統采用的是今朝機械進修范疇比力火的“神經機械翻譯”(Neural Machine Translation, 簡稱 NMT) 手藝,由微信 AI 團隊自研。
從門外漢的角度來看,NMT 在翻譯一句話時,做了這些工作:
好比單詞是英語的 dog,可以理解為 NMT 在它的“大腦”里形當作了一條狗的印象。
好比 dog 翻譯當作法語就是 “le chien”;但若是語境是“一條狗生下了小狗”,那么 dog 就會被翻譯當作陰性的"la chienne"。
(NMT 不是真的在大腦中形當作狗的視覺印象,事實上整個過程跟圖像完全沒有任何干系。這個所謂的“印象”,經由過程連續串標的目的量 (vector) 暗示。狗的例子來自于)
NMT 的本家兒要優勢是對長句子(甚至段落)有著不俗的翻譯能力,閱讀起來上下文連貫水平接近人翻。問宿世之后,NMT 也逐漸被微軟、Google、百度、騰訊等大公司的翻譯產物所采用。
“機翻手藝一向在不竭迭代更新,以前基于法則,曩昔十年本家兒要基于統計,此刻我們起頭用神經收集。神經機械翻譯是今朝機械翻譯上比力火的一項手藝。我們絕大大都的大語種翻譯已經基于這個手藝了,“在美國一家頂級科技公司的研究分支擔任資深研究員的王夏 * 告訴硅星人。
“在機翻手藝成長的每個階段,科研人員城市碰到一些問題。NMT 也存在一些問題,好比整個過程的可詮釋性長短常低的,”他說。
硅星人翻譯一下這句話的意思:在具體案例的層面上,一個 NMT 的系統為什么會把一句話 ABCDE 翻譯當作 abcde,研究者今朝是很難將翻譯過程詮釋清晰的。
這句話為什么被翻錯了?
當 NMT 翻錯了的時辰,可能發生了哪些環境?
其實錯沒錯、錯誤嚴重不嚴重,都是人來決議的。在機械眼里沒有對錯,選心猿意馬的謎底就是機械認為概率最高或最有可能的那個謎底,因為一切都按照模子、算法運轉著。
接管這一點,你才能理解這句話為什么翻錯。
接下來進入正題
可能原因 1:練習集噪音
在接管硅星人采訪的多位機械進修專家傍邊,大部門人都給這條原因投了票。
形象一點比方,噪音 (noise) 就是練習翻譯系統的數據集里呈現的”不準確“的,“臟”的數據。
練習一個優異的 NMT 系統,需要大量高質量的平行語料數據——”高質量“指的是精確的翻譯,”平行語料“指的是一句英文一句中文的,”I love you = 我愛你“,等等。
這些數據要去哪里找?英漢辭典是一個來歷。除此之外,最風行的做法是去互聯網上抓取,從全網大量的數據里,抓取到所需要的高質量平行語料。
"you play basketball like caixukun" 被翻譯當作了”你的籃球打得真好“,噪音是哪來的?硅星人發現有兩種可能性:
在有噪音等異常環境存在的前提下,系統仍然可以或許正常練習、工作,給出高質量翻譯成果——這樣的能力在計較機科學里叫做“魯棒性”(robustness)。
王夏指出,魯棒性是 NMT 以及此后的機械翻譯手藝都需要改良和注重的。
可能原因 2:集外詞
一種可能呈現的環境是,在微信翻譯練習用的數據集中,壓根就沒有呈現過"caixukun"這個詞。
當 NMT 碰到集外詞時,可能會進行拆解找到集內詞。這個拆解的過程也是隨機的,例如說它可能拆當作了 caix ukun,獲得的仍然是集外詞。
集外詞翻譯欠好是很正常。若是沒見過,那就不會翻,呈現誤差也是情理之中的。
可能原因 3:范疇不匹配
”另一種可能呈現的環境是范疇不匹配 (domains do not match),“王夏暗示,并指出這并紛歧心猿意馬是具體案例的環境。
在這個具體案例中,句子里呈現了 basketball(籃球),而微信翻譯的練習數據集可能沒有籃球范疇的,或者跟籃球有關的很是少。一個不匹配的范疇,再加上句子里還有一個集外詞,配合感化使得翻譯成果很難準確。
這個詮釋行得通。例如說商貿往來是大部門微信用戶利用翻譯的原因,那么微信在練習 NMT 時可能用了商業范疇的數據集;籃球不是微信翻譯用戶的本家兒要場景,那么在練習時也許就沒有效籃球的數據集。
若是因為集外詞和范疇不匹配而出了錯,你也不克不及怪它。沒學過的工具,它又怎么可能會呢?
可能原因 4:奇異單詞 + 無法引入常識
這個原因也是由 NMT 的工作道理導致的。
NMT 對于長句子、段落,甚至一整篇文章的翻譯結果很不錯。這得益于它的機制,在翻譯某個詞時可以或許貼合上下文的語境。
可是在短句上,它就紛歧心猿意馬靈了——出格是當這個句子完全不通順的時辰。
可能因為在"you play basketball like caixukun"這句話中,caixukun 是一個很是奇異的單詞。它既沒有呈現在任何一本英語辭典傍邊,看上去跟句子的上下文也沒什么關系。
人類在翻譯的時辰,可以或許參考已有的常識、常識,翻不出來也可以去查資料。NMT 卻做不到這一點,當它在工作的時辰,它并不具備一個常識庫可以去參考。
并且,這一點并不是微信做欠好——此刻去用同樣的句子考考 Google Translate,獲得的成果也不令人完全對勁。
“這個(無法引入常識的)問題不僅表現在翻譯使命上,還包羅閱讀理解、問答等使命。若何在這一點上做改良,是個很有趣的偏向,大師也都還在摸索,”王夏暗示。
所以,微信做錯了嗎?
上述環境如若呈現,必然會導致翻譯錯誤,因為 NMT 就是這樣工作的。就算不發生在微信上,也會發生在 Google Translate,或者任何其他一個基于 NMT 的翻譯產物上。這樣來看,微信產物自己沒有任何過錯。
但微信團隊并非完全無辜的。因為除了手藝上,bug 呈現也有可能是流程管控上出了問題。
在一個 9 億用戶量級的全平易近級 app 里,開辟任何功能都應該顛末細心的論證,上線前也應該有嚴酷的測試,盡量確保滿有把握。然而,微信的前工程師曾透露,至少在微信翻譯上線時辰并非如斯。
那時,工程師 @qinz 在知乎上是這樣回覆的:
@LynnCui
說來騰訊 / 微信也不是第一次出這種問題了。
客歲騰訊 AI 負責博鰲亞洲論壇的同聲傳譯,直接把一個基于 seq2seq 的機翻系統帶曩昔了,先是把“一帶一路”翻譯當作了“一條公路和一條腰帶”和“道路和傳送帶”,接著又爽性抽風罷工。
“數據量大,活糙敢干。”
這是韓辰對此次微信翻譯 bug 的評價。
接管硅星人采訪時,一位不肯意透露姓名的蔡徐坤粉絲說,不但愿看到有個體人經由過程手藝的手段,去縱容針對藝人的收集暴力。
“藝人是無辜的,這樣的翻譯自己會給藝人帶來負面影響。而網友的群嘲,可能對藝人帶來心理上的二次危險,“她暗示,”此次微信官方的反映比力快,很贊。我但愿微信是沒有惡意的,也但愿所有全平易近級 app 和社交媒體都有根基的道德底線。“
* 王夏、韓辰為假名
那么……
本文來歷:硅星人
作者:光譜
你打籃球像蔡徐坤微信翻譯這個是怎么回事
0 篇文章
如果覺得我的文章對您有用,請隨意打賞。你的支持將鼓勵我繼續創作!