• <noscript id="ecgc0"><kbd id="ecgc0"></kbd></noscript>
    <menu id="ecgc0"></menu>
  • <tt id="ecgc0"></tt>

    為了微信的一個 bug,蔡徐坤的粉絲們差點跟騰訊勢不兩立

    為什么微信把英文「你打籃球像蔡徐坤」翻譯成「你的籃球打得真好」?
    圖片:《我才不會被女孩子欺負呢》 為什么微信把英文「你打籃球像蔡徐坤」翻譯當作「你的籃球打得真好」? PingWest品玩,有品好玩的科技,一切與你有關。微信公家號:PingWest品玩

    為了微信的這一個 bug,蔡徐坤的粉絲們差點跟騰訊勢不兩立。今天,品玩君來科普一下神經機械翻譯。

    工作的顛末:

    上周末,一組微信“神翻譯”的截圖,在微博、知乎、豆瓣和虎撲等社交收集上傳開。有人輸入諸如 "you play basketball like caixukun" 等句子,用微信自帶的翻譯功能,獲得的倒是寄義完全錯誤的譯文:

    其他遭殃被一路拿來調戲微信翻譯的男星,還有吳亦凡、謝廣坤等。

    蔡徐坤是今朝中國娛樂界流量第一的明星,粉絲必定欠好惹。

    微信團隊今朝已經部門下線了翻譯功能。按照硅星人實測,近似"you are so" 的句式,以及涉及"caixukun"等詞的語句,此刻已經無法翻譯到中文了。

    與此同時,官方賬號@騰訊微信團隊也在微博上頒布發表,翻譯功能今朝正在告急修復中。截至發稿,相關語句仍然無法被微信正常翻譯。

    注重,微信官方供給了一小段詮釋:

    翻譯引擎在翻譯一些沒有進行過練習的非正式英文詞匯時呈現誤翻,導致部門語句翻譯呈現問題。

    在"caixukun"后,又有網友發現了更多會觸發 bug 的詞。好比,微信翻譯似乎在大學英文簡稱上表示比力差勁。輸入"your school is WHU",翻不出武漢大學,卻給出了“你的黌舍很爛”的成果。

    沒過多久,涉及大學英文簡稱的字句也翻譯不出來了。

    硅星人認為,微信應該進一步、加倍具體地奉告我們:這個 bug 為什么會呈現,由哪些身分所導致。

    一方面,微信翻譯背后的手藝確實比力復雜。詮釋它,有助于用戶去理解它的工作道理,大白這個翻譯成果的背后,可能有著十分復雜的手藝原因。

    另一方面,你關失落了"you are so"句式,還會呈現黌舍簡稱;關了黌舍簡稱,還會有更多會觸發 bug 的詞被發現。發現一次關一次?這樣危險的是正常利用翻譯功能用戶的體驗,長此以往總不是法子。

    遺憾的是,微信方面暗示,以上面微博為準,不再更多置評(或許是因為不想繼續惹末路蔡徐坤的粉絲吧。)同時,中文互聯網上完全找不到針對此事靠譜的手藝解答,即便在知乎上,相關本家兒題下面也都是用戶在分享本身發現的 bug 截圖,沒有人詮釋原因。

    既然這樣,不妨讓硅星人來嘗嘗?

    我們采訪了多位機械進修專家,并在接下來的篇幅里 1)詮釋微信翻譯用的到底是什么手藝;2)再測驗考試回覆"you play basketball like caixukun" 這句話,為什么在微信翻譯里被翻錯了。

    微信翻譯用的是什么手藝?

    硅星人顛末多方面領會,確信微信英漢互譯系統采用的是今朝機械進修范疇比力火的“神經機械翻譯”(Neural Machine Translation, 簡稱 NMT) 手藝,由微信 AI 團隊自研。

    從門外漢的角度來看,NMT 在翻譯一句話時,做了這些工作:

    • Step 1: 在必然水平上仿照人腦的思維體例,NMT 按照一個單詞在整個句子(可所以長句)傍邊的語境,為這個單詞成立一個神經收集的模子,形當作一個語義暗示。

    好比單詞是英語的 dog,可以理解為 NMT 在它的“大腦”里形當作了一條狗的印象。

    • Step 2: 按照在句子甚至段落中的語境,將模子從頭轉化當作另一種說話。

    好比 dog 翻譯當作法語就是 “le chien”;但若是語境是“一條狗生下了小狗”,那么 dog 就會被翻譯當作陰性的"la chienne"。

    (NMT 不是真的在大腦中形當作狗的視覺印象,事實上整個過程跟圖像完全沒有任何干系。這個所謂的“印象”,經由過程連續串標的目的量 (vector) 暗示。狗的例子來自于)

    NMT 的本家兒要優勢是對長句子(甚至段落)有著不俗的翻譯能力,閱讀起來上下文連貫水平接近人翻。問宿世之后,NMT 也逐漸被微軟、Google、百度、騰訊等大公司的翻譯產物所采用。

    “機翻手藝一向在不竭迭代更新,以前基于法則,曩昔十年本家兒要基于統計,此刻我們起頭用神經收集。神經機械翻譯是今朝機械翻譯上比力火的一項手藝。我們絕大大都的大語種翻譯已經基于這個手藝了,“在美國一家頂級科技公司的研究分支擔任資深研究員的王夏 * 告訴硅星人。

    “在機翻手藝成長的每個階段,科研人員城市碰到一些問題。NMT 也存在一些問題,好比整個過程的可詮釋性長短常低的,”他說。

    硅星人翻譯一下這句話的意思:在具體案例的層面上,一個 NMT 的系統為什么會把一句話 ABCDE 翻譯當作 abcde,研究者今朝是很難將翻譯過程詮釋清晰的。

    這句話為什么被翻錯了?

    當 NMT 翻錯了的時辰,可能發生了哪些環境?

    其實錯沒錯、錯誤嚴重不嚴重,都是人來決議的。在機械眼里沒有對錯,選心猿意馬的謎底就是機械認為概率最高或最有可能的那個謎底,因為一切都按照模子、算法運轉著。

    接管這一點,你才能理解這句話為什么翻錯。

    接下來進入正題

    可能原因 1:練習集噪音

    在接管硅星人采訪的多位機械進修專家傍邊,大部門人都給這條原因投了票。

    形象一點比方,噪音 (noise) 就是練習翻譯系統的數據集里呈現的”不準確“的,“臟”的數據。

    練習一個優異的 NMT 系統,需要大量高質量平行語料數據——”高質量“指的是精確的翻譯,”平行語料“指的是一句英文一句中文的,”I love you = 我愛你“,等等。

    這些數據要去哪里找?英漢辭典是一個來歷。除此之外,最風行的做法是去互聯網上抓取,從全網大量的數據里,抓取到所需要的高質量平行語料。

    "you play basketball like caixukun" 被翻譯當作了”你的籃球打得真好“,噪音是哪來的?硅星人發現有兩種可能性:

    • 好比,網上已經存在了大量”caixukun=好“的語料。這些語料在爬取中被微信翻譯當當作了平行語料并采用了。可是現實上,這屬于”噪音“,因為在翻譯的語境下成立不了相關性,沒法子確保是精確的。微信 AI 可能在今后增強近似范疇的去噪音。
    • 開辦了一家機械進修公司的韓辰 * 指出:在練習中,微信翻譯團隊人員可能利用生當作匹敵進犯 (generative adversarial attack) 的體例,做了近似手動插手噪音,在練習過程中本家兒動對近似的翻譯成果進行糾錯的操作,最終干擾了翻譯成果——這是一種可能發生的環境,我們并不測度念頭。

    在有噪音等異常環境存在的前提下,系統仍然可以或許正常練習、工作,給出高質量翻譯成果——這樣的能力在計較機科學里叫做“魯棒性”(robustness)。

    王夏指出,魯棒性是 NMT 以及此后的機械翻譯手藝都需要改良和注重的。

    可能原因 2:集外詞

    一種可能呈現的環境是,在微信翻譯練習用的數據集中,壓根就沒有呈現過"caixukun"這個詞。

    當 NMT 碰到集外詞時,可能會進行拆解找到集內詞。這個拆解的過程也是隨機的,例如說它可能拆當作了 caix ukun,獲得的仍然是集外詞。

    集外詞翻譯欠好是很正常。若是沒見過,那就不會翻,呈現誤差也是情理之中的。

    可能原因 3:范疇不匹配

    ”另一種可能呈現的環境是范疇不匹配 (domains do not match),“王夏暗示,并指出這并紛歧心猿意馬是具體案例的環境。

    在這個具體案例中,句子里呈現了 basketball(籃球),而微信翻譯的練習數據集可能沒有籃球范疇的,或者跟籃球有關的很是少。一個不匹配的范疇,再加上句子里還有一個集外詞,配合感化使得翻譯成果很難準確。

    這個詮釋行得通。例如說商貿往來是大部門微信用戶利用翻譯的原因,那么微信在練習 NMT 時可能用了商業范疇的數據集;籃球不是微信翻譯用戶的本家兒要場景,那么在練習時也許就沒有效籃球的數據集。

    若是因為集外詞和范疇不匹配而出了錯,你也不克不及怪它。沒學過的工具,它又怎么可能會呢?

    可能原因 4:奇異單詞 + 無法引入常識

    這個原因也是由 NMT 的工作道理導致的。

    NMT 對于長句子、段落,甚至一整篇文章的翻譯結果很不錯。這得益于它的機制,在翻譯某個詞時可以或許貼合上下文的語境。

    可是在短句上,它就紛歧心猿意馬靈了——出格是當這個句子完全不通順的時辰。

    可能因為在"you play basketball like caixukun"這句話中,caixukun 是一個很是奇異的單詞。它既沒有呈現在任何一本英語辭典傍邊,看上去跟句子的上下文也沒什么關系。

    人類在翻譯的時辰,可以或許參考已有的常識、常識,翻不出來也可以去查資料。NMT 卻做不到這一點,當它在工作的時辰,它并不具備一個常識庫可以去參考。

    并且,這一點并不是微信做欠好——此刻去用同樣的句子考考 Google Translate,獲得的成果也不令人完全對勁。

    “這個(無法引入常識的)問題不僅表現在翻譯使命上,還包羅閱讀理解、問答等使命。若何在這一點上做改良,是個很有趣的偏向,大師也都還在摸索,”王夏暗示。

    所以,微信做錯了嗎?

    上述環境如若呈現,必然會導致翻譯錯誤,因為 NMT 就是這樣工作的。就算不發生在微信上,也會發生在 Google Translate,或者任何其他一個基于 NMT 的翻譯產物上。這樣來看,微信產物自己沒有任何過錯。

    但微信團隊并非完全無辜的。因為除了手藝上,bug 呈現也有可能是流程管控上出了問題。

    在一個 9 億用戶量級的全平易近級 app 里,開辟任何功能都應該顛末細心的論證,上線前也應該有嚴酷的測試,盡量確保滿有把握。然而,微信的前工程師曾透露,至少在微信翻譯上線時辰并非如斯。

    那時,工程師 @qinz 在知乎上是這樣回覆的:

    @LynnCui

    說來騰訊 / 微信也不是第一次出這種問題了。

    客歲騰訊 AI 負責博鰲亞洲論壇的同聲傳譯,直接把一個基于 seq2seq 的機翻系統帶曩昔了,先是把“一帶一路”翻譯當作了“一條公路和一條腰帶”和“道路和傳送帶”,接著又爽性抽風罷工。

    “數據量大,活糙敢干。”

    這是韓辰對此次微信翻譯 bug 的評價。

    接管硅星人采訪時,一位不肯意透露姓名的蔡徐坤粉絲說,不但愿看到有個體人經由過程手藝的手段,去縱容針對藝人的收集暴力。

    “藝人是無辜的,這樣的翻譯自己會給藝人帶來負面影響。而網友的群嘲,可能對藝人帶來心理上的二次危險,“她暗示,”此次微信官方的反映比力快,很贊。我但愿微信是沒有惡意的,也但愿所有全平易近級 app 和社交媒體都有根基的道德底線。“

    * 王夏、韓辰為假名

    那么……

    本文來歷:硅星人
    作者:光譜

    你打籃球像蔡徐坤微信翻譯這個是怎么回事

    • 發表于 2019-03-10 21:05
    • 閱讀 ( 1046 )
    • 分類:其他類型

    你可能感興趣的文章

    相關問題

    0 條評論

    請先 登錄 后評論
    admin
    admin

    0 篇文章

    作家榜 ?

    1. xiaonan123 189 文章
    2. 湯依妹兒 97 文章
    3. luogf229 46 文章
    4. jy02406749 45 文章
    5. 小凡 34 文章
    6. Daisy萌 32 文章
    7. 我的QQ3117863681 24 文章
    8. 華志健 23 文章

    推薦文章

    聯系我們:uytrv@hotmail.com 問答工具
  • <noscript id="ecgc0"><kbd id="ecgc0"></kbd></noscript>
    <menu id="ecgc0"></menu>
  • <tt id="ecgc0"></tt>
    久久久久精品国产麻豆