許復《方言與 AI,千年後可成為保衛地球的救星!》

八零後、或者年齡更長的朋友,小的時候一定都有收過這樣一種禮物:字典。我收過父母送的字典、祖母送的字典、兄長送的字典、老師送的字典、還有校長和市長送的字典。這玩意兒,厚厚的一本,可以是同一種語言之間的細節解釋結構系統,更多的是不同語種之間的翻譯體系。後來,翻譯機出現了,我開始把那厚厚一本的東西束之高閣,一直到出國念書及工作,連翻譯機也不用了,因為所有的東西都在掌心的智能手機裡。

推動人工智能翻譯的快速進展,其中的大功臣之一,就是各式各樣的國際盛事,嚴肅一點的比如美國總統大選、或是中國人大,輕鬆一些的好比蘇格蘭的愛丁堡音樂節、日本櫻花季、或是剛剛才在俄羅斯熱呼呼閉幕的世界杯足球賽。這次的世界杯,Google 官方統計,使用 Google 翻譯的流量來到超乎預期的高峰,因為全球各地來的記者、球迷、觀光客、商人們來到俄羅斯都在使用這項功能。

Google 翻譯,現在的表現仍然未臻完美,主要因為在許多語言裡,一個單字就有多種意思,再加上文法問題,排列組合之後,仍然會出現誤差。目前的翻譯技術,最具突破性的應該是今年初微軟進行的一項試驗,他們以人工智能深度神經網絡結合龐大的翻譯資料庫及數據,將一系列中文新聞翻譯成英文,所花時間僅僅幾秒,最終呈現的結果與專業的人類翻譯達到了同樣的高水準。微軟說,其過程先會有一個初步的翻譯版本,此間會有一些確保無誤的部分先被翻譯出來,剩下的部分則會根據前後文的內容來精確翻譯。

微軟強調,人工智能翻譯的過程,其實就是一個不斷的完善過程,其中經歷了文本對照、比較、學習,和人類翻譯的過程非常像,但是更快。這裡面有一個重點:所謂文本對照、比較、學習這三件事,都必須要有大量的資料庫和數據支撐,換言之,如果是那些少數人使用的方言,或者說,被講得很少的方言,很可能就比較難與翻譯軟件合作,因為其本身可被參考的文本稀缺,甚至有不少方言根本就沒有文字。

聯合國教科文組織統計,世界上的語言有 6000 多種,最多人講的是漢語、西班牙語、英語、阿拉伯語、印地語、孟加拉語、葡萄牙語、俄羅斯語、日語、德語這 10 種。以中國為例,中國是多民族、多語言、多方言的國家,一共有五十六個民族,其中彼此不能直接溝通的方言就多達 80 種,再把各種口音的方言都算起來,則超過 1000 種。這些方言,多半本身是沒有文字的。廣東話本身就有比較久的文字系統,算是個特例。

那麼,如果透過人工智能把其中一種文字系統缺乏的語言,翻譯成另一種文字系統缺乏的語言要怎麼做?假設要把閩南語翻譯成下西里西亞語,那麼,會需要經過這樣的步驟:先把閩南語翻成國語,接著把國語翻成德語,再把德語翻成下西里西亞語。這當中的多手轉換,勢必產生更多的訊息誤差。

說到這裡,大家可能就有概念了,這些需要被保護的少數語言,如果想要被廣泛地傳播,就需要被多寫、多講,本身沒有文字的話,也要以其他形式借屍還魂,因為,只要有軀體,就能被 AI 技術拿去使用,而有了更多的被傳播與被翻譯的契機,生存的可能性也就更大。

不過,這些少數語言如果跟 AI 別那麼熟,興許也不是壞事。如果有一天,外星人來攻打地球了,很可能它們就成為人類之間能夠秘密溝通的語言,無法被外星人用任何技術破解。前提是,這些稀有語種還活著。

  • 作者 Facebook
  • 許復,英國劍橋大學科技政策碩士,曾任多年電視新聞主播,現為企業品牌行銷推手,身兼亞太傳媒連線召集人,為兩岸三地企業提供媒體公關訓練及諮詢。