
科技復振族語用語言AI重建文化認同感
常言道:「母語斷、文化滅」,語言是歷史的足跡,也反映著一地民族的生活方式與文化,然而原鄉部落往往由於人口外移,許多年輕人不會講族語,這些族語的流失速度,超乎大家想像,甚至已有部分瀕臨滅絕,有感於此的王奕翔,投入自身所學,立志開發原住民族語言AI,用科技輔助語言發展。
投入資訊科技挽救語言危機
談起創業緣由,外型稚嫩,穿著打扮仍有如學生樣的奕翔眼神閃閃發亮,「原本就有發展原住民族語言AI 這個想法,只不過沒想到是這麼快,剛好有了百萬創業計畫的機會,敦促我加快進度,有動力創立工作室。」這位來自屏東縣瑪家鄉的排灣族男孩,試圖想要以科技守護母語。自政大人工智慧應用學系畢業,才25歲的他,所學專長剛好搭上現階段最熱的AI 趨勢,之所以會選擇這個科系,「我本身很喜歡數學,後來覺得寫程式很酷,直到接觸Google 的語言模型:BERT,學習語言方式很像人類,就如同在科技電影裡看到的劇情般,讓我深受震撼並投入。」在他的眼裡,科技日新月異,這種類神經網路,可模擬大腦的神經元深入發展,以前會覺得這是不可能發生的,但隨著越來越多程式的出現,科技就像在一瞬間跨過了這道高牆。
有意思的是,這個產業,還是百萬創業計畫開辦九屆以來,第一次出現的。「跟上這一波的趨勢,大多是一些比較大的語言,一方面是做訓練時,能方便取得所有語料,再來是語言越大,市場價值也越大,但我卻覺得,其實最需要這種技術的,反而是像原住民族語這類微型語言。」他有感而發。
從頭開始的語料內容建置
還未投入原住民族語之前,他用AI處理的語言大多是中文、英文還有閩南語,這些語料庫的規模大多是十萬、百萬甚至是千萬量級等級的大語料模型,可是回到排灣族語,不論文字或音檔能參考的資料都很少,他以閩南語為例,很多八點檔連續劇一播就是好幾年,語料量很足夠,但原住民族資料量非常少,得從頭開始建置,所以需要大量的時間跟成本。
曾擔任族語老師的他坦承,因為族語教學供不應求,族語老師的負擔相當大,一個老師往往要跑四至五間學校授課,南北兩地跑,而且學生程度落差大,若能將教學導入AI,對於教育資源分配是很好的輔助。此時他內心暗忖,如果有了一筆經費,能把六七成的器材都建置好,像是可執行AI的顯示卡、主機設備與線材等,就會有良好的起步,接著再發展技術和相關產品。
說自己的話讓文化不斷根
因為有了百萬創業計畫的經費,可以請工讀生去臺東、屏東一帶,蒐集更多排灣族和阿美族的語料,然而這過程並非一路順遂,談及計畫執行的難度,「他們一開始不知道要怎麼收音,以為用錄音器材錄一錄就好,結果後方蟲鳴鳥叫的背景雜音比人聲還多,音檔無法使用,最後只好花時間,指導如何錄音,做語料採集,還有一些基礎標記部分,反而是訓練比較花時間。」他苦笑。

在計畫顧問的陪伴下,他了解一個公司最重要的是良好的團隊溝通,而培養默契相互信任是重要的一環,他知道以現階段來說,如果溝通不順,問題還不會那麼明顯,一旦公司結構大了,問題就會慢慢浮現。
從事田野調查以來,他回頭看自己母語,真切感受到它正在迅速滅亡,「從八十歲和七十歲長者對母語理解程度的落差就可看出,很多古老的字,只有八十歲以上的耆老才知道,七十歲和六十歲又差的多,更不用說到我們這一代,很多都完全不會講。」因為語言價值就是要使用,當年輕人缺乏文化認同感,不再使用族語,珍貴的文化資產也會日漸消逝,這也是他憂心之處。秉持「自己的族語自己救」的精神,雖然現階段只能悶著頭苦幹,一旦程式開發成功,未來可以幫助族語老師生成逐字稿,方便更多族人和相關從業人員與長輩溝通,汲取祖先的知識,讓原住民族文化得以在原鄉土地茁壯延續。