文章日期 : 2017年6月12日

中大系統測中文錯字口語
八成準確率 年內開放公眾使用

【明報專訊】文憑試中文科被稱為「死亡之卷」,中文大學研究團隊針對學生中文寫錯別字問題,研發出「錯字和粵語檢測系統」,是專為香港學生量身訂做的自動中文檢測系統,已在部分學校和補習社測試,指檢測錯別字準確度達八成,將逐步開放予全港中小學使用,並將在本年內轉化為MS Office插件,開放予公眾使用。

參考學生作文卷研發 學過百萬字

研究團隊認為,隨着社交網絡及即時通訊軟件興起,年輕人慣以口語、縮寫,甚至中英夾雜的文字與人溝通,影響書面語表達能力。團隊透過教育局收集數千份高中生作文卷,以及中文教師的批改,加上收集課本、辭典等材料共過百萬字,供系統「學習」,研發「錯字和粵語檢測系統」,冀改善中小學生的中文水平。

團隊將系統應用於中小學生中文作文,用電腦輸入文章,數秒便可完成分析數百至一千字的文章,平均約10個錯字能找到8個。系統還會為每一個錯別字和粵語口語提供修正建議。帶領研究團隊的中大系統工程與工程管理學系教授黃錦輝表示,粵語是精密的語文系統,有獨特的語法規則,以及大量口語詞彙,增加了檢測的難度,希望系統能推進中、小學生的中文學習。

可區分繁簡 懂學習更新

系統會將問題分成「錯別字」、「粵語用法」、「簡體字」和「倒裝用法」四大類別,團隊指粵語某些詞是倒置使用的,例如書面語的「要緊」會說成「緊要」,若學生輸入「緊要」,便會顯示為「倒裝用法」,團隊說明白它們並非錯字,而是粵語獨有用法,會將它們找出,讓用戶決定下一次如何做。另外,簡體字和繁體字有一字對照多字的問題,例如「后」字用在「王后」一詞中是正確的,但如果用在「前后」,系統則會標示為簡體字。

該系研究員馮沛璋表示,語言與文字會隨着時間及地域而不斷發展和演變,難以制定一套永久通用並放諸四海皆準的用法,故此為系統加入人工智能和學習元素,能根據使用者選詞造句要求,以及語文教師的設定,不斷自我改進和更新相關的詞語和語法規則,進一步完善其中文檢測功能。