文章日期 : 2019年4月11日

輸入70粵語長片百萬字對白 教大粵語庫增播片學例句

【明報專訊】廣東話靈活多變,外國人即使在書本上學過粵語字詞,但想與本地人「同聲同氣」亦不容易,就如「啦」、「喎」等助語詞,若日常生活用錯,更會鬧出笑話。香港教育大學語言學及現代語言系副教授錢志安近日擴大及更新「香港二十世紀中期粵語語料庫」(語料庫),加入電影片段、詞類搭配和分析等功能,助非華語者學習廣東話。

澳洲人研究助理「過來人」出主意

錢志安2012年開展本港首個語料庫項目。他說,當時主要探討古今廣東話的分別,後來因澳洲人徐樂文加入團隊,學習廣東話的徐提出可善用語料庫,加入更多功能,最新版本將於本月下旬推出。經兩個階段,團隊一共翻看約70套由1947至1970年製作的粵語長片,將近100萬字的對白輸入語料庫。項目先後獲研究資助局及其他撥款資助,總額近100萬元。

語料庫有逾8000個詞種,出現次數最多首三位是「我」、「你」、「呀」。新版設詞類搭配功能, 舉例輸入「茶」字,可搜尋到「飲茶」、「冲茶」、「茶葉」等;亦有「千祈唔好」、「如果唔係」等日常四字用語,附例句參考。

錢志安說,語料庫更加入電影片段翻看功能,讓使用者學會「點樣講」,例如學習常用助語詞時,可了解說該詞時的語氣、面部表情等。他說,雖然語料庫採用粵語長片對白字詞,但因會按出現頻率排序,相信大多搜尋的字詞亦屬現今常用。

徐樂文7年前來港,年多前加入教大,成為語料庫項目的研究助理。因對廣東話感興趣,加上認為有助就業,他中學在澳洲已自行看書學習廣東話。他說,部分教學書是書面語,只有單一例子,不會教得太深入,他自己也不肯定用法是否正確。徐樂文又說,廣東話資料及教料都較少,「我應該點講才對」? 他試過用錯量詞,將「你部電腦」說成「你個電腦」,也覺得助語詞用法很複雜。

現時說得流利廣東話的徐樂文認為,語料庫對學習廣東話有幫助,「畀機會人自己搜尋這個字,怎樣用,或比較兩個字,哪個較常用」,不同例子可看到句子結構,觀看影片則可學會語氣、高低音等,「可以精準地學到點講」。以前他只會說「嚇死我」,現在已學懂說「嚇死人咩」、「嚇死我啊」。

免費開放公眾使用

語料庫免費開放予公眾使用。錢志安期望有助非華語者學習廣東話,「不是說可直接用來做教學,而是可作參考資料」。他舉例,非華語者在教學書學會基本字詞,可再到語料庫尋找該字更多相關例子及如何運用等。