【明報專訊】近年,網上不時出現一些利用「深偽」(Deepfake)技術偽造的名人談話視頻,用於惡作劇或行騙。但其實這類人工智能(AI)技術亦有正面的用途。有香港公司計劃推出人工智能「面容翻譯」服務,將網上短片、網上直播、廣告、電視劇甚或電影中角色說話內容、聲線、語氣、口形、表情、面部動作等都重新處理,轉變成猶如說另一種語言。這不但可以省卻傳統翻譯和配音工作,還可以做到猶如原來角色親自說外語般。
明報記者 薛偉傑 攝影 賴俊傑
省卻翻譯配音 對白配合口形
Zyetric Technologies Limited共同創辦人林柏傑表示,該公司一年多前開始研究人工智能面容翻譯技術。所謂人工智能面容翻譯(AI Facial Translation),是指將視頻人物角色說話的內容、聲線、語氣、口形、表情、面部動作等重新處理,轉變成猶如說另一種語言。這種技術最易令人聯想到的應用是日後的外國電影和電視劇將毋須配音員配音,借助人工智能技術,便有原來角色「聲演」一般,而且還可以避免口形和對白不配合的問題。至於語言版本亦沒有限制,三數十種都不成問題。
相關文章:打造「智慧」事業3大關鍵 成為商業分析師、AI人才
讓直播帶貨以多種語言發布
林柏傑表示,該公司的首席科技官(CTO)是新西蘭一家大學的教授。該教授研發人工智能面容翻譯技術,是想讓發展中國家的學生也可以免除語言隔閡,聽得明外國學者的講課。而林柏傑則想到可應用於網上短片和直播帶貨。這是因為之前已曾有香港和內地企業向該公司查詢,可否介紹一些外國網紅給它們,在外國網絡上直播銷售內地產品。
但林柏傑覺得,不如在內地網紅直播帶貨時,使用人工智能面容翻譯技術來,同步在YouTube等外國網站上發布,讓外國網民也可看得明和聽得明。一來與另請外國網紅再做一次直播帶貨相比,這種做法成本低得多。二來很多內地企業的東主和員工的外語水平未必很高,若請外國網紅做直播帶貨,其實未必知道後者表現好不好。不過,一年多前還不具備條件推出這種業務。雖然市場上已有一些人工智能大模型提供面容翻譯技術,但它們的實際效果仍不好,主要是說話者的面部影像有些模糊,不夠清晰。為此,該公司自行設計一套演算法,將有關面部影像修正和強化。同時亦兼顧速度,不希望有太長的延遲。到今年5月初,終取得突破。現時該公司的方案可將延遲控制在1分鐘以內,圖像處理器(GPU)方面則只需一枚Nvidia的中階產品。
料半年內推服務 支援29種語言 每月5小時收費百元
至於效果,林柏傑稱與現時市場上同類產品或服務相比,該公司的方案應有過之而無不及。他以半年前推出收費服務的另一家公司作對比。後者要用戶上載短片之後,在20至30分鐘之後才可以下載取得處理完成的短片。該公司的方案卻可以做到近乎即時處理,應用於網上直播也無問題。
此外,他向記者展示兩段瑪麗蓮夢露的電影片段,分別由上述的另一家公司和該公司的方案處理,都是將原來的英語對白變成普通話對白,並且將口形處理到好像講普通話般。但在另一家公司處理的短片中,明顯看到瑪麗蓮夢露的口部影像有些模糊,顯得有些異樣。而該公司處理的短片中,瑪麗蓮夢露的口部影像則比較清晰。
林柏傑又再以一個免費開源程式作對比。他向記者展示兩段內地電影《哈爾濱一九四四》的片段,分別由那個開源程式和該公司的方案處理,都是將原來的普通話對白變成英文對白,並且將口形處理到好像講英文般。在那個開源程式處理的短片中,明顯看到主角的口部影像不時出現些扭曲,最嚴重時甚至會「爛嘴」。在該公司處理的短片中,主角的口部影像則比較清晰自然。
林柏傑表示,將再改良程式,希望將延遲進一步縮短至30秒以內,以及做好界面設計,讓用戶用得容易。該公司計劃最遲半年後正式推出服務,服務可能稱為Zhowcase,中文稱為「翻容譯語」。屆時將支援29種語言,並可同步顯示字幕。收費方面,暫定月費100元人民幣,最多可使用5小時。相信網紅跨境直播、網上短片、廣告、電視劇、電影,以及國際研討會等都用得着。尤其是內地網紅直播帶貨出海,或外國網紅直播帶貨進入內地市場,估計將是數量最大的用戶。
只需提供最少30秒有聲有樣短片即可學習
林柏傑表示,該公司曾是香港科技園培育公司,早在2021年1月已開始從事網上廣告業務,配對廣告商和YouTuber合作,將前者的廣告圖像加進後者的短片的背景。現時該公司和200多個網紅維持合作關係,他們的分佈地區包括香港、美國、加拿大、巴西、波蘭、希臘和俄羅斯等。
該公司已經向個別的網紅經紀公司透露,將會利用人工智能面容翻譯技術來推出新服務。後者反應正面,因為現時部分網紅只靠字幕,實難以打開多個國家的市場。另外,該公司還未推出服務,4月份已在第四屆「海聚英才」全球創新創業大賽深圳分賽區中獲得二等獎。
林柏傑指出,網紅使用該公司的人工智能面容翻譯服務之前,只需提供最少30秒有聲音和有臉孔的短片即可,程式就可以學習到網紅的聲線和口形等。不過,近年不時有人使用深偽技術來製作網上短片,用於惡作劇和行騙。他亦同意,人工智能面容翻譯也會受牽連。所以,該公司在授權方面,將會十分小心。暫時計劃,使用這服務的網紅,每人事前都要錄製一段至少30秒的短片,朗讀一份法律聲明。至於電影和電視劇方面的應用,亦一定要取得持有版權的影視公司的同意。