文章日期 : 2020年7月3日

AI代勞抄筆記 視頻提取文字檔

【明報專訊】新冠肺炎疫情爆發,網上視頻課程愈趨流行,但學生要由零開始自製筆記,很花時間。有初創公司就運用人工智能(AI),開發出一套自動從視頻提取所有有效文字筆記的技術,包括語音信息,以及畫面內曾經出現的文字,提升學習效率和用戶體驗。這服務現已免費試用,預料兩個月後將會開始收費。

明報記者 薛偉傑

雲影天光科技國際有限公司運營總監李芊表示,公司在去年4月開始研究,在雲端利用人工智能和自然語言處理(NLP)技術,從視頻中快速提取所有有效文字筆記的技術。他們有感網絡視頻課程日益普及,但學生若要自行做筆記,將視頻中的文字信息全部記錄很花時間。

視頻中的語音信息靠語音辨識技術來處理,而字幕、彈幕及其他文字靠影像辨識技術來處理,文字信息可以同時分別提取,不會互相干擾。

公司的服務稱為「十行筆記」,用戶使用時,只需在其網站(https://videoai.perspectivar.com)提供一段視頻超連結,或者將整段視頻上載,暫時支援YouTube和bilibili。至於十行筆記從這段視頻提取所有有效文字筆記的處理時間,大約是視頻長度三分之一至二分之一。若是幾分鐘的短片,處理時間就會和播放時間相若。

至於語言和文字方面,計劃支援英語、普通話、廣東話,以及中文字、英文字。初期限英語和普通話,並先開發內地市場,然後再開拓外國市場。至於提取文字準確程度,去年底已逾八成。由於十行筆記採用機器學習技術來設計,理論上,隨着使用人次愈多,準確率將愈來愈高。

初限英語普通話 準確度逾八成

十行筆記計劃主攻各種網上課程的教育機構和學習者。若能夠和開設網上課程的教育機構達成合作協議,直接收費最理想。公司可以在網上課程界面加上一個按鈕,學生上課後,按一下可以產生筆記,以方便日後溫習。李芊表示,理論上十行筆記能夠處理所有以普通話或英語講述的網上視頻課程,不過,若畫面上出現太多數理化符號,有可能辨識得不太準確。

除網上教育行業,公司覺得,十行筆記亦十分適合傳媒工作者使用。因為記者可以從各種新聞短片、視頻訪問、網上發布會或網上研討會,快速提取文字,以方便寫稿,或為短片配上字幕。

月費百元可處理全高清視頻

因為新冠病毒肺炎疫情,多個地區的學校和補習社都曾經被迫暫時停課,學校老師和補習導師透過網絡授課;商界很多發布會和研討會亦改為網上。因此,公司近月開始讓人免費試用十行筆記,吸引不少人注意和使用。十行筆記暫時只支援20分鐘以內視頻,每名用戶可以免費處理視頻總長度限於60分鐘,之後要付款。公司計劃在8月開始收費,方式包括出售點數和月費計劃兩種,月費再分為數十元和約100元兩級,百元月費可以處理的視頻總長度較長,以及可以處理全高清視頻。

以網站形式提供服務之外,公司計劃在稍後推出十行筆記的手機App及微信小程序,方便智能手機用戶使用。另外,近月很多人使用視像會議軟件Zoom開會,所以打算設計一個插件程式,讓機構用戶安裝,當用Zoom開會後,只要在畫面上按一個鍵,就可以自動產生會議紀錄。

視頻有背景音樂 無法使用

李芊畢業於香港科技大學及加州大學洛杉磯分校,曾在工程和金融領域工作,喜歡研究運用各種人工智能技術和大數據技術,協助提升工作效率以及預測未來趨勢。他和兩名朋友合作創辦雲影天光科技,申請到創新科技署「大學科技初創企業資助計劃」(TSSSU)。

記者實測 內地視頻準確度高

去年9月,雲影天光科技曾經入選「創科香港基金會」(HKXF)主辦的「X-PLAN創科超人團模擬路演及投資人診所」,在廣州介紹商業計劃。該次路演之後,廣州一家創業培育機構主動邀請該公司參加其培育計劃,所以已於去年底在廣州開設分公司。

記者試用過十行筆記,同樣是來自YouTube普通話視頻短片,以內地的處理效果最好。例如,記者在十行筆記的網站界面中貼上一段源於內地紀錄片《厲害了,我的國》短片連結,提取出文字信息準確率超過95%。在該網站界面選「下載」,得到一個微軟docx格式檔案,將有關文字信息與對應的截圖順序地排列好。不過,改用另一段短片,馬來西亞華人網紅說普通話,準確率不到九成。

稍後網站提醒背景音樂限制

記者試驗過在該網站界面中貼上一些流行曲短片的連結,有時會顯示「未有偵測到的音頻文字」,有時會照常提取文字,但差不多每句都錯誤。

李芊解釋,因為流行曲短片除人聲之外,亦有背景音樂,而十行筆記在設計時,未考慮到將人聲和音樂聲分離,所以準確率會未如人意,公司稍後會在網站加上說明,提醒用戶這個限制。

Article Search Box