文章日期 : 2020年1月6日

手機App平台化身AI學習後盾 配對外行人助建數據標註資料庫 省開發時間

【明報專訊】人工智能軟件在科技界炙手可熱,然而要令AI自行運作,開發者往往需要先向它提供大量經過標註(Labelling)的相片、文字、錄音等,涉及大量機械化而又簡單的工作。有初創公司看準這一點,利用手機App作為配對平台,將以上勞力密集和機械化的工作外包給普通人,既釋放開發人員的寶貴時間,亦可降低整體開發成本,普通人也可在空閒時間賺取收入,一舉三得。

明報記者 薛偉傑

Datax Limited行政總裁黃偉俊、用戶界面設計師譚逸曦、科技總裁龍羽騫均表示,人工智能軟件普遍設計成具備「機器學習」自學功能,前提是先要人類向它們提供大量例子「訓練」,機器才能夠從例子中自行觀察和學習。舉例說,若要人工智能準確辨認「什麼是漢堡包」,開發者要先輸入很多不同角度、不同背景的漢堡包相片,亦須包含不完整的漢堡包例如露出餡料或已被吃掉部分的圖像,並從中指出哪件物件是漢堡包,人工智能軟件才能從海量相片中總結經驗,找出共通。

開發者有時會輸入一些似是而非的相片(例如麵包),指明它們並非漢堡包,訓練才算完整。這種從相片中指出漢堡包或非漢堡包的工作,就稱為「數據標註」(Data Labelling)。

「數據標註」是相當機械化、勞力密集的工作,不涉編程知識,若由軟件開發人員兼顧其實很不化算。以往有大學或軟件公司會聘請大學生當兼職,專門負責數據標註工作。即使如此,成本效益也未必是最好。而且,有些數據標註工作可能需要主觀的判斷或認識,或者地區特色(如語言、文化、種族等),盡量每次分配給最適合的人或者多些人負責,會勝過每次都交給固定幾名兼職員工。

Datax Limited負責人讀大學時,曾協助一間跨國時裝公司將數以萬計時裝相片按風格分類,以便訓練該公司的人工智能軟件。當時,他們將相片分類成喇叭褲、窄腳褲、Hip Hop、韓風等,但他們發現若由男士看男裝,女士看女裝,其分類可能會更加準確。又例如,若要訓練一套人工智能軟件準確辨識一句廣東話,就需要收集很多人說同一句廣東話的語音,而不能僅僅倚賴幾名兼職員工。

配對外判機械化工序 普通人掙外快

以上經驗令他們想到,手機App平台可配對普通人和人工智能軟件的開發者,讓後者將訓練軟件的前期大量機械化工作,外判給普通人處理,包括:「圖片標註」、「錄音蒐集」、「對話轉錄分類」(文字轉語音或語音轉文字,並將其內容分類)、「內容情感分類」(文字或語音)等。此舉可釋放開發人員的工時,降低整體開發成本。普通人亦可以利用空閒時間掙取收入,同時又為科技行業作出一分貢獻。

Datax 2017年底成立,年多後設計出Datax Contribute手機App。2019年4月,他們在台灣參加培訓初創公司的加速器計劃時,認識當地一間人工智能軟件公司,接到第一單生意。公司找到100個台灣年輕人協助開發,在大批平面廣告相片中標註出品牌商標,以及表達個人意見,評論廣告是否吸引等。該公司陸續接到台灣、新加坡及香港公司的生意。其中,台灣和新加坡的軟件公司相對成熟和比較有規模,香港客戶則多為初創科技公司。現時,新加坡有一家交通行業的大公司正與該公司商討合作。至於宣傳方式,則主要是參加展覽,以及朋友轉介,或以電郵聯絡目標公司等。

截至去年底,有1300多人安裝Datax Contribute App,其中大部分是「貢獻者」(Contributor),即想接機械化工作的普通人。

料訓練AI工作長遠需求愈來愈多

三人表示,香港企業對人工智能軟件的作用和認識暫時不及台灣和新加坡企業,故本地生意比較少。他們認為長遠來說,涉及訓練人工智能軟件的外判工作需求一定會愈來愈多。他們表示,智能家居系統的語音操控就需先收集大量語音指令(例如開燈、關燈、開電視、大聲一點、細聲一點等),來訓練其軟件。至於用來分析網上社交媒體帖文輿情的人工智能軟件,亦同樣先要由真人提供大量例子,在帖文中標註關鍵句子,並指出其情感或意向等。