香港創科世界級!FANO Labs語音識別無懼粵英夾雜 聲紋技術提升銀行監管水平
有光集團有限公司(有光科技,以下簡稱FANO Labs)創始人及首席執行官溫豪夫博士(Miles),在大學研究語音科技,發覺能夠解決多方面的問題,於是毅然創業,將之商業化。
公司至今吸納逾1億元資金,超過40間大型企業是其客戶,並且陸續開拓海外市場,Miles與團隊繼續優化產品,走在最前,證明香港科技達世界級水平。
近日疫情大爆發,不少銀行關閉部分分行,以減低傳播病毒的風險,顧客只能透過線上渠道或電話,接觸銀行職員,處理各種事務。
相信讀者都很害怕打電話給銀行,因為前後需要按很多掣,等候良久也未必找到真人接聽。
專注於語音識別、自然語言理解等技術的人工智能本地初創公司FANO Labs,將於今年下半年推出嶄新服務,顧客打電話給銀行,系統進行發問,因應顧客答案,找尋合適資訊,或者轉駁至客服,毋須再按來按去。
配合香港語言環境
Miles說:「現時顧客打電話給銀行需要按掣,因為需要分流,如果系統聽得懂顧客的說話,便能夠自動進行分流。」
FANO Labs方案能夠理解和分析英語、普通話、粵語和混合語言,配合香港的語言環境。
「語言處理技術當然以美國、內地及日本較為先進,但他們只專注於當地的常用單一語言,未能配合港人三文兩語、中英夾雜、不同口音的情況。」
語音科技並不是新鮮事,蘋果公司(Apple)的Siri或Google小姐,也可以聽懂人們說話,不過人們需要事先設定語言,每次只能說同一種語言,未能識別中英夾雜,也不能中途轉換至另一種語言。
FANO Labs的系統能夠識別一段錄音內共有多少人說話,並將他們的談話內容轉化為文字,從而進行分析,包括時間、地點,以及是否包含了情緒,例如投訴及抱怨。
FANO Labs的客戶包括不少電訊公司,因應顧客來電進行分析,例如顧客查詢何時推出新手機型號、上台有沒有優惠等,或者進行投訴,系統可以了解員工有否跟進,以免顧客流失;同時可以將經常出現的問題,製作FAQ (Frequently Asked Questions)上載至網站,讓顧客自行查看,毋須每每致電客服。
現時部分銀行推出聲紋驗證,取代輸入電話理財密碼,但較多是上一代的技術,系統要求顧客錄下一句說話,日後登入時再說相同的說話驗證,但容易被人盜錄及使用。
提升監管水平
恒生銀行與FANO Labs合作,透過語音生物識別技術來認證客戶身分,當客戶撥通銀行熱線時,語音認證系統會分析客戶聲音的特徵,包括口音、詞形變化、節奏等,以核實話者身分。
「系統向顧客發問,例如身分證號碼最後兩個數字,今天的日期及時間等,後者的答案永遠不會一樣,有效防止盜用身分。」
現實中,有些配音演員會模仿其他人的聲音時,人的耳朵難以分辨出細微的差別,但是說話者的本質特性是無法模仿的,聲紋就是生物識別特徵的一種。
近年監管當局對金融機構的監管水平不斷提高,銀行、證券公司及財富管理公司的職員,向顧客推銷投資產品的過程之中,必須清楚解釋風險,避免誤導等。
為此,銀行職員會將銷售過程錄音,然後存檔作為內部紀錄,並聘請專人抽樣檢查,了解員工的做法是否符合監管要求,但銀行顧客數目眾多,根本無法全部翻聽一次。
2021年FANO Labs開始協助銀行提升監管水平,透過系統為錄音內容進行分析,了解員工在銷售過程中有沒有違規,例如是否講漏重要資訊、說話是否含有誤導,如有相關情況,可以即時叫停銷售,或者重新再做一次。
Miles於香港大學獲得電腦工程一等榮譽學士學位及香港大學金融學碩士學位,並於2015年獲得香港大學電機電子工程博士學位,在大學期間一直進行關於語音科技的研究。
「在大學做科研,取得專利後存檔,工作基本上完成,之後讓有興趣的企業或組織拿來商業化,但當中不少專利僅長期放著,無人問津。」
2015年,年僅26歲的Miles,不想自己的研究成果白白放著浪費,於是他決定出來闖天下,與數名拍檔成立FANO Labs,將語音科技落地。
Miles與數名合作夥伴合資數十萬元,一起成立FANO Labs,將成果商業化,並且取得大學科技初創企業資助計劃約100萬元資助。
「以前打著香港大學的旗號,商業機構都願意合作,甚至搶著做白老鼠;當我們出來闖,沒有任何人認識FANO Labs,對做白老鼠感到相當猶豫,非常關心我們的服務質素以及公司的可持續性。」
吸納逾億資金
成立最初三年,公司毫無顧客,純粹燒錢,至2018年才獲得首個顧客,陸續證明產品的質素,再慢慢吸納客戶。
FANO Labs現時共有逾40間大型企業客戶,平均每間企業的員工數目達10,000名以上,例如中國移動、恒生銀行及多個政府部門。
2018年至今,FANO Labs每年收入平均增加三至五倍,但是利潤都用來再投資,以改善產品質素。
FANO Labs至今已進行了五輪融資,投資者包括Horizons Ventures、阿里巴巴、香港大學、香港科技園(HKSTP)、Saltagen Ventures以及南豐集團主席梁錦松等,投資金額超過1億元。
除香港外,還有很多地方擁有類似的複雜語言環境,因此FANO Labs的業務開始國際化,現時系統可以處理本港常用的兩文三語以外,還可以分析印尼、馬來西亞、泰國、越南、法國及阿拉伯文,而且仍在不斷增加。
「訓練系統處理一種新的語言並不困難,難度在於測試,然後解決不同口音、懶音及四周的噪音等。」
FANO Labs主要因應大灣區及一帶一路作海外發展,因為不少港資及中資機構均向這兩個地方發展,但擴展途上往往遇到語言障礙,公司的解決方案正好可以幫上忙。
FANO Labs透過SaaS提供服務,基本上每週均會優化產品,約每半年出現一次較大型的技術突破,例如以前系統無法分析數個人一起說話的情況,現時可以清楚讀取每個人所說的話。
此外,系統耗費電腦的運算能力(CPU),最近在不影響準確度之下,提升十倍速度,但減低所需運算能力要求達八成。
公司現時合共聘用近70名員工;另有100至200名兼職,協助測試系統,仍然於全球增聘人手,對於要求較高的精英團隊,平均100名應徵者只取錄一名。
「我們做出初步成績,自然吸引到其他人的目光,所以我們必須每日都在進步,以免被他人趕上,最終向世界證明香港也能孕育出世界級的高科技企業。」Miles說。
客製化聲音
我們日常都會收聽到各種廣播,原來大多均由真人錄製,例如港鐵站、機場的廣播,這些機構有充足的預算,聘用真人預錄站內所有廣播,每當再遇有需要,便再找這人錄音。
事實上,不少公司出於成本和聲線一致性的考慮,會選擇FANO Labs的語音合成服務,來避免錄音出現「陰陽聲」。
Miles舉例說:「語音合成技術可以協助電話客服中心,量身訂做一把聲音,只需找一位同事錄音約三小時,當然要事先取得該同事的授權,系統可以從錄音中學習說話的方式,比如模仿該同事的用字、口音等,進而產生自然的聲音,技術上可以做到與錄音同事的聲線一致,亦可根據需要變成另一種音色。」
語音合成技術製作的聲音,人類的耳朵難分真假,為免技術被人濫用,FANO Labs在每個合成的聲音加上水印,並且開放源碼供任何人查閱,其防禦系統也能夠追溯到每把合成聲音的創造者。