「有些人只顧自說自話,根本不管人家到底聽不聽得懂。」李丹是香港中文大學電子工程學系教授,過去30多年專攻語音技術研究,包括現在幾乎你我都會用到的 “Speech-to-Text” (語音轉文字 )或 “ Text-to-Speech” (文字轉語音)技術。以為他作為資深工程人,難免滿口艱澀術語,但可能是研究多了人家說話,他特別在乎溝通這回事。
何善衡工程學大樓的會議室,掛有學系由1998年起計的模範教學獎得主名單,大家不妨數一數李丹教授的上榜次數。(圖:ORKTS)
中大「好聲音」
「大學裏面的教書佬有個好大的缺點,就是以為人家好喜歡聽他說話,於是講到不識停。我經常警惕自己,雖然不是好有效。」訪問前他在電話傳來這段文字,似是事先聲明不好介意他「長氣」。但事實上,求學時期曾為中大合唱團副團長的他,在兩小時內,分享了許多其研究、跨界合作和知識轉移的項目,包括近期為一名喉癌病人設計個人「留聲機」的事,深入淺出,毫無悶場。
「過去十幾年教書,我都會好留心自己上堂的說話。」這份自覺,並不是擔心講錯話,而是學生明白與否,理不理解。難怪,步入會議室,見到其學系過去廿年模範教學獎的得獎名錄,李丹個人上榜12次,其中九年更是年年都榜上有名,可見其教學「口碑」。
雖然提起廣東話拼音、國際音標(IPA)等語言學概念琅琅上口,但電子工程學出身的李丹強調自己在這方面學藝不精,興趣是始於30年前在中大攻讀博士時養成的,「我(讀博)第一個項目就是做廣東話的語音識別。」
「人的說話變化有好多層次,有文化、語言,也有情境上的,例如現在跟你對話,跟我今早教書都會有所分別,無論是速度或語調。」戴着工程學院的口罩,他不疾不徐解釋語音技術背後人際溝通的概念。(圖:ORKTS)
由數學到廣東話語言學
笑言自己大半生走不出馬料水(中大)的李丹1984年經一年制預科高等程度會考 (High Level )入讀中大,一年後由數學系轉修電子工程,「我一路相信數學好,甚麼都會好。我好欣賞讀數學的人,譬如梁迺聰,好聰明,他當年大學都未畢業,已經跟丘成桐 (知名數學家)讀數。」儘管心愛數學,惟始終比同屆同學少一年讀書經驗,他形容自己大一成績「慘敗」,促使他後來說服系主任讓他轉讀較為「實在」的電子。
「大學畢業之後讀碩士研究生,之後去城大,當時叫城市理工做教學助理。」在即將完約之際,他萌生繼續讀博的念頭。巧合在火車站遇見程伯中和陳麗雲兩位中大教授,得知對方正開展廣東話的語音識別項目,於是自動請纓加入其團隊,「1992年開始在中大讀博士。」對於人名、年份,他一下子就準確說出,記憶力過人。
雖然語音識別是由電腦處理,然而作為研究員,亦不可以沒有語言學根底,「當時對於廣東話語言學,我一竅不通,於是去找徐雲揚教授學,他是人類學出身,但教phonetics (語音學)。我跑去城大跟他學, 聽他的seminar,但是很沒有系統地學。」
「初時學廣東話拼音,但廣東話拼音並沒標準寫法。雖然學術界用粵拼,但民間又不跟隨。」他舉例指,香港人的中文姓氏即使相同,但英文拼寫花款各出。「例如徐雲揚教授,他英文名是Eric Zee,不是現在常見的Tsui。姓蔡的可以有Choi、Tsoi, Choy…『張』可以是Cheung或 Chiang。」這種現象是殖民地時期遺留下來的。
「以前香港人去到出生登記處,用他最可能最準確的發音講出名字,職員經過受訓有一套系統去拼寫,但系統並不一致,於是出現不同寫法。」他後來又學習國際音標,「所有語言通用的,我要識囉。」
學好音標,再學廣東話,或者可以減少鬧出笑話。
「長aa定短a,可以有好大分別,例如「劉」同「撈」、「快」同「廢」。你有沒有聽過一個洗衣機的笑話?有個客人到洗衣店,跟店員講,這件衫咁樣「死」得,掉返轉「死」又得,咁樣「死」都得。這個就係ei (死)同 ai (洗)的分別。」
在清一色男士的辦公室兼工程房,這裡還有個專業錄音室,是錄製「故事點播機」故事的地方。(圖:ORKTS)
Speech是如何構成的?
過去三十多年,他的研究始終離不開語音。「主要是 “Speech-to-Text” 同 “Text-to- Speech”」,他指出,前者難度較大,口音是其中一個影響Speech-to-text 技術的因素,「決定speech 的影響因素有太多,環境、口音、語言、錄音設備等等。一個媽咪對小朋友說話,為何要慢慢說?為何要重複?所以沒有單一語音技術,可以解決所有這些情景問題。」
他強調人腦的精妙之處,「人聽得明白,好似好簡單,但其實人在聆聽的時候,腦袋已經預先有好多假設同設定,譬如今次訪問我知道你們會問甚麼,所以就算你們咬字不清楚,我都明。」
「但你們聽我講就沒有這個預設,那我就要每個字都要好清楚,這就是我們腦海預設的知識,如何去引導這個識別 。技術上有難度,電腦認不認到?這次識別到,下次又可不可以?因此需要大量的數據 (Training Data)。」三言兩語,他將複雜的原理簡潔道出。
李丹平日用手機通訊,喜歡用”Speech-to-Text”,「即使好地道的廣東話都打得出。」他30年前的博士研究就是廣東話語音識別。(圖:Unsplash)
最強踩過界
不能發明單一技術解決所有溝通問題,他卻擅於遊走各學系,跟不同學者合作,利用自己的工程專長,解決各種各樣的難題,包括跟聽力學家合作改善人工耳蝸語音處理的質素;跟言語治療師合作,利用語音處理檢測兒童言語障礙;跟教育心理學家合作,分析優秀輔導員的語言表達特徵等等。
「我相信我是中大跨學科 (研究)最誇張的人,除了BA (工商管理)同LAW(法律)之外,其他(學科)都合作過。」他笑言。
近期為人熟悉的,是他的團隊為一喉癌病人Jody「留住把聲」一事。事緣Jody去年要做手術切除喉部,意味日後會失聲。其兒子女朋友在網上求助,李丹的學生Matthew獲悉後,促成李丹團隊出手,利用人工智能語音合成技術,趕及在手術前請Jody錄製十多小時的錄音,成功為其保留聲線,日後可透過Text-to-Speech 應用程式「親聲」跟外人溝通(參閱有線新聞的報道)。
2015年,李丹(左一)跟中大耳鼻咽喉頭頸外科學系,以及語言學及現代語言學系合作,推出兒童語障評估軟件。圖為當日他與手語語言學專家、語言學系鄧慧蘭教授(中)及耳鼻喉科言語治療部副主管羅家東教授(右一)等出席發布會。(圖:受訪者)
曾擁全球最大廣東話語音數據庫
要在24小時之內準備好所有講稿給Jody,如何張羅?「我們一向有這些廣東話材料,包括書面語、對話式、講故事的語言,我們儲有1999年至2000年的所有報紙。」他指出,中大是早批獲批創新及科技基金(ITF)資助的大學,用於建立一個當時全球最大的廣東話語音數據庫,曾經動用逾千人、錄得400多個小時錄音,「蘋果第一代的廣東話語音識別,就是買了我們數據,雖然最後不知用了幾多。」
語音配合深度學習技術,應用潛力深廣,不懷好意的會用於DeepFake,例如模仿銀行老闆聲線以作詐騙,但亦可以幫助Jody等個別病人及家人,受惠對象還可能包括柏金遜症、小腦萎縮症這類慢慢會影響說話能力的患者,「甚至老人家如果想聽到遠在海外的孫仔聲音,或聽孫仔讀報紙,都可以利用此技術,不過這可能涉及道德問題。」
他相信,技術應該去幫那些有需要的人,「不是幫那些一有空閒就找Siri (蘋果語音助手)來聊天的人。」他表示不喜歡用Siri,但喜歡用手機的Speech-to-Text 功能,「好地道的廣東話都打得出來。」
打籃球是李丹的興趣,亦是持續幾十年的習慣。近年他加入了一支由七八十年代中大籃球校隊成員組成的球隊,經常參加本地和外地的公開比賽。圖為球隊2015年前往惠州參加一年一度的世界華人籃球賽。(圖:受訪者)
近年不少學者「研而優則商」,興趣多多、喜歡唱歌、打籃球的李丹卻始終熱衷大學的環境,「大學可以學嘢。」他分享最近跟教育心理學系崔子揚教授一次「好玩又新奇」的合作經驗。
「他們有許多時數的輔導員進行輔導的錄音,我們負責分析語音、語調表現特質。原來輔導成效的重點,不是輔導員說了些甚麼,而是如何引導事主表達自己。輔導員等多久才回應、有沒有重複對方的字眼、重複多少、甚至虛詞(嘅、噃)的運用都有關係,我們還開了個會議討論虛詞,對我來講又是新奇事。我回去跟仔女聊天都會注意自己說話。」他笑道。
除了校內跨學系合作,他前年亦透過中大知識轉移項目基金(KPF)走入社區,他跟團隊運用語音技術,創建一個「故事點播機」的應用程式,孩子和父母不但可以收聽100個兒童故事,小朋友還可以改動故事的內容,顏色、地點等,「例如將大灰狼改為爸爸。」促進親子互動。
能否合成父母的聲線,讓不在身邊或忙碌的父母為孩子說故事?育有兩名子女的李丹斷然反對,「始終小朋友年紀小,盡可能由(父母)真人講啦。我不想我的技術用在一個偏離的方向,這方面我會好警覺。」技術雖好,但李丹所關注的,還有背後的倫理問題,相信會在他教授的通識科「人工智能揭秘」有更多涉獵。
學人關鍵字|「做Speech」
( 圖:Unsplash)
「做Speech 在工程界比較難刊文 、難評核,因為圈子好細,每間大學做電腦影像、視像的人有許多,但做speech 的好少, 全世界做speech 同image ,是1同10倍的分別,在香港(學界)一隻手數得晒(人數)。」為何?他觀察估計, 因為語音技術好難見到分別。
他直言,90年代幾個出色的學者都未能拿到終身教職,「但沒所謂,他們後來都到了微軟、蘋果做了高層。」雖然在大學「難撈」,但語音工程師在科企就十分搶手,「阿里巴巴閒閒地請一百個。」