所學在特教中的應用(電機與控制工程)

「電機與控制工程學系」所學在特教中的應用實例:「結合聲音與影像雙重輸入的語音辨識」(讀唇語)。

現今科技發展可說一日千里,每天都有新的東西被發明、改良、創新,這一切都是為了邁向更舒適健康的生活環境。科技生活中,大量機器取代人力,人們操作機器、藉由機器代為完成活動的機會越來越多,因此,「人性化的人機溝通介面」,一直是人類追求的夢想。尤其,對於周遭的身心障礙者,若能針對他們有更貼心的設計,一定會讓這些朋友享受到更多生活的便利!然而現有的人機介面,大多過於刻板、生硬,使人不易接近,只有少部份人使用,也因此限制了機器的應用範圍。近年來,有越來越多的研究人員嘗試將人類習慣的溝通方式(如語言、神情、姿態、手勢等)引進人機介面的設計與開發。

在這些方法中,「語音辨識」是到目前為止較為成功的技術。不過往往受環境影響頗大(ex. 背景噪音),常常會大幅降低語音辨識的正確性,因此使得應用範圍或方式受限。其原因在於傳統的語音辨識中,”講話者的聲音”為唯一資訊來源;但相關研究顯示,若欲在嘈雜環境中維持一定的語音辨識率,除了文法、語意等語言模型的輔助外,視覺輔助(唇語辨識)亦是一項重要判斷因素!另一方面,就算在靜音環境下,某些字可能在”聲音”上仍不易辨別,但在”唇形”上卻有較大差異!

因此,根據電控所學更能加以研究改良:建立一套線上(on-line)的語音辨識系統,其輸入資訊來源包括說話者的”聲音”及”唇形影像”,根據聲音及影像資料,分別有辨識結果產生;接著系統再依據噪音、混淆音等因素考量,整合這兩部份的辨識結果,做出最後的辨識判斷。因此,這套結合聲音與影像(視覺、聽覺、知覺整合)的辨識系統,將可大大降低以前容易辨識錯誤的機率,成為更人性化的溝通介面,同時也能為特殊身心障礙者提供更完善、更方便的服務。