相關新聞

AI語音助理 幕後英雄

AI語音助理 幕後英雄

圖/米各

文/檸檬

大家跟語音助理聊天過嗎?有沒有想過,為什麼Siri、Google助理,這些語音助理能夠用如此自然的聲音跟我們對話呢?這背後可有一位數學大咖在幫忙喔!它的名字叫「機率論」,顧名思義,就是研究事情發生可能性的學問。

使用機率  語音合成

想像一下,如果我說:「明天可能會下雨」,這裡的「可能」就跟機率有關。如果我更具體的說:「明天火車誤點的機率是70%」,這就是在用數字,也就是數學來表達火車誤點的可能性。在日常生活中,其實經常使用機率,例如:我估計考試及格的可能性是80%、這次公司尾牙抽獎中頭獎的機會是千分之一等。

那麼,機率是如何讓語音助理說話的呢?這個過程叫做「語音合成」,就是把文字變成聲音。如果你是一個語音助理,突然收到一則文字訊息:「今天天氣真好」,要怎麼把這則訊息變成聲音呢?

語音合成的過程大致如下:
分析文字:首先,機器會把這句話拆開,變成「今天」、「天氣」、「真好」這幾個詞。
選擇發音:對於每個詞,機器會從它的「語音庫」中選擇最合適的發音。
連接音素:機器需要把音素(發音最小單位)連結在一起,形成完整句子。
調整語調:最後,經由調整語調,讓句子聽起來自然流暢。

資料選擇 3種合成

我們來看個範例,如果語音助理要說出「我喜歡吃蘋果」這句話。對於「蘋果」這個詞,假設我們的語音庫中有3種不同的發音:

發音A:「我喜歡吃蘋果」——日常對話。
發音B:「蘋果公司發表了新產品」—— 新聞。
發音C:「蘋果樹開花了」——描述 植物。

語音助理該如何選擇呢?這時候,機率論就派上用場了,假設根據大量的語言資料分析:

在日常對話中使用發音A的機率是80%。
在談論科技新聞時使用發音B的機率是70%。
在描述植物時使用發音C的機率是90%。

對於「我喜歡吃蘋果」這句話,顯然是日常對話場景,所以語音助理會選擇發音A,因為這種場景的機率最高。在語音合成中,科學家們經常使用一種叫做「機率圖」的工具。想像一下,你正在玩一個迷宮遊戲,在迷宮的每個轉角,每個方向都有不同的機率讓你找到出口。

在語音合成的「迷宮」中,每個轉角代表一個音素,不同的路徑代表不同的發音方式,而機率則決定了應該選擇哪條路徑。語音助理的任務就是在「迷宮」中找到最可能的路徑,也就是聽起來最自然的發音方式。

你可能會問:「每次都會選擇機率最高的發音嗎?」聰明的問題!為了讓語音聽起來更自然,科學家們在語音合成中加入「隨機性」。偶爾選擇機率稍低的發音,反而讓整體語音聽起來更自然唷。

在語音助理的背後,機率論正在默默的發揮著神奇的力量。它幫助機器理解語言的規律,讓人工智慧可以用自然的方式與我們交流。所以,數學真的無所不在唷!

17 12 2024

Email:newsmaster@merit-times.com.tw

Tel:+886-2-8787-7828

台北市信義區松隆路327號五樓

Design by BLC

人間福報官網
學生園地
班級登入