知名百科  > 所屬分類  >  科技百科    百科詞條   

語音合成

語音合成是通過機(jī)械完成的、用電子方法產(chǎn)生人工聲音的技術(shù)。TTS技術(shù)(也稱為文本到語音轉(zhuǎn)換技術(shù))隸屬于語音合成。語音合成是由計算機(jī)自己生成的、或者從外部輸入可理解文本信息、流利的中文口語輸出技術(shù)。


目錄

基本結(jié)構(gòu) 編輯本段

1)語言學(xué)處理

它在文語轉(zhuǎn)換系統(tǒng)中起著重要的作用,主要模擬人類理解自然語言的過程、詞的切分、語法分析和語義分析使計算機(jī)能夠全面理解輸入的文本,并給出后兩部分所需的各種發(fā)音提示。

2)韻律處理

規(guī)劃合成語音的段特征,如音高、聲音長度和強(qiáng)度使合成的語音正確表達(dá)意思,聽起來更自然。

3)聲學(xué)處理

根據(jù)前兩部分處理結(jié)果的要求輸出語音,即合成語音。

??合成方法 編輯本段

1. 共 振 峰 合 成

----語 音 合 成 的 理 論 基 礎(chǔ) 是 語 音 生 成 的 數(shù) 學(xué) 模 型。該 模 型 語 音 生 成 過 程 是 在 激 勵 信 號 的 激 勵 下,聲 波 經(jīng) 諧 振 腔(聲 道),由 嘴 或 鼻 輻 射 聲 波。因 此,聲 道 參 數(shù)、聲 道 諧 振 特 性 一 直 是 研 究 的 重 點(diǎn)。在 圖1 所 示 的 某 一 語 音 的 頻 率 響 應(yīng) 圖 中,標(biāo) 有Fp1、Fp2、Fp3 … … 處 為 頻 率 響 應(yīng) 的 極 點(diǎn),此 時,聲 道 的 傳 輸 頻 率 響 應(yīng) 有 極 大 值。習(xí) 慣 上,把 聲 道 傳 輸 頻 率 響 應(yīng) 上 的 極 點(diǎn) 稱 之 為 共 振 峰,而 語 音 的 共 振 峰 頻 率(極 點(diǎn) 頻 率)的 分 布 特 性 決 定 著 該 語 音 的 音 色。

----音 色 各 異 的 語 音 具 有 不 同 的 共 振 峰 模 式,因 此,以 每 個 共 振 峰 頻 率 及 其 帶 寬 作 為 參 數(shù),可 以 構(gòu) 成 共 振 峰 濾 波 器。再 用 若 干 個 這 種 濾 波 器 的 組 合 來 模 擬 聲 道 的 傳 輸 特 性(頻 率 響 應(yīng)),對 激 勵 源 發(fā) 出 的 信 號 進(jìn) 行 調(diào) 制,再 經(jīng) 過 輻 射 模 型 就 可 以 得 到 合 成 語 音。這 就 是 共 振 峰 合 成 技 術(shù) 的 基 本 原 理?;?nbsp;于 共 振 峰 的 理 論 有 以 下 三 種 實(shí) 用 模 型。

級 聯(lián) 型 共 振 峰 模 型 在 該 模 型 中,聲 道 被 認(rèn) 為 是 一 組 串 聯(lián) 的 二 階 諧 振 器。該 模 型 主 要 用 于 絕 大 部 分 元 音 的 合 成。

----并 聯(lián) 型 共 振 峰 模 型 許 多 研 究 者 認(rèn) 為,對 于 鼻 化 元 音 等 非 一 般 元 音 以 及 大 部 分 輔 音,上 述 級 聯(lián) 型 模 型 不 能 很 好 地 加 以 描 述 和 模 擬,因 此,構(gòu) 筑 和 產(chǎn) 生 了 并 聯(lián) 型 共 振 峰 模 型。

----混 合 型 共 振 峰 模 型 在 級 聯(lián) 型 共 振 峰 合 成 模 型 中,共 振 峰 濾 波 器 首 尾 相 接;而 在 并 聯(lián) 型 模 型 中,輸 入 信 號 先 分 別 通 過 幅 度 調(diào) 節(jié) 再 加 到 每 一 個 共 振 峰 濾 波 器 上,然 后 將 各 路 的 輸 出 疊 加 起 來。將 兩 者 比 較,對 于 合 成 聲 源 位 于 聲 道 末 端 的 語 音(大 多 數(shù) 的 元 音),級 聯(lián) 型 合 乎 語 音 產(chǎn) 生 的 聲 學(xué) 理 論,并 且 無 需 為 每 一 個 濾 波 器 分 設(shè) 幅 度 調(diào) 節(jié);而 對 于 合 成 聲 源 位 于 聲 道 中 間 的 語 音(大 多 數(shù) 清 擦 音 和 塞 音),并 聯(lián) 型 則 比 較 合 適,但 是 其 幅 度 調(diào) 節(jié) 很 復(fù) 雜。基 于 此 種 考 慮,人 們 將 兩 者 結(jié) 合 在 一 起,提 出 了 混 和 型 共 振 峰 模 型。

事 實(shí) 上,上 述 三 種 共 振 峰 模 型 在 實(shí) 際 中 都 得 到 了 成 功 的 應(yīng) 用。例 如:Fant 的OVE 系 統(tǒng) 就 采 用 了 級 聯(lián) 型 的 共 振 峰 模 型;Holmes 合 成 器 采 用 的 是 并 聯(lián) 型 的 共 振 峰 模 型;而 最 為 典 型 也 是 最 為 成 功 的Klatt 合 成 器 則 構(gòu) 筑 在 混 合 型 共 振 峰 模 型 的 基 礎(chǔ) 之 上。

----在 漢 語 語 音 合 成 方 面,研 究 人 員 研 制 出 了 一 些 基 于 共 振 峰 模 型 的 成 功 的 應(yīng) 用 系 統(tǒng)。如 社 科 院 語 言 所 的 SIFS 合 成 器、中 科 院 聲 學(xué) 所 的KX 1 系 統(tǒng) 中 基 于Holmes 的 并 聯(lián) 型 共 振 峰 合 成 器 模 型,而 同 樣 由 中 科 院 聲 學(xué) 所 開 發(fā) 的 第 二 代 共 振 峰 合 成 器KX FSS 則 基 于Klatt 合 成 器。

----共 振 峰 模 型 是 基 于 對 聲 道 的 一 種 比 較 準(zhǔn) 確 的 模 擬,因 而 可 以 合 成 出 自 然 度 比 較 高 的 語 音,另 外 由 于 共 振 峰 參 數(shù) 有 著 明 確 的 物 理 意 義,直 接 對 應(yīng) 于 聲 道 參 數(shù),因 此,可 以 容 易 利 用 共 振 峰 描 述 自 然 語 流 中 的 各 種 現(xiàn) 象,并 且 總 結(jié) 聲 學(xué) 規(guī) 則,最 終 用 于 共 振 峰 合 成 系 統(tǒng)。

----但 是,人 們 同 時 也 發(fā) 現(xiàn) 該 技 術(shù) 有 明 顯 的 弱 點(diǎn)。首 先 由 于 它 是 建 立 在 對 聲 道 的 模 擬 上,因 此,對 于 聲 道 模 型 的 不 精 確 勢 必 會 影 響 其 合 成 質(zhì) 量。另 外,實(shí) 際 工 作 表 明,共 振 峰 模 型 雖 然 描 述 了 語 音 中 最 基 本 最 主 要 的 部 分,但 并 不 能 表 征 影 響 語 音 自 然 度 的 其 他 許 多 細(xì) 微 的 語 音 成 分,從 而 影 響 了 合 成 語 音 的 自 然 度。另 外,共 振 峰 合 成 器 控 制 十 分 復(fù) 雜,對 于 一 個 好 的 合 成 器 來 說,其 控 制 參 數(shù) 往 往 達(dá) 到 幾 十 個,實(shí) 現(xiàn) 起 來 十 分 困 難。

----基 于 這 些 原 因,研 究 者 繼 續(xù) 尋 求 和 發(fā) 現(xiàn) 其 他 新 的 合 成 技 術(shù)。人 們 從 波 形 的 直 接 錄 制 和 播 放 得 到 啟 發(fā),提 出 了 基 于 波 形 拼 接 的 合 成 技 術(shù),LPC 合 成 技 術(shù) 和PSOLA 合 成 技 術(shù) 是 其 中 的 代 表。與 共 振 峰 合 成 技 術(shù) 不 同,波 形 拼 接 合 成 是 基 于 對 錄 制 的 合 成 基 元 的 波 形 進(jìn) 行 拼 接,而 不 是 基 于 對 發(fā) 聲 過 程 的 模 擬。

LPC 參 數(shù) 合 成

----波 形 拼 接 技 術(shù) 的 發(fā) 展 與 語 音 的 編、解 碼 技 術(shù) 的 發(fā) 展 密 不 可 分,其 中LPC 技 術(shù)(線 性 預(yù) 測 編 碼 技 術(shù))的 發(fā) 展 對 波 形 拼 接 技 術(shù) 產(chǎn) 生 了 巨 大 的 影 響。

----LPC 合 成 技 術(shù) 本 質(zhì) 上 是 一 種 時 間 波 形 的 編 碼 技 術(shù),目 的 是 為 了 降 低 時 間 域 信 號 的 傳 輸 速 率。

----對 于 利 用LPC 合 成 技 術(shù) 來 進(jìn) 行 漢 語 語 音 合 成 和 漢 語 文 語 轉(zhuǎn) 換 的 研 究,中 科 院 聲 學(xué) 所 在 這 方 面 做 了 大 量 的 工 作。1987 年,他 們 引 進(jìn) 了 多 脈 沖 激 勵LPC 技 術(shù),1989 年 又 引 入 矢 量 量 化,之 后,1993 年,他 們 引 入 碼 激 勵 技 術(shù),他 們 的 這 些 工 作 對 于LPC 合 成 技 術(shù) 在 漢 語 合 成 方 面 的 運(yùn) 用 做 出 了 重 要 的 貢 獻(xiàn)。

----LPC 合 成 技 術(shù) 的 優(yōu) 點(diǎn) 是 簡 單 直 觀。其 合 成 過 程 實(shí) 質(zhì) 上 只 是 一 種 簡 單 的 解 碼 和 拼 接 過 程。另 外,由 于 波 形 拼 接 技 術(shù) 的 合 成 基 元 是 語 音 的 波 形 數(shù) 據(jù),保 存 了 語 音 的 全 部 信 息,因 而 對 于 單 個 合 成 基 元 來 說 能 夠 獲 得 很 高 的 自 然 度。

----但 是,由 于 自 然 語 流 中 的 語 音 和 孤 立 狀 況 下 的 語 音 有 著 極 大 的 區(qū) 別,如 果 只 是 簡 單 地 把 各 個 孤 立 的 語 音 生 硬 地 拼 接 在 一 起,其 整 個 語 流 的 質(zhì) 量 勢 必 是 不 太 理 想 的。而LPC 技 術(shù) 從 本 質(zhì) 上 來 說 只 是 一 種 錄 音 + 重 放,對 于 合 成 整 個 連 續(xù) 語 流LPC 合 成 技 術(shù) 的 效 果 是 不 理 想 的。因 此,LPC 合 成 技 術(shù) 必 須 和 其 他 技 術(shù) 相 結(jié) 合,才 能 明 顯 改 善LPC 合 成 的 質(zhì) 量。

----一 種 典 型 的 基 于 單 音 節(jié) 和VQLPC(矢 量 量 化 的LPC)技 術(shù) 的 文 語 轉(zhuǎn) 換 系 統(tǒng) 原 理 。

2. PSOLA 合 成 技 術(shù)

----20 世 紀(jì)80 年 代 末 提 出 的PSOLA 合 成 技 術(shù)(基 音 同 步 疊 加 技 術(shù))給 波 形 拼 接 合 成 技 術(shù) 注 入 了 新 的 活 力。PSOLA 技 術(shù) 著 眼 于 對 語 音 信 號 超 時 段 特 征 的 控 制,如 基 頻、時 長、音 強(qiáng) 等 的 控 制。而 這 些 參 數(shù) 對 于 語 音 的 韻 律 控 制 以 及 修 改 是 至 關(guān) 重 要 的,因 此,PSOLA 技 術(shù) 比LPC 技 術(shù) 具 有 可 修 改 性 更 強(qiáng) 的 優(yōu) 點(diǎn),可 以 合 成 出 高 自 然 度 的 語 音。

----PSOLA 技 術(shù) 的 主 要 特 點(diǎn) 是:在 拼 接 語 音 波 形 片 斷 之 前,首 先 根 據(jù) 上 下 文 的 要 求,用PSOLA 算 法 對 拼 接 單 元 的 韻 律 特 征 進(jìn) 行 調(diào) 整,使 合 成 波 形 既 保 持 了 原 始 發(fā) 音 的 主 要 音 段 特 征,又 能 使 拼 接 單 元 的 韻 律 特 征 符 合 上 下 文 的 要 求,從 而 獲 得 很 高 的 清 晰 度 和 自 然 度。

----如 何 將PSOLA 技 術(shù) 應(yīng) 用 于 漢 語 文 語 轉(zhuǎn) 換 系 統(tǒng),國 內(nèi) 許 多 學(xué) 校 和 科 研 單 位 對 此 進(jìn) 行 了 大 量 廣 泛 深 入 的 研 究。清 華 大 學(xué)、北 方 交 大、中 科 院 聲 學(xué) 所 等 在 對PSOLA 技 術(shù) 研 究 的 基 礎(chǔ) 上,先 后 開 發(fā) 出 了 基 于 波 形 拼 接 的 漢 語 文 語 轉(zhuǎn) 換 系 統(tǒng),并 且 對 于 如 何 進(jìn) 一 步 完 善 該 技 術(shù),如 何 進(jìn) 一 步 改 善 合 成 語 音 的 自 然 度 等 都 提 出 了 一 些 具 體 措 施。

----PSOLA 技 術(shù) 保 持 了 傳 統(tǒng) 波 形 拼 接 技 術(shù) 的 優(yōu) 點(diǎn),簡 單 直 觀,運(yùn) 算 量 小,而 且 還 能 方 便 地 控 制 語 音 信 號 的 韻 律 參 數(shù),具 有 合 成 自 然 連 續(xù) 語 流 的 條 件,得 到 了 廣 泛 的 應(yīng) 用。

----但 是,PSOLA 技 術(shù) 也 有 其 缺 點(diǎn)。首 先, PSOLA 技 術(shù) 是 一 種 基 音 同 步 的 語 音 分 析/ 合 成 技 術(shù),首 先 需 要 準(zhǔn) 確 的 基 因 周 期 以 及 對 其 起 始 點(diǎn) 的 判 定?;?nbsp;音 周 期 或 其 起 始 點(diǎn) 的 判 定 誤 差 將 會 影 響PSOLA 技 術(shù) 的 效 果。其 次,PSOLA 技 術(shù) 是 一 種 簡 單 的 波 形 映 射 拼 接 合 成,這 種 拼 接 是 否 能 夠 保 持 平 穩(wěn) 過 渡 以 及 它 對 頻 域 參 數(shù) 有 什 么 影 響 等 并 沒 有 得 到 解 決,因 此,在 合 成 時 會 產(chǎn) 生 不 理 想 的 結(jié) 果。

LMA 聲 道 模 型

----隨 著 人 們 對 語 音 合 成 的 自 然 度 和 音 質(zhì) 的 要 求 越 來 越 高,PSOLA 算 法 表 現(xiàn) 出 對 韻 律 參 數(shù) 調(diào) 整 能 力 較 弱 和 難 以 處 理 協(xié) 同 發(fā) 音 的 缺 陷,因 此,人 們 又 提 出 了 一 種 基 于LMA 聲 道 模 型 的 語 音 合 成 方 法。這 種 方 法 具 有 傳 統(tǒng) 的 參 數(shù) 合 成 可 以 靈 活 調(diào) 節(jié) 韻 律 參 數(shù) 的 優(yōu) 點(diǎn),同 時 又 具 有 比PSOLA 算 法 更 高 的 合 成 音 質(zhì)。

----目 前,主 要 的 語 音 合 成 技 術(shù) 是 共 振 峰 合 成 技 術(shù) 和 基 于PSOLA 算 法 的 波 形 拼 接 合 成 技 術(shù)。這 兩 種 技 術(shù) 各 有 所 長,共 振 峰 技 術(shù) 比 較 成 熟,有 大 量 的 研 究 成 果 可 以 利 用,而 PSOLA 技 術(shù) 則 是 比 較 新 的 技 術(shù),具 有 良 好 的 發(fā) 展 前 景。

----過 去 這 兩 種 技 術(shù) 基 本 上 是 互 相 獨(dú) 立 發(fā) 展 的,現(xiàn) 在 許 多 學(xué) 者 開 始 研 究 它 們 兩 者 之 間 的 關(guān) 系,試 圖 將 兩 者 有 效 地 結(jié) 合 起 來,從 而 合 成 出 更 加 自 然 的 語 流。例 如 清 華 大 學(xué) 的 研 究 人 員 進(jìn) 行 了 將 共 振 峰 修 改 技 術(shù) 應(yīng) 用 于PSOLA 算 法 的 研 究,并 用 于Sonic 系 統(tǒng) 的 改 進(jìn),研 制 出 了 具 有 更 高 自 然 度 的 漢 語 文 語 轉(zhuǎn) 換 系 統(tǒng)。

3. 基于隱馬爾可夫模型的語音合成

近年來,基于隱馬爾可夫模型(HMM)的語音合成系統(tǒng)得到廣泛的重視和應(yīng)用。與一直以來語音合成方法的主流――基于大語料庫的拼接合成方法相比,基于隱馬爾可夫模型的語音合成系統(tǒng)優(yōu)勢在于系統(tǒng)結(jié)構(gòu)簡單,基本不需要任何語言學(xué)知識指導(dǎo)系統(tǒng)訓(xùn)練,構(gòu)建時間短,構(gòu)建過程基本不需要人工干預(yù),而由于系統(tǒng)屬于參數(shù)化合成方法,系統(tǒng)的合成結(jié)果靈活多變,可以很容易的應(yīng)用于多個發(fā)音人,多種發(fā)音風(fēng)格,多種情感表達(dá)的需求中。

基于HMM的語音合成方法主要分為兩個階段:訓(xùn)練階段和合成階段。首先對用于訓(xùn)練的語料進(jìn)行參數(shù)提?。òl譜參數(shù)和基頻參數(shù),本文用到的頻譜參數(shù)為LSP線性頻譜對參數(shù))。HMM的觀察向量可分為譜參數(shù)和基頻參數(shù)兩個部分,其中譜參數(shù)部分采用連續(xù)概率分布HMM進(jìn)行建模,基頻部分采用多空間概率分布HMM(MSD-HMM)進(jìn)行建模。在合成階段,首先對給定的待合成文本進(jìn)行上下文分析,并將文本轉(zhuǎn)換成模型的單元序列。然后根據(jù)基于HMM語音合成方法的參數(shù)生成算法,同時考慮語音參數(shù)的靜態(tài)參數(shù)和動態(tài)參數(shù),得到連續(xù)的目標(biāo)語音參數(shù)序列,最后通過語音合成器合成出待合成語音。

基于HMM的語音合成方法雖然有系統(tǒng)易小型化、靈活多變等特點(diǎn),但是和傳統(tǒng)的拼接合成相比,還是有音質(zhì)下降的缺點(diǎn)。傳統(tǒng)的拼接合成方法由于是將真實(shí)的語音片段通過選音算法拼接在一起所以保留了原始語音片斷的音質(zhì)。而基于HMM的語音合成方法和其他的參數(shù)化語音合成方法一樣,通過了一次語音編碼解碼的過程,不可避免的會造成合成音質(zhì)的下降。另外,在HMM參數(shù)估計的過程中的統(tǒng)計方法使得頻譜參數(shù)趨于平均化;同時,由于模型自身拓?fù)浣Y(jié)構(gòu)的限制,模型對頻譜參數(shù)在時域方向變化的描述也存在局限性。這兩種在頻譜參數(shù)層上導(dǎo)致合成語音音質(zhì)下降的現(xiàn)象本文稱之為頻域過平滑和時域過平滑。

為了解決這些問題,我們提出了基于離散HMM和連續(xù)HMM相結(jié)合的思路,這種方法在保持系統(tǒng)靈活性的同時,最大限度的保留了語音的聲學(xué)特征,使得語音合成結(jié)果基本接近大語料的語音合成系統(tǒng)的清晰度。這一方法的合成結(jié)果不僅要優(yōu)于傳統(tǒng)HTS的合成結(jié)果,而且能夠有效的在各種應(yīng)用場合進(jìn)行實(shí)際應(yīng)用。

附件列表


2

詞條內(nèi)容僅供參考,如果您需要解決具體問題
(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域?qū)I(yè)人士。

如果您認(rèn)為本詞條還有待完善,請 編輯

上一篇 遺傳編程    下一篇 2023年開創(chuàng)全新賽道·公益招募賽事承辦單位

標(biāo)簽

同義詞

暫無同義詞
精品国精品国产久自在,亚洲色欧在线影院,国产av日产亚洲,中文日韩欧免费精品视频 www.sucaiwu.net