動態時間扭曲(DTW)涉及一種計算方法,稱為算法,用于比較聲音、視頻和圖形,這些聲音、視頻和圖形可能相似,但它們的樣本可能存在細微差異。這種計算通常會形成樣本的線性表示,并將差異作為時間的函數進行測量。樣本的不同元素...
動態時間扭曲(DTW)涉及一種計算方法,稱為算法,用于比較聲音、視頻和圖形,這些聲音、視頻和圖形可能相似,但它們的樣本可能存在細微差異。這種計算通常會形成樣本的線性表示,并將差異作為時間的函數進行測量。樣本的不同元素可以映射到網格上以識別相似性,而函數的命令通常使用符號來識別每個變量。例如,語音識別有時使用動態時間扭曲來匹配單詞,即使是以不同的速度或特定的部分說話發音不同。許多sppech識別程序使用動態計時,因為人們經常以不同的速率說話。許多語音識別程序使用動態時間扭曲,因為人們經常以不同的速率說話。某些元音可能會根據情緒或其他因素發出不同的聲音。有些程序無論是誰在說話,都能識別出所說的單詞,因此,將時間間隔中的距離相加來比較聲音通常是不有效的;這些距離是在一個從左下角到右上角的網格上計算的。兩個樣本對應部分的相似性可以用Levenshtein距離來測量。字母用來表示一個源和另一個源之間的變化。算法的解通常是一個較大的數字,數值越不同有兩個例子。這個概念通常用于語音識別、拼寫檢查和遺傳物質分析。在某些測量中,頻率變化可以抵消動態時間扭曲的能力。信號的計算方法可以使信號的形式與頻率無關調制信號也會帶來問題,但是計算線段之間的距離而不是點之間的距離的網格可以進行補償。序列對齊通常是數學的,需要一些計算機編程技能才能完全理解它。動態時間扭曲算法依賴于一些基本條件,以便實際計算音頻或視頻之間的差異示例。將樣本視為沿網格的路徑,該算法通常遵循以下規則,例如路徑不能返回,并且一次測量一步。除了從左下角到右上角的格式,測量僅限于靠近對角線的位置。太陡或太淺的值通常被忽略,因為它們會在最終測量中造成誤差
-
發表于 2020-08-07 02:26
- 閱讀 ( 2303 )
- 分類:電腦網絡