過于敏感的麥克風可能會產生語音信息,這對語音來說很困難破譯識別軟件。最基本的語音識別問題之一是使用的輸入設備的質量。如果麥克風不夠靈敏或過于敏感,那么它會產生對軟件來說很難破譯的音頻信息。尤其是當麥克風如此敏感以至于語音失真時,使識別軟件幾乎無用。一個類似的問題源于背景噪聲,背景噪聲可能難以從主語音中分離出來,并且當包含在語音處理中時可能導致不準確的翻譯語音、口音和說話節奏的差異結合在一起,形成了一個更普遍的語音識別問題。當一個單詞可以以多種方式發音時,軟件可能會變得混亂并曲解所說的話。當一個人說話的速度比程序預期的慢或快時,也會出現同樣的情況是一些局部的解決方案,例如在軟件中訓練單個用戶的語音模式,并使用動態時間扭曲算法將語音與樣本數據庫相匹配,但它們并不能解決所有的問題語音識別問題是識別所說單詞的上下文。計算機軟件無法識別單詞集合的預期含義,從而導致轉錄文本出現許多問題。只有當上下文用法是已知的。出于同樣的原因,精確的標點符號對于軟件來說幾乎不可能僅僅基于知道單詞的順序來放置。有一些功能性的轉錄軟件被用于醫學等領域,但是結果往往是沒有任何類型的分離的一塊單詞,這意味著仍然需要一個人類轉錄師來編輯文檔并創建一個可讀的最終副本
0 篇文章
如果覺得我的文章對您有用,請隨意打賞。你的支持將鼓勵我繼續創作!