頻率表是一種定量語言分析的工具,它列出了在選定的文本塊中出現的所有事物及其發生的頻率。語言分析是一個跨學科的領域,研究語言的結構及其使用方式。它結合了人類學、數學、計算機科學和邏輯學的元素,語言分析用于機械...
頻率表是一種定量語言分析的工具,它列出了在選定的文本塊中出現的所有事物及其發生的頻率。語言分析是一個跨學科的領域,研究語言的結構及其使用方式。它結合了人類學、數學、計算機科學和邏輯學的元素,語言分析用于機械翻譯等項目,密碼學和古代文字的破譯。

象形文字的第一次翻譯涉及頻率比較。頻率列表可以是單詞或字母的列表。字母頻率通常用于密碼學中。最簡單的代碼之一是替代密碼,每一個字母都被另一個字母或符號替換。例如,消息"拂曉攻擊"可能被編碼為"zoozhl-zo-azqp"。替換密碼的好處是它們不需要碼本,但缺點是可以通過比較消息中字母和字母組合的頻率來破解它們頻率表是定量語言分析的工具。在亞瑟·柯南·道爾的《舞男歷險記》中,虛構的偵探夏洛克·福爾摩斯利用頻率分析破解了一個替代密碼,代碼制作者嘗試了各種各樣的技巧,用頻率列表使他們的密碼更難破解:滾動密碼,其中使用的替換取決于字母在消息中的位置,消除或編碼空格,從而無法使用單詞頻率,保持信息簡短,避免使用預期的單詞,這樣破譯者就沒有足夠的樣本用于頻率分析最終,任何密碼都可以用足夠大的樣本來破解,這就是為什么更復雜的加密協議已經成為標準。單詞和詞類的頻率列表也被用于古代語言研究中。19世紀20年代,讓-弗朗索瓦·查波利安翻譯了《羅塞塔石》時,他的研究過程混合使用頻率比較和音譯來拼湊象形文字。研究表明,對于古代語言,和現代英語一樣,1500至2000個單詞的核心詞匯涵蓋了普通文本的85%至90%,這一水平允許讀者根據上下文擴大詞匯量Zipf定律是以哈佛大學語言學教授喬治·金斯利·齊普夫命名的,它是對頻率等級行為的實證觀察,它指出事件的頻率與事件的排名成反比,事件通常是語言頻率列表中的一個單詞或字母,但是Zipf定律已經被推廣到其他現象,如城市人口和企業收入。頻率列表是項目中幫助計算機理解口頭和書面語言的重要工具。機械翻譯(使用計算機將文檔從一種語言翻譯成另一種語言)就是一個例子另一個例子是沃森,這臺自然語言超級計算機在電視游戲節目《危險邊緣》中以參賽者的身份亮相!在2011年2月。單詞和用法類型的頻率都被整合到他們的編程中,作為尋找意義的工具。