很多中學老師認為高考題目是可以預測的,他們聲稱自己能感覺到出題的趨勢,并且在考前幫著學生押題。我上學的時候總覺得押題是個不靠譜的事,難道出題的人沒有自由意志嗎?事實是,我們都沒有自由意志。

百度最近出了個新東西,“百度預測”,目前提供針對世界杯、城市、景點和高考四大項目的預測。

尤其在高考方面,百度通過數據分析認為[1]2014年高考作文題目將會出現在“時間的饋贈”、“生命的多彩”等六個領域之中,并且給出了各領域命中的精確概率。直接告訴你高考作文題是什么當然不可能,但是有了這個范圍,學生們需要準備的話題就從無限多變成有限多了。百度說這個預測是“基于海量作文范文和搜索數據”。各領域下列舉的作文題目關鍵詞,比如“時間的饋贈”中的關鍵詞包括“記憶”、“未來”、“成長”、“忘記”等,都是中學生作文的常用詞。

也就是說,百度用數據分析預測出來的高考作文題,都是最常見的作文題,都是俗套。換句話說,用數據分析搞預測的隱含假設是未來事件會繼續落入最近流行的俗套。
可是高考出題的人有必要尊重俗套嗎?難道出《讓未來記住今天》或者《守住心靈的那扇門》這種俗不可耐的題目不是可恥的嗎?在回答這個問題之前我們先研究一個更大的問題:到底什么樣的東西是可預測的,什么樣的東西是不可預測的。
最近幾年美國出了一位預測牛人,Nate Silver。美國人很喜歡體育數據,有些棒球雜志上更是連篇累牘全是各種細致的數據。Silver基于統計模型,自己搞了個軟件來通過分析職業棒球的數據去預測各個球員未來的表現。結果他的預測結果超越了所有最有經驗的球探。不但如此,他的政治預測成績更令人瞠目結舌。2008年大選,對各州總統選舉結果,50個州Silver預測對了49個;對35個參議員席位,Silver全部命中。更關鍵的是,他的預測跟政治專家的預測相差極大——事實證明聽專家的遠遠不如聽數據分析的。Silver 2012年出了本書,The Signal and the Noise(《信號與噪聲》),談預測的學問。
Silver在書里說,你別看我預測水平高,其實我預測的東西是容易預測的。比如說棒球,我們都知道這個比賽相當沉悶外行看著感覺一點都不熱鬧。棒球的特點恰恰是運動員具有相當的獨立性。一個球員的水平是什么樣就是什么樣,他對球隊的貢獻非常穩定,并不怎么依賴隊友的發揮和對手的表現,場上的隨機因素也比較少。相對而言足球就不是這樣,一個球員水平再高也得依賴隊友、教練和對手,甚至包括裁判,有時候一著不慎滿盤皆輸。
關鍵在于,像棒球這樣的簡單系統,里面沒有連鎖反應。我們都聽過一個笑話說拿破侖之所以在滑鐵盧戰敗是因為他穿了緊身褲。緊身褲導致拿破侖得了痔瘡。痔瘡導致他在戰斗的關鍵時刻未能居中指揮……這就是連鎖反應。連鎖反應通常是正反饋的過程,每一環帶來的破壞都可能比上一環更大,而且都可能直接激發下一環。對預測者來說更麻煩的是這種反應充滿偶然,大多數情況下反應不了幾環就會終止,有時候卻可能導致大麻煩。
簡單的系統容易預測,因為一個個體哪怕出點預測范圍以外的波動,對整個系統也不會有大影響。而如果一個系統中包含各種正反饋機制,它就是不好預測的復雜系統,一個個體的小波動就有可能通過連鎖反應層層放大出現蝴蝶效應。比如現代金融體制就是一個復雜系統。地產下跌可能會導致人們還不起房貸,房貸還不上會導致銀行受不了,銀行一收緊信貸其它行業又受不了,最后可能就是大規模的金融危機。Silver說,那些信用評級機構,給這個評個AAA,給那個評個AA+,這些所謂評級都是根據市場“正常”情況下的數據分析而來,可是一旦發生連鎖反應,市場就不正常了,你的那些數據就根本沒用!復雜系統,是可能出“黑天鵝”的系統。
“黑天鵝”這個比喻的發明人 Nassim Nicholas Taleb 有個思想很有意思[2]。他說自然本來就是個復雜系統,它的本性其實是充滿波動的,時不時就會出點事 — 可是現代化的政府機構卻總是謀求讓社會能夠穩定地運行。Taleb認為時不時出點小事其實是可以鍛煉人的;你如果一味追求人為的穩定,最后反而可能會讓整個系統變得脆弱,一旦維持不了穩定就會出大事。
我們不管Taleb后面一句話對不對,單論“政府機構謀求穩定”這一點,那是絕對沒錯。
那么高考是個簡單系統還是復雜系統?當然是簡單系統!搞預測的人最怕黑天鵝,高考出題者更怕黑天鵝。高考的任務并不是探索先進文化,而是給大學招生。這個任務甚至不是給最好的大學招天才學生,而是給全國所有大學招各種水平的學生。每個考區只有一套試題,不管你報考的是北京大學中文系還是三峽大學科技學院,你都要面對同樣的作文題。
在這種情況下出題者必須讓所有人都能有所發揮。他們不會讓你談對烏克蘭局勢的看法,也不會像法國高考那樣讓你分析笛卡爾著作[3],否則對那些只想上個普通大學將來謀個普通工作的學生是不公平的。學生水平不一之外,還必須考慮各地文化氛圍也不一樣,邊遠地區的孩子可能跟本沒看過美劇,這種情況下出題可以涉及《非誠勿擾》,而絕不可能涉及《24小時》。我國古代科舉考試出題范圍只限于四書五經,也是這個道理。
不能考太深,不能考太廣,出題者還剩下多少選擇?在出題者和考生之間只有單向關系,出題者不需要什么反饋,更不需要正反饋!他們要確保那些稍微聰明一點用功一點的孩子都能考上,把偶然因素降到最低。他們最不想看到的就是一道標新立異的作文題激發社會的強烈反響,他們決不允許任何事故。他們完全不指望用高考題促進社會進步,也不打算通過出題讓自己青史留名。他們的使命就是給不確定的世界增加一點確定性。
所以他們必然訴諸俗套。俗套最安全。數據分析指向哪里,他們就打向哪里。
那么面對一道俗套的作文題,你應該怎么寫作文呢?答案是寫俗套的作文。高考不是施展寫作才華的地方,你有才華閱卷人也看不出來。事實上何止是高考,就連美國中學的英文課老師,也看不出來真正的好作品。列納德·蒙洛迪諾是一位非常著名的科普作家,他跟霍金合寫了《時間簡史》和《大設計》。蒙洛迪諾有一次替自己十五歲的兒子寫了一篇作文,交上去結果只得了A-[4]。他震驚之余問了另一位作家朋友,那人經常在紐約時報之類的地方發表文章,給女兒寫作文卻只得了個B。
你知道閱卷老師讀完一份作文并且給出評分總共用長時間嗎?十分鐘?五分鐘?兩分鐘?答案是新手50秒,老手34秒[5]!在這么短的時間內沒人會品評你的美句,沒人會研究你的新思想,你真寫一篇驚世駭俗的策論出來最大可能性是閱卷者沒看懂直接給個低分。在這個機械化的業務中誰也別指望出奇制勝 — 除非你古文寫得好,那可能另當別論,古文的確一眼就能被看出來,也許老師們會樂于在枯燥的閱卷工作中拿你的文章消遣一下。如果你熱愛寫作可以沒事在網上寫寫,高考作文是個拿點經驗值趕緊走人的項目。
所以如果百度能掌握到像職業棒球那樣全面的數據,它就不但能預測作文題,還能根據題目和平時習作成績預測每個學生的作文得分!
如果你覺得這種作文考試非常可悲,我要說的就是現實比這個還可悲。在高考中出題人的追求是“好使”,而受眾則大多是俗人,雙方都沒有什么創新的需求。還有什么項目也是這種局面呢?
比如說娛樂業。超人蜘蛛人蝙蝠俠鋼鐵俠,好萊塢為什么翻來覆去總拍這些老超級英雄的故事?難道不應該經常推陳出新嗎?因為這些人物的故事好使。這是一項完全成熟的業務,觀眾知道自己花錢買票能得到什么,好萊塢也知道這么拍一定會獲得穩定的回報。觀眾和電影制作者達成默契,誰也不用擔心誰。一個電影的投資規模越大,它的劇情就越俗套,大制作常常甚至干脆重拍一個所有人都知道的故事,因為大投入要求更小的風險。
俗套好使!所以越流行的東西常常越俗套,這就是為什么真正的文藝青年都以不愛流行文化為榮。汪峰能泡章子怡肯定夠酷吧?可是有人統計了汪峰在大陸發行的9張專輯共117首歌曲的歌詞[6],發現其用詞大量重復:“愛”出現54次,“生命”出現50次,“碎”和“路”各37次,“哭”35次,“孤獨”34次。從他有限的詞匯表里隨便選幾個詞就能組合成一句汪峰風格的歌詞,比如“不再迷惘的生命,被燃碎了千萬次,也依然堅強。”誰說數據分析不能創作藝術?

汪峰人稱“浪子”—— 這個詞的字面涵義似乎就是行為不可預測,但事實證明汪峰老師除了感情生活經常給人驚喜,其他方面還是很好預測的。
注釋:
[1] 百度預測之【高考作文預測】
[2] 這些思想在他的Antifragile(《反脆弱》)一書中有很詳細的解釋。
[3]圍觀法國高考作文題培養真正的思辨能力
[4] 此事見 The Drunkard’s Walk一書。
[5] 百度文庫,高考作文閱卷老師心得
[6] 這篇流傳很廣的文章叫《怎樣快速寫出一首汪峰老師風格的歌曲》,作者不詳,最早可能發表在水木社區。
0 篇文章
如果覺得我的文章對您有用,請隨意打賞。你的支持將鼓勵我繼續創作!