,王曉峰文,大數據人工智能海難搜救生物醫學郵件過濾這些看起來相互不相關的領域之間有什麼聯繫謎底是它們都市用到統一個數學公式貝恭弘=叶 恭弘斯公式它雖然看起來很簡樸很不起眼但卻有着深刻的內在那麼貝恭弘=叶 恭弘斯公式是若何從默默無聞到現在普遍應用無所不能的呢,一什麼是貝恭弘=叶 恭弘斯公式,18世紀英國業餘數學家托馬斯貝恭弘=叶 恭弘斯ThomasBayes17021761提出過一種看上去似乎顯而易見的看法用客觀的新信息更新我們最初關於某個事物的信心后我們就會獲得一個新的改善了的信心這個研究功效由於簡樸而顯得清淡無奇直到他死後的兩年才於1763年由他的同夥理查德普萊斯輔助揭曉它的數學原理很容易明白簡樸說就是若是你看到一小我私人總是做一些好事則會推斷那小我私人多數會是一個好人這就是說當你不能準確知悉一個事物的本質時你可以依賴與事物特定本質相關的事宜泛起的若干去判斷其本質屬性的概率用數學語言表達就是支持某項屬性的事宜發生得愈多則該屬性確立的可能性就愈大與其他統計學方式差異貝恭弘=叶 恭弘斯方式確立在主觀判斷的基礎上你可以先估量一個值然後憑證客觀事實不停修正,1774年法國數學家皮埃爾西蒙拉普拉斯PierreSimonLaplace17491827自力地再次發現了貝恭弘=叶 恭弘斯公式拉普拉斯體貼的問題是當存在着大量數據但數據又可能有林林總總的錯誤和遺漏的時刻我們若何才氣從中找到真實的紀律拉普拉斯研究了男孩和女孩的生育比例有人考察到似乎男孩的出生數目比女孩更高這一假說到底確立不確立呢拉普拉斯不停地搜集新增的出生紀錄並用之推斷原有的概率是否準確每一個新的紀錄都削減了不確定性的局限拉普拉斯給出了我們現在所用的貝恭弘=叶 恭弘斯公式的表達,PABPBAPAPB,該公式示意在B事宜發生的條件下A事宜發生的條件概率即是A事宜發生條件下B事宜發生的條件概率乘以A事宜的概率再除以B事宜發生的概率公式中PA也叫做先驗概率PAB叫做后驗概率嚴酷地講貝恭弘=叶 恭弘斯公式至少應被稱為貝恭弘=叶 恭弘斯拉普拉斯公式,二默默無聞200年,貝恭弘=叶 恭弘斯公式現在已經異常盛行甚至在熱門美劇生涯大爆炸中謝耳朵也秀了一下但它真正獲得重視和普遍應用卻是最近二三十年的事其間被潛匿了200多年這是為什麼呢緣故原由在於我們有另外一種數學工具經典統計學或者叫頻率主義統計學我們在學校學的主要是這種統計學它在200多年的時間里一直显示不錯從理論上講它可以展現一切徵象發生的緣故原由既不需要構建模子也不需要默認條件只要舉行足夠多次的丈量隱藏在數據背後的緣故原由就會自動揭開面紗,在經典統計學看來科學是關於客觀事實的研究我們只要頻頻考察一個可重複的徵象直到積累了足夠多的數據就能從中推斷出有意義的紀律而貝恭弘=叶 恭弘斯方式卻要求科學家像算命先生一樣從主觀預測出發這顯然不相符科學精神就連拉普拉斯厥後也放棄了貝恭弘=叶 恭弘斯方式這一思緒轉向經典統計學由於他發現若是數據量足夠大人們完全可以通過直接研究這些樣原本推斷總體的紀律,打個譬喻來輔助我們明白這兩種統計學方式的區別若是我們想知道某個區域裏海拔最低的地方經典統計學的方式是首先舉行觀察取得區域內差異地方的海拔數據然後從中找出最低點這個數據量必須足夠多以反映區域內地形全貌的特徵這樣我們才氣信託找到的就是現實上的最低點而貝恭弘=叶 恭弘斯方式是我不管那裡最低就憑感受在區域內隨便選個地方最先走每一步都往下走雖然中央可能有一些曲折但信託這樣走早晚能夠到達最低點可以看出貝恭弘=叶 恭弘斯方式的要害問題是這個最終到達的低點可能不是真正的最低點而是某個相對低點它可能對該區域的地形碗型馬鞍形等和最初我們主觀選擇的起點有依賴性若是問題域是碗型的我們到達的就是最低點但若是是馬鞍形或者其他龐大麴面那麼我們到達的可能是多個相對低點極點中的一個而不是真正的最低點這是貝恭弘=叶 恭弘斯方式最受經典統計學方式詬病的緣故原由也是它在已往的200多年被雪藏的緣故原由所在,貝恭弘=叶 恭弘斯方式原理示意圖,,三初顯威力,耐久以來貝恭弘=叶 恭弘斯方式雖然沒有獲得主流學界的認可但實在我們經常會不自覺地應用它來舉行決議而且還異常有用好比炮兵在射擊時會使用貝恭弘=叶 恭弘斯方式舉行瞄準炮彈與子彈差異它的航行軌跡是拋物線瞄準的難度更大因此他們會先憑證盤算和履歷把炮管調整到一個可能擲中的瞄準角度先驗概率然後再憑證炮彈的現實落點舉行調整后驗概率這樣在經由23次射擊和調整后炮彈就能夠擲中目的了,在一樣平常生涯中我們也常使用貝恭弘=叶 恭弘斯方式舉行決議好比在一個生疏的地方找餐館用飯由於之前不領會哪家餐館恰似乎只能隨機選擇但現實上並非云云我們會憑證貝恭弘=叶 恭弘斯方式行使以往積累的履歷來提供判斷的線索履歷告訴我們通常那些坐滿了客人的餐館的食物要更鮮味些而那些客人寥寥的餐館食物可能不怎麼樣而且可能會被宰這樣我們就往往通過考察餐廳的上座率來選擇餐館就餐這就是我們憑證先驗知識舉行的主觀判斷在吃過以後我們對這個餐館有了更多現實的領會以後再選擇時就加倍容易了以是說在我們熟悉事物不周全的情形下貝恭弘=叶 恭弘斯方式是一種很好的行使履歷輔助作出更合理判斷的方式,而兩個標誌性的事宜在讓學術界最先重視貝恭弘=叶 恭弘斯方式上起到了主要作用,1聯邦黨人文集作者公案,1787年5月美國各州那時為13個代表在費城召開制憲集會1787年9月美國的憲法草案被分發到各州舉行討論一批否決派以反聯邦主義者為筆名揭曉了大量文章對該草案提出指斥憲法起草人之一亞歷山大漢密爾頓着急了他找到曾任外交國務秘書即厥後的國務卿的約翰傑伊以及紐約市國集會員麥迪遜一同以普布利烏斯Publius的筆名揭曉文章向民眾註釋為什麼美國需要一部憲法他們走筆如飛通常在一周之內就會揭曉34篇新的談論1788年他們所寫的85篇文章結集出書這就是美國歷史上著名的聯邦黨人文集,聯邦黨人文集出書的時刻漢密爾頓堅持匿名揭曉於是這些文章到底出自誰人之手成了一樁公案1810年漢密爾頓接受了一個政敵的決戰挑戰但出於基督徒的宗教信仰他決意不向對方開槍在決戰之前數日漢密爾頓自知時日不多他列出了一份聯邦黨人文集的作者名單1818年麥迪遜又提出了另一份作者名單這兩份名單並紛歧致在85篇文章中有73篇文章的作者身份較為明確其餘12篇存在爭議,1955年哈佛大學統計學教授FredrickMosteller找到芝加哥大學的年輕統計學家DavidWallance建議他跟自己一起做一個小課題他想用統計學的方式判定出聯邦黨人文集的作者身份,但這基本就不是一個小課題漢密爾頓和麥迪遜都是文章能手他們的文風異常靠近從已經確定作者身份的那部門文原本看漢密爾頓寫了94萬字麥迪遜寫了114萬字漢密爾頓每個句子的平均長度是3455字而麥迪遜是3459字就寫作氣概而論漢密爾頓和麥迪遜簡直就是一對雙胞胎漢密爾頓和麥迪遜寫這些文章用了約莫一年的時間而Mosteller和Wallance甄別出作者的身份花了10多年的時間,若何分辨兩人寫作氣概的細微差異並據此判斷每篇文章的作者就是問題的要害他們所接納的方式就是以貝恭弘=叶 恭弘斯公式為焦點的包羅兩個種其餘分類算法先挑選一些能夠反映作者寫作氣概的詞彙在已經確定了作者的文本中對這些特徵詞彙的泛起頻率舉行統計然後再統計這些詞彙在那些不確定作者的文本中的泛起頻率從而憑證詞頻的差異推斷其作者歸屬這實在和我們現在使用的垃圾郵件過濾器的原理是一樣的,他們是在沒有盤算機輔助的條件下用手工處置大數據這一工程的耗時耗力是可想而知的快要100個哈佛大學的學生輔助他們處置數據學生們用最原始的方式用打字機把聯邦黨人文集的文本打出來然後把每個單詞剪下來根據字母表的順序把這些單詞分門別類地搜集在一起有個學生幹得累了伸了個懶腰長長地呼了一口吻他這一口吻用力太猛一下子把剛剛歸置好的單詞條吹得如柳絮紛飛一屋子學生瞬間石化估量許多人連滅了他的心都有而這隻是手工大數據時代的一樣平常,Mosteller和Wallance這是要在乾草垛里找繡花針他們首先剔除掉用不上的詞彙好比聯邦黨人文集里經常談到戰爭立法權行政權等這些詞彙是因主題而泛起並不反映差異作者的寫作氣概只有像inanofupon這些介詞連詞等才氣显示出作者氣概的玄妙差異一位歷史學家美意地告訴他們有一篇1916年的論文提到漢密爾頓總是用while而麥迪遜則總是用whilst但僅僅有這一個線索是不夠的while和whilst在這12篇作者身份待定的文章里泛起的次數不夠多況且漢密爾頓和麥迪遜有時刻齊集寫一篇文章也保不齊他們會相互改文章要是漢密爾頓把麥迪遜的whilst都改成了while呢,當學生們把每個單詞的小紙條歸類粘好之後他們發現漢密爾頓的文章里平均每一頁紙會泛起兩次upon而麥迪遜險些一次也不用漢密爾頓更喜歡用enough麥迪遜則很少用其它一些有用的詞彙包羅thereon等等1964年Mosteller和Wallance揭曉了他們的研究功效他們的結論是這12篇文章的作者很可能都是麥迪遜他們最拿禁絕的是第55篇麥迪遜是作者的概率是2401,這個研究引起了極大的驚動但最受震撼的不是憲法研究者而是統計學家Mosteller和Wallance的研究把貝恭弘=叶 恭弘斯公式這個被統計學界禁錮了200年的幽靈從瓶子中釋放了出來,2天蠍號核潛艇搜救,2014年頭馬航MH370航班失聯所有人都親熱關注搜救的希望情形那麼我們是用什麼方式在茫茫大海中尋找失聯的飛機或者船隻的呢這要從天蠍號核潛艇提及,1968年5月美國水師的天蠍號核潛艇在大西洋亞速海海域突然失蹤潛艇和艇上的99名水師官兵所有杳無音信根據事後觀察講述的說法罪魁罪魁是這艘潛艇上的一枚新鮮的魚雷發射出去后竟然敵我不分扭頭射向自己讓潛艇中彈爆炸,為了尋找天蠍號的位置美國政府從海內召集了包羅多位專家的搜索軍隊前往現場其中包羅一位名叫JohnCraven的數學家他的頭銜是美國水師稀奇設計部首席科學家在征采潛艇的問題上Craven提出的方案使用了上面提到的貝恭弘=叶 恭弘斯公式他召集了數學家潛艇專家海事搜救等各個領域的專家每個專家都有自己善於的領域但並非通才沒有專家能準確估量到在失事前後潛艇到底發生了什麼有趣的是Craven並不是根據慣常的思緒要求團隊成員相互協商追求一個共識而是讓列位專家編寫了種種可能的劇本讓他們根據自己的知識和履歷對於情形會向哪一個偏向生上舉行預測並評估每種情境泛起的可能性聽說為了給死板的事情增添一些意見意義Craven還準備了威士忌酒作為投注準確的獎品,由於在Craven的方案中效果許多是這些專家以預測投票甚至可以說賭錢的形式獲得的不能能保證所有用果的準確性他的這一做法受到了許多偕行的質疑可是由於搜索潛艇的義務緊迫沒有時間舉行準確的實驗確立完整可靠的理論Craven的設施不失為一個可行的設施,由於失事時潛艇航行的速率快慢行駛偏向爆炸襲擊力的巨細爆炸時潛艇偏向舵的指向都是未知量縱然知道潛艇在那裡爆炸也很難確定潛艇殘骸最後被海水衝到那裡Craven大略估量了一下半徑20英里的圓圈內的數千英尺深的海底都是天蠍號核潛艇可能甜睡的地方要在這麼大的局限這麼深的海底找到潛艇險些成了不能能完成的義務,,Craven把列位專家的意見綜合到一起獲得了一張20英裏海域的概率圖整個海域被劃分成了許多個小格子每個小格子有兩個概率值p和qp是潛艇躺在這個格子里的概率q是若是潛艇在這個格子里它被搜索到的概率根據履歷第二個概率值主要跟海域的水深有關在深海區域搜索失事潛艇的漏網可能性會更大若是一個格子被搜索后沒有發現潛艇的蹤跡那麼根據貝恭弘=叶 恭弘斯公式這個格子潛艇存在的概率就會降低,,由於所有格子概率的總和是1這時其他格子潛艇存在的概率值就會上升,,每次尋找時先挑選整個區域內潛艇存在概率值最高的一個格子舉行搜索若是沒有發現概率漫衍圖會被洗牌一次征采船隻就會駛向新的最可疑格子舉行搜索這樣一直下去直到找到天蠍號為止,最初最先搜救時海武士員對Craven和其團隊的建議嗤之以鼻他們憑履歷估量潛艇是在爆炸點的東側海底但幾個月的搜索一無所獲他們才不得不聽從了Craven的建議根據概率圖在爆炸點的西側尋找經由幾回搜索潛艇果真在爆炸點西南方的海底被找到了,由於這種基於貝恭弘=叶 恭弘斯公式的方式在厥後多次搜救實踐中被樂成應用現在已經成為海難空難搜救的通行做法,2009年法航空難搜救的后驗概率漫衍圖,,2014馬航MH370失聯搜索區域,,與盤算機的連繫使貝恭弘=叶 恭弘斯公式偉大的適用價值進一步體現出來它不只為我們提供了一條全新的問題解決路徑帶來工具和理念的革命而且甚至可能是人類大腦自己的認知和構建方式敬請期待大數據背後的神秘公式下貝恭弘=叶 恭弘斯革命,參考文獻,1新發現雜誌2013年2月解密天下的方程式,2吳軍數學之美,3何帆先放一把火,4科學松鼠會死理性派是怎麼判斷漂亮女孩是不是獨身的,5統計之都創作小組失聯搜救中的統計數據剖析,投稿提供新聞線索轉載授權請聯繫商務互助事宜請聯繫,算卦八字准嗎(家人算命發現我和男友八字不合)
算卦入門看什麼書好(中國古代占卜十大經典名著)