看了這些書,可以成為大數(shù)據(jù)高手嗎
首要聲明一點(diǎn),千萬不要認(rèn)為看了這篇文章就能變成大數(shù)據(jù)高手了,否則就不會(huì)用“修煉”這個(gè)詞了,要修煉成大數(shù)據(jù)高手決不是件簡單的事,可以說是十分難的一件事。要不也不會(huì)連大數(shù)據(jù)發(fā)源地——美國也不超出10自己(或許就5、6個(gè))能到達(dá)這個(gè)層次,在我國……算了,就不說了。
這篇文章實(shí)際是給你指一條過程異常艱辛,但前途異常光明的路。沒有毅力的人,看看就好了,千萬別認(rèn)真。(說實(shí)在的,就算要看明白這篇文章,也都不是件容易的事。)
言歸正傳。要想成為大數(shù)據(jù)高手,首先要從理念上徹底轉(zhuǎn)變,徹底理解大數(shù)據(jù)思維,并滲透到血液和骨髓中,否則是不可能成為高手的。換句話說,你的世界觀要徹底轉(zhuǎn)變?。ㄎ抑?,你一定會(huì)在心里心:有沒有這么嚴(yán)重?。浚?/p>
而要實(shí)現(xiàn)這個(gè)轉(zhuǎn)變,必須經(jīng)過初級(jí)、中級(jí)和高級(jí)三個(gè)階段的學(xué)習(xí)。
那三個(gè)階段要怎么學(xué)習(xí)呢?下面我就會(huì)告訴你每個(gè)階段所要用的教材,把這些書讀透,你就會(huì)實(shí)現(xiàn)上面的轉(zhuǎn)變了。
初級(jí)階段:《大數(shù)據(jù)時(shí)代》
作者:[英]維克托·邁爾-舍恩伯格,[英]肯尼思·庫克耶
翻譯:盛楊燕,周濤
浙江人民出版社

不用說了,肯定是這本書。讀完這本書,要求你形成大數(shù)據(jù)的概念,即知道這么幾點(diǎn):
1、絕不是有很多數(shù)據(jù)就叫大數(shù)據(jù);
2、大數(shù)據(jù)是一種數(shù)據(jù)分析方式,與傳統(tǒng)數(shù)據(jù)分析方式有著本質(zhì)上的不同;
3、大數(shù)據(jù)的特點(diǎn)是“關(guān)注相關(guān)性,不關(guān)注因果”,這是大數(shù)據(jù)最核心的東西,一定要真正理解,并牢牢記住,不然你就很容易被別人忽悠;
4、大數(shù)據(jù)采用的是統(tǒng)計(jì)的方法;
5、大數(shù)據(jù)主要是結(jié)合人工智能進(jìn)行機(jī)器的自動(dòng)數(shù)據(jù)挖掘;
6、大數(shù)據(jù)主要是用來作預(yù)測的。而不是象一般的數(shù)據(jù)分析,只是分析出歷史情況和現(xiàn)狀,未來還是要靠人去預(yù)測,大數(shù)據(jù)則是直接告訴你未來的結(jié)果。
中級(jí)階段:《失控》
作者:凱文·凱利(KEVIN KELLY),很多人都親切地叫他KK
翻譯:東西文庫
新星出版社

為什么是這本書呢?學(xué)完初級(jí)階段要記住的幾件事還沒忘吧?對(duì),用統(tǒng)計(jì)的方法,而不是因果的方法,預(yù)測未來。ok,下面我們就來看看這本書說了些啥:
第二十二章 預(yù)言機(jī)
……
在對(duì)預(yù)測機(jī)制進(jìn)行剖析的時(shí)候,法默最喜歡用這個(gè)例子來進(jìn)行說明:「來,接著!」他說著就朝你扔過來一個(gè)棒球。你抓住了球。「你知道你是怎么接住這個(gè)球的嗎?」,他問道。「通過預(yù)測?!?/p>
法默堅(jiān)信你的腦子里有一個(gè)關(guān)于棒球是如何飛行的模型。你可以采用牛頓的經(jīng)典力學(xué)算式f=ma 來預(yù)測一個(gè)高飛物體的運(yùn)動(dòng)軌跡,但是你的大腦本身卻并沒有存儲(chǔ)這樣的基本物理學(xué)算式。更確切地說,它直接依照經(jīng)驗(yàn)數(shù)據(jù)建立起一個(gè)模型。一個(gè)棒球手,成千次觀察球棒擊飛棒球的情景,成千次舉起戴著棒球手套的手,成千次利用戴手套的手調(diào)整他的預(yù)測。不知怎么的,他的大腦就逐漸編制出一個(gè)棒球落點(diǎn)的模型——一個(gè)幾乎跟f=ma 不相上下的模型,只不過適用范圍沒有那么廣而已。這個(gè)模型完全建立在過去接球過程中產(chǎn)生的一系列手/眼數(shù)據(jù)的基礎(chǔ)上。在邏輯學(xué)領(lǐng)域中,這樣的過程統(tǒng)稱為歸納,它與導(dǎo)出f=ma 的推演過程截然不同。
……
一個(gè)棒球外野手基于經(jīng)驗(yàn)形成的空中飛行物的「理論」,很像托勒密行星模型的后期階段。如果我們解析外野手的「理論」的話,就會(huì)發(fā)現(xiàn)它是不連貫的,即興的,復(fù)雜的,而且是近似的。但是,它也是可以發(fā)展的。這是一個(gè)紊亂的理論,但它不僅有效,而且還能提高。如果非要等到每個(gè)人都能弄明白f=ma 這個(gè)算式(況且,弄明白半個(gè)f=ma 還不如什么都不懂)再行動(dòng)的話,就根本沒有人能接住任何東西。就算你現(xiàn)在了解了這個(gè)算式,也沒什么用?!改憧梢杂胒=ma 來求解飛行中的棒球問題,但你不能在外場實(shí)時(shí)解決問題?!狗f。
……
幾乎可以明確地說,「活系統(tǒng)」——獅群、股票市場、進(jìn)化中的種群、智能——都是不可預(yù)測的。它們所具有的那種混亂的、遞歸式的因果關(guān)系,各個(gè)部分之間互為因果的關(guān)系,使得系統(tǒng)中的任何一個(gè)部分都難以用常規(guī)的線性外推法推斷未來。不過,整個(gè)系統(tǒng)卻能夠充當(dāng)分布式裝置,對(duì)未來做近似的推測。
……
而世界上絕大多數(shù)的復(fù)雜系統(tǒng)——包括所有的市場——都是非線性的。
……
在現(xiàn)實(shí)中,影響股票的二維圖形軌跡的因素不是幾個(gè),而是數(shù)千個(gè)。
……
僅僅100 個(gè)變量,就可以創(chuàng)造出一群數(shù)量巨大無比的可能性。因?yàn)槊恳粋€(gè)變量行為都和其他99 個(gè)行為互相影響,所以如果不同時(shí)對(duì)這個(gè)相互作用的群體整體進(jìn)行考察的話,你根本無法考察其中的任何一個(gè)參數(shù)。比如說,哪怕是一個(gè)簡單的只有三個(gè)變量的氣候模型,也會(huì)通過某種奇怪的回路連回到自己身上,從而哺育出某種混沌,讓任何一種線性預(yù)測都成為不可能。
——摘自《失控》
用f=ma(公式)來預(yù)測,或者說線性預(yù)測,就是通過因果推理來進(jìn)行預(yù)測,即根據(jù)球的質(zhì)量、加速度等等因素,找出這個(gè)球?yàn)槭裁磿?huì)從那個(gè)地方飛到這個(gè)地方的原因;
而“歸納”即是“統(tǒng)計(jì)”的意思,或者說是較粗略的統(tǒng)計(jì),歸納是不問原因的,接住這個(gè)球就完了,管它是什么原因。
你想成為大數(shù)據(jù)高手,你想用統(tǒng)計(jì)的方法來對(duì)某些東西進(jìn)行預(yù)測?(我現(xiàn)在來預(yù)測下你心里想的某些東西是什么。股票!噢,別夸我,我只不過是歸納了很多人的想法而已。)
好了,現(xiàn)在你來告訴我,還有什么理由不去好好讀這本書?(當(dāng)然,好心如我肯定會(huì)提醒你:拿這本書一定要拿穩(wěn)了,砸腳面上可不是好玩的,因?yàn)樗幸粔K磚頭那么厚和重)
高級(jí)階段:《復(fù)雜性》
作者:[美]尼古拉斯·雷舍爾(NICHOLAS RESCHER)
翻譯:吳彤

學(xué)完中級(jí)階段,你接觸到了一件事,“復(fù)雜性”,知道了事情復(fù)雜到一定程度,就不可能用尋找因果的方法去進(jìn)行預(yù)測。
那么到底什么是復(fù)雜性,它的本質(zhì)和原理是什么?想成為大數(shù)據(jù)高手,你不能對(duì)此一無所知,因?yàn)槟銓⒁惠呑优c復(fù)雜甚至是極其復(fù)雜的事情打交道。
如果你讀完了《失控》,可能此時(shí)心理在想:尼瑪,《失控》這本書已經(jīng)夠難讀懂的了(沒錯(cuò),要不微信老總張小龍也不會(huì)說,能讀完這本書的可以直接去他公司上班。注意他說的是“讀完”,不是“讀懂”),那也才是個(gè)中級(jí),這個(gè)高級(jí)不是要把腦子都燒壞嗎?(你又預(yù)測對(duì)了,和這本比起來,《失控》只能算本休閑書)那我能不看這本書嗎?它和我想學(xué)的東西到底有多大關(guān)系?(你這么不聽老師話,你爸媽造嗎?)
為了你這不聽話的學(xué)生,老師就透露些內(nèi)容吧:
不再試圖根據(jù)事物如何必須按照理論的一般原理發(fā)展去解決問題,而是根據(jù)事物如何在通常的情況下按照我們能夠確定的最好情況去解決問題。與其尋求抽象必然性的一般原理,不如以某種經(jīng)驗(yàn)主義的精神,在經(jīng)驗(yàn)——帶有它的全部特征偶然性和潛在不完備性——中尋求指引。
……
被稱為科學(xué)規(guī)律的牛頓世界秩序(Newtonian world order)的狂熱愛好者。他們的觀點(diǎn)是牛頓、拉普拉斯(Laplace)和達(dá)爾文的相應(yīng)世界觀,將世界看作自然規(guī)律的有序框架。康德主義因果關(guān)系原理(Kantian principle of causality)是他們思維中的最重要部分,世界——自然世界和人類世界——被視為宇宙,每一個(gè)事物都是有序的、規(guī)律的、理智的、可解釋的。實(shí)在被視為某種有條理的系統(tǒng),類似于有條理的花園,排列有序且有整齊的邊界。……愛因斯坦、普朗克、薛定諤(Schrodinger)及其同伴破壞了舊物理學(xué)秩序。康托爾(Cantor)、哥德爾、海?。℉eyting)等人打破了舊的數(shù)學(xué)秩序。量子力學(xué)理論造成了因果關(guān)系的崩潰。進(jìn)化論現(xiàn)在鄭重強(qiáng)調(diào)的不是“適者生存”,而是自然選擇不得不在其基礎(chǔ)上發(fā)揮作用的全然隨機(jī)的平臺(tái)。
……
(然而)機(jī)會(huì)和混沌的宇宙不是不守秩序的(無政府狀態(tài)的),而只是復(fù)雜的,通過其自然的運(yùn)轉(zhuǎn)展現(xiàn)著更高階規(guī)律的涌現(xiàn)。而當(dāng)形式邏輯屈從于它的經(jīng)典不變性時(shí),一種新的非經(jīng)典的、多值的(或者“模糊的”)邏輯業(yè)已誕生并取而代之。確定性(certainties)也有效地被或然性(probabilities)和似真性(plausibilities)所取代。
……
鑒于在復(fù)雜世界中對(duì)行動(dòng)過程做出理智選擇難免是困難的……如果我們是相信統(tǒng)計(jì)學(xué)結(jié)論的學(xué)者,用概率統(tǒng)計(jì)推斷行為的正確性,那么事情就變得更容易處理。
——摘自《復(fù)雜性》
好了,讀還是不讀,你自己看著辦吧。
對(duì)了,推薦這本書還有個(gè)原因。大家都知道大數(shù)據(jù)是研究數(shù)據(jù)的相關(guān)性,即找出數(shù)據(jù)之間的關(guān)系。當(dāng)我經(jīng)歷了15年統(tǒng)計(jì)學(xué)人工智能數(shù)據(jù)相關(guān)性的探索和研究,感覺已經(jīng)研究得差不多了,但又覺得要解決所有的問題還有不小的距離,這時(shí)就感到很迷茫,不知下一步的研究該往何方去,有種路越走越窄的感覺,又有一種達(dá)到頂峰的幻覺,直到看到這本書中的一句話:
“可以考慮它們的關(guān)系,再考慮這些關(guān)系中的關(guān)系,如此下去?!?/p>
當(dāng)看到這句話,用醍醐灌頂已不足以形容我當(dāng)時(shí)的感受,簡直就是五雷轟頂。就好象原來我以為世界只有自家的一畝三分地,這句話如一道劃破夜空的明亮閃電,讓我突然看到了無限廣袤的宇宙,為我指明了方向,并開辟出一條金光大道。(原諒我用了這么多的有點(diǎn)亂的形容,每當(dāng)想起這句話,我就抑制不住激動(dòng)的心情)現(xiàn)在想起來,自己那達(dá)到頂峰的幻覺是多么幼稚可笑啊,可笑還不在于我沒有達(dá)到頂峰,而在于這世上本沒有頂峰(挺具有佛性的一句話,不由得讓我想起六祖的話:菩提本無樹,明鏡亦非臺(tái),本來無一物,何處惹塵埃)。
大家千萬不要小看這句話中的“如此下去”幾個(gè)字,他指明了一個(gè)無窮疊代,即 “關(guān)系的關(guān)系的……關(guān)系”,而智能將在這里涌現(xiàn),解決復(fù)雜性問題預(yù)測的關(guān)鍵很可能就在這里,這句話打開了一個(gè)非常廣闊的前景,將象宇宙一樣沒有窮盡。
看完這句話后,待心情稍稍平復(fù),我立即把它寫成一個(gè)函數(shù):
x=f(f(a,b),f(c,d))
然后告訴自己:這就是你后半生要去全力研究的東西!
現(xiàn)在我們接著往下講,還記得我一開始說過要轉(zhuǎn)變世界觀嗎?讀完這三本書,你已經(jīng)做好了世界觀轉(zhuǎn)變的準(zhǔn)備,現(xiàn)在就要來最后一擊,完成這個(gè)轉(zhuǎn)變!
也就是說,高級(jí)階段你還要讀一本書(尼妹,還要不要人活?我?guī)湍阏f了)。你已經(jīng)了解了復(fù)雜性的原理,但這個(gè)世界到底有多復(fù)雜,你可能還沒有感性的認(rèn)識(shí)。你一定覺得自己經(jīng)歷過很多非常復(fù)雜的事,比如你炒過股票、管理過幾百上千人、研究過社會(huì)學(xué)問題等等,但是和這個(gè)世界真正最復(fù)雜的事比起來,這些都不過是小兒科。
也許你已經(jīng)猜到了是什么方面的書,對(duì),量子理論。鑒于這個(gè)理論實(shí)在太難、太復(fù)雜,愛因斯坦致死也沒把它搞明白,科學(xué)家們現(xiàn)在也都還沒把它搞明白,我輩就不用費(fèi)神想去把它真正搞懂了,但由于我們是在探求事物的復(fù)雜性,或者也可以說研究事物的本質(zhì),那么不可不對(duì)此有所了解,因此我給大家的書是這方面的最初級(jí)的科普讀物。(實(shí)在不忍心再嚇你們了。
高級(jí)階段(2):量子物理史話
作者:曹天元(沒錯(cuò),中國人)
遼寧教育出版社

你一定有疑問,“這本書就能讓我改變世界觀?”
那么我們就來看看書中說些什么吧:
量子世界的本質(zhì)是“隨機(jī)性”。傳統(tǒng)觀念中的嚴(yán)格因果關(guān)系在量子世界是不存在的,必須以一種統(tǒng)計(jì)性的解釋來取而代之,波函數(shù)ψ就是一種統(tǒng)計(jì),它的平方代表了粒子在某處出現(xiàn)的概率。當(dāng)我們說“電子出現(xiàn)在x處”時(shí),我們并不知道這個(gè)事件的“原因”是什么,它是一個(gè)完全隨機(jī)的過程,沒有因果關(guān)系。
……
因果性必須死,因?yàn)槲锢韺W(xué)需要生!停止?fàn)幷摪?,上帝真的擲骰子!隨機(jī)性是世界的基石,當(dāng)電子出現(xiàn)在這里時(shí),它是一個(gè)隨機(jī)的過程,并不需要有誰給它加上難以忍受的條條框框?!y(tǒng)計(jì)規(guī)律則把微觀上的無法無天抹平成為宏觀上的井井有條。
——摘自《量子物理史話》
“統(tǒng)計(jì)規(guī)律則把微觀上的無法無天抹平成為宏觀上的井井有條”,這句話實(shí)際上就是表明,統(tǒng)計(jì)方法可以使極其復(fù)雜的隨機(jī)事件成為可預(yù)測。我認(rèn)為,社會(huì)、市場、股票等等與量子世界有著很多相似之處。由于量子理論實(shí)際上是從最本質(zhì)上去研究我們存在于其中的這個(gè)世界,因此正如書中的一句話:
“這個(gè)世界的本質(zhì):它本就是統(tǒng)計(jì)性的!
”
如果你用根深蒂固的唯物主義思想(認(rèn)為唯心主義絕對(duì)是錯(cuò)的)去看量子理論,那么你可能很難理解它,而帶著對(duì)唯心主義一定程度的理解(不一定非要完全贊同)去看會(huì)非常有幫助。因此,我在這里建議大家也可以了解一些佛學(xué),比如看看凈空法師說的話,這樣會(huì)有助于你站在唯心主義的角度去看問題。
不是幡動(dòng),也不是風(fēng)動(dòng),而是心動(dòng)。
佛說:極微細(xì)的心動(dòng)一下,宇宙就出現(xiàn),森羅萬象都現(xiàn)前,同時(shí)我也出現(xiàn)了。心動(dòng),分三段,第一它動(dòng),一動(dòng)就變,一轉(zhuǎn)變就成能見相,有能見立刻就有所見,所見就出現(xiàn)。能見就是意識(shí),意識(shí)出現(xiàn)后,立刻就有所見,即物質(zhì)出現(xiàn),故物質(zhì)是幻象,你想它就現(xiàn)相,物質(zhì)現(xiàn)相即宇宙,故宇宙的現(xiàn)前是頓現(xiàn),不是進(jìn)化的。
——摘自《凈空法師說華嚴(yán)經(jīng)》
量子物理學(xué)家說:“意識(shí)”使得一切從量子疊加態(tài)中脫離,成為真正的現(xiàn)實(shí)。即第一個(gè)有意識(shí)的生物的出現(xiàn)才使得從創(chuàng)生起至那一剎那的宇宙瞬間成為現(xiàn)實(shí),“意識(shí)”的參與可以在那一刻改變過去,而這個(gè)“過去”甚至包含了那個(gè)有意識(shí)的生物自身的演化歷史。
——摘自《量子物理史話》
感覺到量子理論有多復(fù)雜了嗎?如果你對(duì)上面兩段很繞的話沒太看明白,我給你個(gè)精簡版本:
佛說:心動(dòng),宇宙就出現(xiàn),森羅萬象現(xiàn)前,同時(shí)我也出現(xiàn);
量子物理學(xué)家說:意識(shí)使一切從量子疊加態(tài)中脫離,使宇宙歷史瞬間成現(xiàn)實(shí),其中含有那意識(shí)生物自身。
你肯定還是覺得無法理解這些話,沒關(guān)系,你只需明白一件事就行了,佛祖在兩千多年前就預(yù)言了量子物理學(xué)家現(xiàn)在要說的話。
好了,等看完這本書,你的世界觀不改變,你來找我請(qǐng)你吃飯。
另外,還有一本書作為參考書可以讀一讀(別罵我,參考書,不一定非要讀),侯世達(dá)(Douglas, R. Hofstardter)的《哥德爾、艾舍爾、巴赫》(比磚頭還厚,《失控》只是和磚頭一樣厚)。
此書的介紹:本書是在英語世界中有極高評(píng)價(jià)的科普著作。曾獲得普利策文學(xué)獎(jiǎng)。它通過對(duì)哥德爾的數(shù)理邏輯,艾舍爾的版畫和巴赫的音樂三者的綜合闡述,引人入勝地介紹了數(shù)理邏輯學(xué)、可計(jì)算理論、人工智能學(xué)、語言學(xué)、遺傳學(xué)、音樂、繪畫的理論等方面,構(gòu)思精巧、含義深刻、視野廣闊、富于哲學(xué)韻味。
數(shù)理邏輯學(xué)、可計(jì)算理論、人工智能學(xué)、語言學(xué),這些對(duì)你后面要學(xué)的東西是有幫助的。
推薦這本書的另外一個(gè)原因是,《復(fù)雜性》這本書引用了它的內(nèi)容。
除了《大數(shù)據(jù)時(shí)代》,推薦以上這些書還有一個(gè)共同的原因,那就是這些書的作者可以說都是預(yù)測的高手(佛祖的功力你剛才已經(jīng)領(lǐng)教了),讓人實(shí)在佩服得五體投地。
《失控》寫于20年前,據(jù)說是史上唯一一本歷經(jīng)20年越來越好賣的書,原因就是人們發(fā)現(xiàn)20年前書中說的事,這些年來正在一件件地被實(shí)現(xiàn),人們都在奇怪,KK他是怎么知道的。
《復(fù)雜性》也寫于近20年前。
《哥德爾、艾舍爾、巴赫》寫于30年前。
《量子物理史話》雖然是2008年寫的,但是量子理論誕生一百多年了。
《華嚴(yán)經(jīng)》誕生于兩千多年前。
然而它們竟然對(duì)今天的大數(shù)據(jù)有如此的指導(dǎo)意義,我還能說什么?
《復(fù)雜性》的作者尼古拉斯·雷舍爾還有一本書(還有??。瑒e急,這本書你一定會(huì)很想看,因?yàn)闀纱嗑徒小额A(yù)測未來》。可惜,這本書沒有中文版,英語好的同學(xué)可以去國外找來看看,如果你能幫我也弄一本,俺將不勝感激!
現(xiàn)在你已轉(zhuǎn)變了世界觀,具備了成為一個(gè)大數(shù)據(jù)高手的思想,可以開始學(xué)習(xí)具體方法了,即學(xué)習(xí)人工智能。
你一定在想,是不是又要讀一大堆書?理論上說:是的,需要學(xué)習(xí)人工智能基礎(chǔ)、自然語言處理、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)人工智能等等。不過,看你們被虐了這么久,我也動(dòng)了惻隱之心,將給你們指一條捷徑,就學(xué)習(xí)一本書(高興吧?)。
統(tǒng)計(jì)自然語言處理基礎(chǔ)
作者:[美]Christopher D. Manning [德]hinrich Schutze
翻譯:苑春法 李慶中 王昀 李偉 曹德芳等
電子工業(yè)出版社

你可能有一個(gè)疑問,為什么是“語言”,這有兩個(gè)原因:
第一,在計(jì)算機(jī)專業(yè),數(shù)據(jù)并不僅僅是指數(shù)字,文字、圖片、聲音、視頻等都叫數(shù)據(jù);
第二,語言比數(shù)字難很多,如果你能處理語言,那處理純數(shù)字就容易很多。
你可能還有一個(gè)疑問,統(tǒng)計(jì)自然語言處理與一般的自然語言處理有什么本質(zhì)不同之處?
給你講一個(gè)有趣的事,我的一個(gè)侄兒,4歲左右,一次去機(jī)場第一次看見自動(dòng)人行道,就是類似商場那種自動(dòng)扶梯,只不過是放平的,人站在上面就自動(dòng)往前走,他脫口就說出“平電梯”。很形象,是不是?他之所以能造出這個(gè)詞,就是因?yàn)槿擞兄悄堋?/p>
這里就引出一個(gè)小問題,他為什么會(huì)把“平”字放在“電梯”的前面?如果用人工智能的一般自然語言處理來解決這個(gè)問題,就會(huì)從詞性、語法、句法等方面著手,中學(xué)的時(shí)候你一定學(xué)過什么偏正結(jié)構(gòu)、主謂結(jié)構(gòu)、動(dòng)賓結(jié)構(gòu)等等吧?對(duì),經(jīng)過這一翻分析和處理,找出原因并推導(dǎo)出結(jié)果,可能就會(huì)知道“平”字應(yīng)該放在前面;
然而統(tǒng)計(jì)自然語言處理的路數(shù)不同,經(jīng)過統(tǒng)計(jì),“平”字大多數(shù)時(shí)候都是放在前面,比如平均、平等、平臺(tái)、平的、平時(shí)、平坦、平常、平衡、平移、平板電腦……,好吧,那就把“平”字放在前面吧。嗯,就這么簡單。
當(dāng)然,這里只是打個(gè)比方,實(shí)際不會(huì)是這么簡單。
但是,這又引出一個(gè)問題,我們仔細(xì)想想,那個(gè)4歲的小孩是怎么處理的,難道他懂什么語法、句法、編正結(jié)構(gòu)嗎?肯定不是,所以他一定是用的歸納統(tǒng)計(jì)的方法,無數(shù)次聽到大人說到類似詞時(shí)都是把平放在前面,所以他就放在前面了,他才不知道是什么原因呢,和接那個(gè)棒球是一個(gè)道理,他的大腦里并沒有那個(gè)物理公式。
因此,統(tǒng)計(jì)自然語言處理是更接近自然的自然語言處理方式(繞口令?),也就是說更接近我們?nèi)说奶幚矸绞?,甚至可以說就是人或自然的處理方式,只是人的大腦處理方式更復(fù)雜而已,但本質(zhì)是一樣的。
關(guān)于這一點(diǎn),也有不同看法,我把不同觀點(diǎn)也呈現(xiàn)給你,你可以自己去思考和判斷。著名語言學(xué)家喬姆斯基就認(rèn)為“兒童被假定為天生具有適用于所有人類語言的基本語法結(jié)構(gòu)的知識(shí),這種與生俱來的知識(shí)通常被稱作普遍語法理論?!保ㄕ园俣劝倏疲?/p>
自然,我本人是很難茍同這種觀點(diǎn)。這一觀點(diǎn)也遭到相當(dāng)一部份語言學(xué)家的反對(duì),“認(rèn)為在尚未對(duì)所有人類語言進(jìn)行研究之前就假設(shè)所有人類語言有共同的‘底層語法’,這樣做太冒進(jìn);而且在應(yīng)用普遍語法研究未知語言時(shí),不得不假設(shè)許多‘空白詞類’,在研究基本語法為‘謂主賓’的語言(如愛爾蘭蓋爾語)時(shí),更不得不假設(shè)這些語言的‘底層基本結(jié)構(gòu)’為主謂賓,這種做法本身可能已經(jīng)違反了描述性原則。也有語言學(xué)家(如Michael Evans和Stephan Levinson)主張,普遍語法是基於種族中心主義而得出的假設(shè),而這會(huì)對(duì)認(rèn)知科學(xué)造成很不良的影響?!?/span>
(摘自百度百科)
讀完了這本書,不代表你就成為大數(shù)據(jù)高手了,實(shí)際上它只是為你打下基礎(chǔ)知識(shí),真正掌握大數(shù)據(jù)的方法,需要你在這個(gè)基礎(chǔ)上去探索或者說悟出來。
至此為止,師父領(lǐng)進(jìn)門、修行在個(gè)人,GOOD LUCK!
我寫這篇文章其實(shí)有兩個(gè)原因,一個(gè)就是為想成為大數(shù)據(jù)高手的人指一條路;
另一個(gè)因素,即是想做一個(gè)反擊,對(duì)對(duì)立大數(shù)據(jù)、置疑大數(shù)據(jù)、用小數(shù)據(jù)當(dāng)大數(shù)據(jù)忽悠的人進(jìn)行反擊。注意,我這兒肯定沒有對(duì)立小數(shù)據(jù)的意思,大數(shù)據(jù)并不是全能的,傳統(tǒng)數(shù)據(jù)剖析方法、抽樣數(shù)據(jù)剖析仍然是非常有用的,或至少在適當(dāng)長的時(shí)間里是如此,我僅僅對(duì)立如今很多人把傳統(tǒng)數(shù)據(jù)剖析方法當(dāng)作大數(shù)據(jù)方法來忽悠群眾。如果把這反擊濃縮成一句話,那即是:
這個(gè)世界的實(shí)質(zhì)是統(tǒng)!計(jì)!的!