大數(shù)據(jù): 一種新經(jīng)驗主義方法
- 發(fā)布時間:2015-06-22 05:45:35 來源:經(jīng)濟(jì)日報 責(zé)任編輯:羅伯特
當(dāng)今世界,“大數(shù)據(jù)”已成為一個熱點話題,學(xué)術(shù)界和產(chǎn)業(yè)界都試圖在該領(lǐng)域取得突破。何為大數(shù)據(jù)?這是在充分收集、整理和分析歷史經(jīng)驗數(shù)據(jù)的基礎(chǔ)上,運(yùn)用已有經(jīng)驗對新事物進(jìn)行判斷與預(yù)測的新興思維和方法。
在人類傳統(tǒng)的思維、行為模式中,受數(shù)據(jù)收集的歷史條件局限,所謂理性主義長期占據(jù)主導(dǎo)地位,即:通過長期觀察和經(jīng)驗的積累,人類能透過現(xiàn)象看到本質(zhì),從而總結(jié)出事物發(fā)展的一般規(guī)律。具體說來,便是從有限數(shù)據(jù)中抽象出一般規(guī)律和模型,將泛化有限經(jīng)驗推廣到一般情況。所以說,理性主義方法就是模型方法。然而,由各方參與和博弈的人類社會復(fù)雜紛繁,人們并非總能從有限經(jīng)驗中抽象出一般規(guī)律,也難以處處用理性分析方法建立模型。
隨著信息科學(xué)技術(shù)的高速發(fā)展,人類對數(shù)據(jù)的收集和分享能力空前強(qiáng)大,包括以物聯(lián)網(wǎng)收集物理世界數(shù)據(jù),以互聯(lián)網(wǎng)收集虛擬世界數(shù)據(jù),以移動設(shè)備收集個人數(shù)據(jù)等等。從某種意義上來講,這也是對人類經(jīng)驗的收集和分享。當(dāng)數(shù)據(jù)達(dá)到一定的深度和廣度,量變就會發(fā)生質(zhì)變,我們發(fā)現(xiàn):數(shù)據(jù)(經(jīng)驗)越多,對模型(理性)的依賴程度越小。于是,一種基于大數(shù)據(jù)的新的經(jīng)驗主義方法迅速興起,很快獲得社會廣泛認(rèn)可并運(yùn)用到諸多領(lǐng)域。
在傳統(tǒng)的理性主義方法中,由于只掌握小樣本數(shù)據(jù),人們通?;谛颖緮?shù)據(jù)構(gòu)建模型并將其泛化,進(jìn)而解決新的問題。顯然,若待解決的問題與小樣本差別過大,這種模型就會失效。相比之下,大數(shù)據(jù)的特點是省略復(fù)雜的模型,直接尋求面臨情況與已知樣本的匹配。其核心就是盡可能多地收集樣本,構(gòu)建足夠大的樣本數(shù)據(jù)庫來覆蓋所有可能遇到的情況,令每種情況總能找到一個或多個相同或相近的樣本,從而運(yùn)用老經(jīng)驗解決新問題。
也可以這樣比喻:傳統(tǒng)方法是個理性主義者,“他”循規(guī)蹈矩,有很強(qiáng)的邏輯思維和歸納能力,能夠通過小樣本建立模型、總結(jié)規(guī)律;“大數(shù)據(jù)”則是經(jīng)驗主義者,“他”不是科班出身,但實踐經(jīng)驗豐富,頭腦包羅萬象卻有條不紊,遇到難題總能迅速找出以往經(jīng)驗與之應(yīng)對。規(guī)范地說,“大數(shù)據(jù)是現(xiàn)代社會在掌握海量數(shù)據(jù)收集、存儲和處理技術(shù)基礎(chǔ)上所產(chǎn)生的一種以群體智慧進(jìn)行判斷和預(yù)測的能力,它代表了一種新的經(jīng)驗主義思想和方法?!?/p>
那么,多大的數(shù)據(jù)才是大數(shù)據(jù)呢?目前,這個問題沒有絕對的答案。不妨這樣回答:“當(dāng)數(shù)據(jù)多到能對問題的樣本空間進(jìn)行充分覆蓋,從而減弱對理論和模型的依賴時,這樣的數(shù)據(jù)就足夠大了?!睂嶋H上,數(shù)據(jù)之“大”與問題的規(guī)模成正比,即:若問題的規(guī)模小,少量數(shù)據(jù)即能覆蓋全部情況,這些數(shù)據(jù)已構(gòu)成具體環(huán)境的“大數(shù)據(jù)”;反之,若問題的樣本空間大,則需要更多數(shù)據(jù)才能將其完全覆蓋。
既然大數(shù)據(jù)體現(xiàn)著先進(jìn)的新經(jīng)驗主義,在實踐中展現(xiàn)巨大價值并逐漸成為社會主流,那么傳統(tǒng)的理性主義難道就要退出歷史舞臺了嗎?回答是否定的。
首先,人類社會的不少問題樣本空間極大,數(shù)據(jù)雖盡力收集卻總是不夠,即總是不能覆蓋所有可能的情況。以不同語言之間的機(jī)器翻譯為例:從一種語言翻譯為另一種語言,其樣本空間需囊括所有可能出現(xiàn)的詞句,而對這樣的樣本空間進(jìn)行全面覆蓋則需收集幾乎無窮盡的數(shù)據(jù)。由于不能實現(xiàn)全面覆蓋,即使收集數(shù)據(jù)再多,也很難說這就是“大數(shù)據(jù)”。
其次,萬物都處在運(yùn)動當(dāng)中,一成不變的事物是難以想象的。具體到某一社會問題的樣本空間,“不變”是相對的,“變”是絕對的,像自然領(lǐng)域的氣象數(shù)據(jù)、人文領(lǐng)域的人口數(shù)據(jù),甚至是時刻在變化著。又如,互聯(lián)網(wǎng)上新的詞語層出不窮,有時令人難以理解,而已知數(shù)據(jù)中根本沒有相似的樣本,當(dāng)然無法直接運(yùn)用大數(shù)據(jù)的方法進(jìn)行處理。
因此,將大數(shù)據(jù)(經(jīng)驗主義)和傳統(tǒng)方法(理性主義)結(jié)合起來、綜合運(yùn)用,才是順利解決社會問題的明智選擇。就是說,遇到數(shù)據(jù)不能完全覆蓋的情況,還是需要借助模型的泛化能力進(jìn)行處理,將已知經(jīng)驗推廣到數(shù)據(jù)未能覆蓋的地方。
大數(shù)據(jù) 詳細(xì)
漲幅榜 更多
排名 | 股票名稱 | 最新價 | 漲跌幅 |
1 | 紫光股份 | 80.14 | 10.01% |
2 | 東軟集團(tuán) | 15.94 | 10.01% |
3 | 賽為智能 | 18.52 | 9.98% |
4 | 航天信息 | 27.13 | 7.28% |
5 | 天源迪科 | 17.00 | 6.25% |
跌幅榜 更多
排名 | 股票名稱 | 最新價 | 漲跌幅 |
1 | 天夏智慧 | 12.58 | -5.77% |
2 | 上海鋼聯(lián) | 74.30 | -3.19% |
3 | 美的集團(tuán) | 52.84 | -3.10% |
4 | 南威軟件 | 12.10 | -2.97% |
5 | 奧飛數(shù)據(jù) | 75.28 | -2.87% |
熱圖一覽
- 股票名稱 最新價 漲跌幅
- 祥龍電業(yè) 6.77 10.08%
- 安彩高科 10.18 10.05%
- 傲農(nóng)生物 19.98 10.02%
- 振華股份 15.92 10.02%
- 東軟集團(tuán) 15.94 10.01%
- 世運(yùn)電路 18.15 10.00%
- 天鵝股份 23.65 10.00%
- 七一二 43.81 9.99%
- 愛嬰室 31.60 9.99%
- 西部黃金 21.48 9.98%
- 最嚴(yán)調(diào)控下滬深房價仍漲 人口老齡化影響三四線樓市
- 樂天大規(guī)模退出中國市場 供應(yīng)商趕赴北京總部催款
- 北京16家銀行上調(diào)首套房貸利率 封殺“過道學(xué)區(qū)房”
- 10萬輛共享單車僅50人管遭質(zhì)疑 摩拜ofo優(yōu)勢變劣勢
- 去年聯(lián)通、電信凈利潤均下滑 用戶爭奪漸趨白熱化
- 奧迪否認(rèn)“官民不等價”:優(yōu)惠政策并非只針對公務(wù)員
- 季末銀行考核在即 一日風(fēng)云難改“錢緊錢貴”現(xiàn)狀
- 美圖7小時暴跌四成 虧損業(yè)績?nèi)绾沃?00億市值受拷問
- 監(jiān)管重壓下P2P退出平臺增加 網(wǎng)貸行業(yè)進(jìn)入冷靜期
- 配資炒股虧損逾百萬 股民將信托公司告上法庭