發(fā)布時間:2016-12-01 10:05 作者:admin
大數(shù)據成為這個時代的熱點詞匯,無論是大企業(yè)、小企業(yè)、傳統(tǒng)抑或新興行業(yè),每一家公司都成為大數(shù)據的擁躉,好像有了大數(shù)據就能解決所有問題。
企業(yè)通過社會、天氣、政府數(shù)據來預測供應鏈會否中斷。各大網站爭向搶奪用戶數(shù)據,一些公司甚至開始利用大量的文本交流數(shù)據建立算法,從而與客戶進行對話。
但事實上呢,我們對大數(shù)據重要性的癡迷,往往會產生誤導。在一些情況下,從數(shù)據中能獲取有價值的東西,但對于創(chuàng)新者來說,數(shù)據量和規(guī)模不是關鍵的因素,找到正確的數(shù)據才是關鍵。
在《大數(shù)據時代》一書中,邁爾-舍恩伯格給出了著名的關于大數(shù)據時代的三大特征:1)不是隨機樣本,而是全體數(shù)據;2)不是精準性,而是混雜性;3)不是因果關系,而是相關關系。本文解讀一把為什么“不是隨機樣本,而是全體數(shù)據”?!?/span>
但其實這個推斷是有陷阱的,所謂的全體數(shù)據,在絕大多數(shù)情況下并不是“全體”。即便那些絕對重量級的互聯(lián)網企業(yè),比如說谷歌、百度、FACEBOOK、淘寶天貓,它們也不可能擁有所謂全體數(shù)據。
有時候正確的數(shù)據規(guī)模也很大,也有的時候正確的數(shù)據規(guī)模很小。對于創(chuàng)新者,關鍵在于哪些關鍵的數(shù)據對企業(yè)最有幫助,要找到正確的數(shù)據。
像我們一說大數(shù)據就想到的Uber和滴滴里這個例子里,為了完成自動化指派司機工作,從而減少資源的閑置,他們需要知道潛在的乘客可能在城市的哪些位置對于尋求降低成本的保險公司,他們想知道一個糖尿病患者血糖下降的時候,以幫助自動化進行圍繞病人的干預措施,減少不善疾病的影響。
這就是你所需要的數(shù)據,通過處理大量的信息找到他們是很好的,如果你通過建立一個新的應用程序來捕獲它們更好。
大部分公司花了太多的時間提倡大數(shù)據,但是卻幾乎沒有花時間去想清楚哪些數(shù)據才是正確的有價值的數(shù)據,這樣就得不償失了。