為什么統計學現在這么火 ?
為什么直到現在,統計學才在各個領域得到重視呢?
通過數據之間的關聯性、利用因果關系進行推論的現代統計學的基本思考方法,早在20世紀初期就已經確立,主要的統計分析方法則在20世紀60年代全部出現。如今,距離被稱為現代統計學之父的羅納德·艾爾默·費希爾去世已經過了半個世紀。如果統計學真的如前文所說具有如此強大的力量,那為什么在之前的社會中沒有被大規模應用呢?實際上這個問題并不在于統計學本身,而是在于能夠活用統計學的外部環境發生了變化。
為了使大家能夠更好地理解這一變化,讓我對第二節中提到過的將弗明漢居民全部卷入其中的大規模流行病學研究作進一步的詳細介紹。
這項流行病學研究一般被稱為弗明漢研究,是在第二次世界大戰結束之后不久的1948年,為了查明當時持續增加的心臟病患者的病因而成立的調查。科霍的研究證明了包括霍亂細菌在內的各種細菌是造成傳染病的原因,由此產生了利用疫苗和抗生素來進行治療的方法。但是,在因為細菌感染而死亡的人數減少之后,與細菌沒有關系的病癥,比如心臟病和癌癥以及腦中風等疾病卻成了以美國為首的發達國家中死亡率最高的疾病,這也成為當時醫學界的一大難題。
在這樣的背景下,以施行新政而聞名的富蘭克林·羅斯福總統對此非常重視(順便說一句,羅斯福總統本人也是死于心臟病),并且由此展開了可以稱為人類史上第一次的大規模流行病學研究項目。不管是心臟病還是霍亂,只要是不明原因的病癥,要想查明其發病原因,只有進行慎重且大規模的數據采集,并且對采集的數據進行仔細分析。除此之外別無他法。
弗明漢當時有大約2.8萬名居民,其中29~69歲的居民中有5 127人響應了研究小組的號召參加了這項研究,占這部分人數的2/3。因為當時對心臟病的成因幾乎沒有任何線索,所以除了性別、年齡等基本信息之外,還記錄了每個人的過往病史與生活習慣、血壓、心電圖、血液成分、社會經濟學指標等各種各樣的項目。當時采集的血液,隨著后來檢查方法的不斷進步又追加了很多檢查項目,因此一直冷凍保存至今。
弗明漢研究一直到今天仍在繼續,每當有其他研究出現新進展的時候都會對其進行追加的項目調查,如今參加最初研究的那些人的后代還參加了對遺傳因子的調查研究。
弗明漢研究針對5 000余名對象定期進行檢查與詢問,調查頻率是每兩年1次。
如此大規模而且徹底的調查研究,為什么不每年進行呢?實際上當時的研究者也非常渴望能夠做到1年1次。但是,由于當時的技術能力所限,每兩年進行一次就已經是調查頻率的極限了。
至于限制調查頻率的原因,則是數據輸入、管理以及采集所花費的時間和精力。
弗明漢研究小組在最初進行數據采集時所使用的設備,據說只有一臺大型穿孔卡片機。
說起穿孔卡片,可能很多人連實物都沒有見過吧。簡單來說就是在一個厚紙片上利用物理手段打孔,根據打孔的位置記錄數據。
首先,人工記錄5 000人的生活習慣和血液檢查的結果,再將數值轉換為穿孔卡片進行保存,檢查是否有錯誤,然后對各個調查項目的平均值和比例進行綜合統計。進行這樣的工作,每兩年一次的頻率已經是極限了。
至于弗明漢研究的目標“找到心臟病的成因”,需要對各個變量和多樣的調查項目之間的關聯性進行分析,這就需要用到邏輯回歸的分析方法(實際上,邏輯回歸分析本身就是因弗明漢研究而誕生的方法)。但是,對5 000名研究對象的數據進行分析,就相當于使用5 000個質數的矢量,進行包括對數變換在內的非常繁雜的矩陣計算,只有這樣才能夠得出最終答案。
一直到20世紀60年代國際商業機器公司(IBM)發明了大型通用計算機,并且將其應用到研究中之后,弗明漢研究才能夠對10年間的調查數據進行分析。
無聊的“紙和筆的統計學”已經過時了
另外,以前的統計學教育只能依靠黑板和粉筆,或者紙和筆,主要以理解算式,對幾十個數據進行手工計算和分析為主。但是,現在的統計分析只需要寫一個簡單的程序,或者使用現成的統計分析工具,對大規模的數據進行實際分析也成為可能。
雖然我們現在主要使用的統計學思考方法和分析方法,早在幾十年前就已經基本完成,但是像現在這樣讓每個人都能夠隨時隨地地簡單使用,還是在20世紀末計算機技術發生革命性進步之后,才得以實現的。
以前的紙和筆的統計學與現代的計算機統計學之間存在著巨大的差距,現代的統計學家必須在精通數理知識的同時,還掌握計算機技術的應用。
如果本書的讀者朋友們在大學時代對統計學課程留下了一種無聊的印象,那么可能是因為只接受過“紙和筆的統計學”教育,所以對于一直在時代最前沿給出最佳解答的計算機統計學的力量沒有切身感受,這也是情有可原的。
“大數據”時代濃濃的統計學氣息
統計學在近幾年的變化,可以說受計算機的影響最為強烈。
計算機使商業模式發生了翻天覆地的變化。商品的采購、庫存、銷售等記錄基本上全都已經數據化,成本和銷量的把控與用紙筆進行管理的時代相比也變得更加簡單。顧客資料與消費記錄、工作人員的工作時間與評定、健康狀態、支付的報酬與成本核算等信息,都可以存儲在公司內部系統和Excel電子表格中。為了生產而進行的機械操作、到自己公司網站的鏈接,基本上所有的登錄情況都會被記錄下來,必要時可以綜合統計作為經營的參考。就算說那些大型公司幾乎所有的業務流程已經全部實現電子化,也不為過。
關于我們 | About zj123 |法律聲明 | 友情鏈接 | 建議留言 | 網站地圖 | 聯系我們 | 最新資訊
客服:0571-87896971 客服傳真:0571-87298208 543059767 1091140425
中國電子商務網站百強 © 2002-2012 zj123.com All Rights Reserved
浙ICP備11047537號-1