(作者:吳榮彬 老師/逢甲大學統計學系)
以下這一段文字會連續出現四週,原因是我必須保證後來的讀者也能清楚知道這四週徵文活動的本意。
我計畫在「數字會不會說話」系列文章的前四篇各出一道與數字有關的小問題,徵集逢甲大學讀者的答題回覆,並且在活動結束後致送勝選文章一篇一份神祕禮物。嚴格說起來一開始這四篇不能被歸類為文章,它們只是一個引子,引領有興趣、有創意的讀者進入數據分析的殿堂。請有意願參與競賽的讀者在2012年3月15日到2012年4月30日活動期間回覆我的每週一問。比賽詳情,請前進http://www.library.fcu.edu.tw/libnews/?p=2781。
第三週的題目說明如下:
如果統計二甲的每個人都是19歲,那麼統計系的每位大學生也是19歲? [提示]邏輯推理與研究方法。
直到我寫第三週題目,依然無人試圖回答第二週的問題。希望不是我的題目太難!
這一週的問題真的是瞎說。怎麼可能統計系不分大一、大二、大三、大四都是同一個年紀!這絕對是瞎說。但是你如何透過統計手段找到推翻瞎說的確切證據?統計推論首重證據力,就像法官論斷嫌疑犯有沒有罪一樣。統計學家或是專業人士透過調查、實驗、觀察收集數字證據。人文社會科學家常用調查;工程科學家常用實驗;自然科學家常用觀察。不論哪一種數字收集手段,都不能沒有對象。對象可能是問卷調查的受訪者、工程師試圖延長壽命的電池、生物學家試驗新藥的白老鼠等等。『找到對象』是讀者回答這一週問題的關鍵。請努力找到他們吧!大家加油不要放棄!
※有意挑戰本週答題者,請於下方「Discussion Area」發表您的意見!
回顧歷週文章,請連結:報到率、全球化
前進第四週文章:窮人的風險
首先,這個題目看似很容易被推翻,但是要根據一些證據來推翻這個假設,並不容易。以下是我對此題目所做的證據推測:
假設以下無跳級或晚讀的因素,一般來說台灣的大學生年紀介於17歲到22歲之間,平均分配在大一到大四的年級層,而大一到大四的學生中,二年級的學生只占四分之一,又統計系每個年級有兩個班,所以就算我們已知統計二甲的學生都是19歲,那也只占整個統計系的八分之一,這個原因足以證明本題目的假設嚴重錯誤。
如果前項證據還不夠充足的話,我認為我們可以做實地調查,或許普查或許抽樣,以抽樣來說雖然有可能會有樣本數過少導致抽樣結果偏頗,但是這也是一種表達真實面的做法。針對統計系所有學生以亂數表抽取所需樣本進行調查,假設抽到的學生多為19歲學生,那麼我們只能大膽假設統計系學生大多為19歲學生,但是不無可能恰巧的都抽到統計二甲的學生。所以我認為可以先把統計二甲的學生先排除在外,對於未知其年齡的其他學生做抽樣調查,這樣一來,根據第二段的假設,我可以大膽推測,第二次抽樣所抽到的學生不會百分之百都是19歲的學生,由此可知,我們知道「所有統計系的學生都為19歲」這個假設,產生了嚴重的瑕疵。
以上淺見。
如果統計二甲的每個人都是19歲,那麼統計系的每位大學生也是19歲。這句話說不通,本周的題目的確是瞎說,怎麼可能統計系大一~大四的學生都同樣是19歲呢?除非統計系三、四年級所有人從小就都是跳級的學生,大三的學生都資優跳級一年、大四的學生都資優跳級兩年,一年級的學生就大家都是留級生,都留級了一年,而且二年級以及其他所有的統計系學生大家還要同樣都在十九年前的今天以後才出生,不然比起其他人,他今天就先成年了,而這有可能嗎?機率簡直微乎其微,那麼我們要如何拆穿這個瞎說呢?其實不難,方法也百百種,諸如抽樣調查、問卷調查、調閱學校的紀錄…等,第一種我們使用抽樣調查、問卷調查,我們務必要避免的就是其可能產生的誤差,因為在抽樣的過程中,可能抽樣人員抽樣調查的人都剛好是19歲,所以抽樣的母體相對要大一點以避免這個誤差出現,或者準確的抽統計系各個年級的人來做問卷調查(例如各班的前四名…等)。第二種我們使用調閱學校的紀錄,此種方法可以一個不漏的涵蓋整個母體(也就是統計系所有的學生)。而當抽樣抽到或查到小於19歲或大於19歲的統計系學生時,哪怕是只有一、兩個人,我們即可推翻這個假說了。利用統計出來的數據我們可以直接的看出「統計系的每位大學生都是19歲」這句事實並非如此,我想本周的題目「瞎說」是以偏概全了。