(作者:吳榮彬 老師/逢甲大學統計學系)

以下這一段文字會連續出現四週,原因是我必須保證後來的讀者也能清楚知道這四週徵文活動的本意。

我計畫在「數字會不會說話」系列文章的前四篇各出一道與數字有關的小問題,徵集逢甲大學讀者的答題回覆,並且在活動結束後致送勝選文章一篇一份神祕禮物。嚴格說起來一開始這四篇不能被歸類為文章,它們只是一個引子,引領有興趣、有創意的讀者進入數據分析的殿堂。請有意願參與競賽的讀者在2012年3月15日到2012年4月30日活動期間回覆我的每週一問。比賽詳情,請前進http://www.library.fcu.edu.tw/libnews/?p=2781

第四週的題目說明如下:

第一組

2

4

6

8

10

12

第二組

2002

2004

2006

2008

2010

2012

如何表達上下兩組數據的不一樣? [提示] 設計一個跟風險有關的數字

本週題目出現兩組數據。它們是經過設計的,一般而言,現實環境裡不會看到這麼整齊劃一的數據集。針對這兩組數據,我做了一些基本的假設:

  1. 第一組跟第二組來自不一樣的母體。
  2. 它們有著一樣的單位。
  3. 第二組確實是第一組加上2000得到的,會看到這麼整齊畫一的數學關係,純粹是我故意的。
  4. 這兩組數據集都跟財富有關。
  5. 兩組數據集的其中一組可以假設跟窮人有關。(這純粹是為了呼應我的題目,當然也是我刻意的,請讀者海涵。)
  6. 窮人的生命風險比富人高(希望你同意!)。

統計學家通常會用一些數字試圖理解原始數據,諸如透過平均數、中位數、眾數發現原始數據的位置;透過全距、四分位數間距、變異數、標準差發現原始數據的分散程度。位置與分散是統計學家的言語。為了讓學生理解統計學家的「分散」,我在課堂上常用「胖瘦」試著解釋因為分散程度不一所帶出來各種分配的形狀。但是不管我多努力,還是有許多人無法弄懂變異數。後來經驗多了,我會跟學生這麼說:「變異數大代表意見(比較)不一致、變異數小代表意見(比較)一致。」學生好像比較懂了。

但是問題又來了。保險從業人員如何解釋變異數呢?財務管理專家又如何解釋變異數呢?在某一個特定領域,所謂的意見一致又是什麼意思呢?變異數是一個學過統計學的人都聽過的數字,大部分的人們認為它是不好懂、不好算的統計數字。事實上,變異數再怎麼不討喜,人們依舊大量採用。但是變異數也有詞窮的時候,現實世界裡確實有那種原始數據集明明大不同但是變異數算出來卻相等的案例。這時候專業人士或是該領域的統計學家會試著發明一個新的、足以區分彼此的數字,取代變異數在該專業領域的角色。

最後一週的題目,希望讀者試著找找看,想辦法找到或是發明一個跟窮人風險有關的數字(包含它的算法)。接著分別把題目提供的第一組跟第二組原始數據代入之後,因為我們假設窮人承擔的風險比較高(跟第六項假設有關),所以窮人那一組數據的計算結果應該會得到比較大的數字。

以往的案例告訴我,對一位沒有經驗、希望吸收經驗的新進數據分析師而言,第一時間沒有那一絲絲線索是正常的。我的引言到此,希望各位讀者諸君努力想答案;或是努力Google一下找答案。

※有意挑戰本週答題者,請於下方「Discussion Area」發表您的意見!
回顧歷週文章,請連結:報到率全球化瞎說