(作者:吳榮彬 老師/逢甲大學統計學系)
以下這一段文字會連續出現四週,原因是我必須保證後來的讀者也能清楚知道這四週徵文活動的本意。
我計畫在「數字會不會說話」系列文章的前四篇各出一道與數字有關的小問題,徵集逢甲大學讀者的答題回覆,並且在活動結束後致送勝選文章一篇一份神祕禮物。嚴格說起來一開始這四篇不能被歸類為文章,它們只是一個引子,引領有興趣、有創意的讀者進入數據分析的殿堂。請有意願參與競賽的讀者在2012年3月15日到2012年4月30日活動期間回覆我的每週一問。比賽詳情,請前進http://www.library.fcu.edu.tw/libnews/?p=2781。
第四週的題目說明如下:
第一組 |
2 |
4 |
6 |
8 |
10 |
12 |
第二組 |
2002 |
2004 |
2006 |
2008 |
2010 |
2012 |
如何表達上下兩組數據的不一樣? [提示] 設計一個跟風險有關的數字。
本週題目出現兩組數據。它們是經過設計的,一般而言,現實環境裡不會看到這麼整齊劃一的數據集。針對這兩組數據,我做了一些基本的假設:
- 第一組跟第二組來自不一樣的母體。
- 它們有著一樣的單位。
- 第二組確實是第一組加上2000得到的,會看到這麼整齊畫一的數學關係,純粹是我故意的。
- 這兩組數據集都跟財富有關。
- 兩組數據集的其中一組可以假設跟窮人有關。(這純粹是為了呼應我的題目,當然也是我刻意的,請讀者海涵。)
- 窮人的生命風險比富人高(希望你同意!)。
統計學家通常會用一些數字試圖理解原始數據,諸如透過平均數、中位數、眾數發現原始數據的位置;透過全距、四分位數間距、變異數、標準差發現原始數據的分散程度。位置與分散是統計學家的言語。為了讓學生理解統計學家的「分散」,我在課堂上常用「胖瘦」試著解釋因為分散程度不一所帶出來各種分配的形狀。但是不管我多努力,還是有許多人無法弄懂變異數。後來經驗多了,我會跟學生這麼說:「變異數大代表意見(比較)不一致、變異數小代表意見(比較)一致。」學生好像比較懂了。
但是問題又來了。保險從業人員如何解釋變異數呢?財務管理專家又如何解釋變異數呢?在某一個特定領域,所謂的意見一致又是什麼意思呢?變異數是一個學過統計學的人都聽過的數字,大部分的人們認為它是不好懂、不好算的統計數字。事實上,變異數再怎麼不討喜,人們依舊大量採用。但是變異數也有詞窮的時候,現實世界裡確實有那種原始數據集明明大不同但是變異數算出來卻相等的案例。這時候專業人士或是該領域的統計學家會試著發明一個新的、足以區分彼此的數字,取代變異數在該專業領域的角色。
最後一週的題目,希望讀者試著找找看,想辦法找到或是發明一個跟窮人風險有關的數字(包含它的算法)。接著分別把題目提供的第一組跟第二組原始數據代入之後,因為我們假設窮人承擔的風險比較高(跟第六項假設有關),所以窮人那一組數據的計算結果應該會得到比較大的數字。
以往的案例告訴我,對一位沒有經驗、希望吸收經驗的新進數據分析師而言,第一時間沒有那一絲絲線索是正常的。我的引言到此,希望各位讀者諸君努力想答案;或是努力Google一下找答案。
※有意挑戰本週答題者,請於下方「Discussion Area」發表您的意見!
回顧歷週文章,請連結:報到率、全球化、瞎說
假設錢對於窮人來說是非常重要的,所以只要身邊有一塊錢,能存則存;而富人則是把錢拿來投資,剩下的錢才拿去儲蓄。所以我根據這個假設來設計一個式子:
風險(R) =存入(i)*[1+利率(r)]^年-未存入(o)
假設題目的兩組數字同在相同的r=0.01,這兩組數字代表著存入(i)的值,令每組數字的第一個為未存入(o),每個數字都隔一年。
帶入數字後:
第一組數字→
2*(1+0.01)^1-2=0.02;
4*(1.01)^2-2=2.0804;
6*(1.01)^3-2=4.1018;
8*(1.01)^4-2=6.3248;
10*(1.01)^5-2=8.5101
第二組數字→
2002*(1.01)^1-2002=20.02;
2004*(1.01)^2-2002=42.2804;
2006*(1.01)^3-2002=64.7838;
2008*(1.01)^4-2002=87.5329;
2010*(1.01)^5-2002=110.5302
根據上面式子算出來的值來做個簡單的分析,我發現第一組數字的風險顯然小於第二組數字所算出的風險,故我大膽假設第二組數字是屬於窮人的。因為窮人非常注重儲蓄所以會把所有積蓄都寄託在銀行或者郵局內,相對的,富人因為對於儲蓄較不重視,所以多把金錢拿來投資,僅剩的錢才拿去做小儲蓄。簡單定義本式子的「風險」,是指金錢擁有者把錢寄託給郵局或銀行的風險。
由上面的式子看來,因為富人不重視儲蓄,每年增加的風險比較少;而窮人因為都把錢存入郵局或銀行,使得每年風險增加的速度遠遠高過於富人。
以上是我根據題目所設計得式子,不知道是否符合題意或者是否合理,希望能夠得到老師的肯定與批評。
風險大概分類成以下幾種:
(1)市場風險、(2)信用風險、
(3)市場流動性風險、(4)資金調度流動性風險、
(5)系統及事件風險、(6)法律風險、
(7)作業風險、(8)模型風險(9)其他。
一般情況下大家都不用承擔風險,
但是當你投資的時候就無可避免的承擔風險,
不論資金多寡。
到這裡聽起來都算合理。
但是你”只能”投資一塊錢時跟你投資一百萬時風險真的一樣嗎?
假設:題目是在敘述一個社會或國家,情況假設為M型社會
第一組數字是指一群社會中最左端(極貧)
第二組數字是指一群社會中最右端(極富)
這兩群人的物價指數相同。
按照上述理論,我們把所有財務投資出去,
所要承擔的風險應該相同,
現實上我們要生活,但我們也真的需要投資,
有2000萬的人損失了200萬。可能只是飯後閒聊。
但是2萬塊的人損失了2000塊。可能已經在想這個月要捨棄什麼開銷了。
此處照上面風險的計算到最會是相同的,
但是事實真的一樣嗎?
假設我們計算改成
(X(總資產)*(1+R(投資報酬率)))/CPI (物價指數)
CPI: 108.0 (民國100年12月by國家統計月報)
第一組:20,000*1.01/108= 187.04
第二組:20,000,000*1.01/108= 187,037.04
這樣相較下是不是比較符合現實感受?
這些只是粗淺的估計,但是我想表達的是,
市面上大多的指數(EX:痛苦指數、CPI…)都沒有把大家的財產,
生存風險計算進去,大家都忽略掉、沒看到,但現實呢?
其實當我看完題目時,對於本題的確有些卻步,也許是對我來說太難了,讓我無法思考出更佳的解答。而我第一個想到的就是之前修投資學時有上過…以變異數衡量風險的算法,統計學也學過變異數、標準差,但當我利用課本裡的公式時,兩個求出來的解竟然相同(都為14),因此我開始產生疑惑,後來發現這樣有規律的數字(差都相同),求出來的結果當然會相同…,此題變異數的確辭窮了,所以我得自己設計出一個和風險有關的公式讓結果能得出窮人的生命風險比富人來得高,由於窮人相對於富人較沒有經濟能力去購買各式各樣的保險,當碰到事故時,相對就少一份保障,所以相對富人,窮人的生命風險必然較為高。
我先假設了 第一組數據是窮人
第二組數據是富人
(他們都能利用一半的錢去買保險)
富人第一年能利用1001萬元去買保險,則窮人僅能用1萬元去買保險
富人第二年能利用1002萬元去買保險,則窮人僅能用2萬元去買保險
…
….
富人第五年能利用1005萬元去買保險,則窮人僅能用5萬元去買保險
富人第六年能利用1006萬元去買保險,則窮人僅能用6萬元去買保險
而我設計了一個簡單的公式為:R=1/(賺進的錢-投保金額)
第一組~窮人:
1) 第一期:1/1=1.000
2) 第二期:1/2=0.500
3) 第三期:1/3=0.333
4) 第四期:1/4=0.250
5) 第五期:1/5=0.200
6) 第六期:1/6=0.167
第二組~富人:
1) 第一期:1/1001=0.000999
2) 第二期:1/1002=0.000998
3) 第三期:1/1003=0.000997
4) 第四期:1/1004=0.000996
5) 第五期:1/1005=0.000995
6) 第六期:1/1006=0.000994
因此我們可以看出,計算出風險較大的第一組的確是窮人,第二組則是富人。
而我的另一個想法是…
數據為窮人、富人投入保險的金額,
並將原有的變異數公式做點改良~
R=[Σ(Xi)^2-n(X平均)^2]/(n-1)*Xi
如此可得出…
第一組~窮人:
1) 第一期:14/2=7
2) 第二期:14/4=3.5
3) 第三期:14/6=2.333
4) 第四期:14/8=1.75
5) 第五期:14/10=1.4
6) 第六期:14/12=1.167
第二組~富人:
1) 第一期:14/2002=0.006993
2) 第二期:14/2004=0.006986
3) 第三期:14/2006=0.006979
4) 第四期:14/2008=0.006972
5) 第五期:14/2010=0.006965
6) 第六期:14/2012=0.006958
因此我們也可看出,第一組為窮人,第二組為富人,隨著投入保險的金額增加,所需要承擔的生命風險也會越來越小,但窮人仍是比富人須承擔更多的生命風險,畢竟富人投入的金額也較多,因此所需擔負的風險也趨小。