(作者:吳榮彬 老師/逢甲大學統計學系)
以下這一段文字會連續出現四週,原因是我必須保證後來的讀者也能清楚知道這四週徵文活動的本意。
我計畫在「數字會不會說話」系列文章的前四篇各出一道與數字有關的小問題,徵集逢甲大學讀者的答題回覆,並且在活動結束後致送勝選文章一篇一份神祕禮物。嚴格說起來一開始這四篇不能被歸類為文章,它們只是一個引子,引領有興趣、有創意的讀者進入數據分析的殿堂。請有意願參與競賽的讀者在2012年3月15日到2012年4月30日活動期間回覆我的每週一問。比賽詳情,請前進http://www.library.fcu.edu.tw/libnews/?p=2781。
第二週的題目說明如下:
【溫加寶】今年在股市賺進100萬新台幣這樣的事實,會不會改變你在股市賺進100萬新台幣的機會?[提示] 統計獨立性。
這一週我決定除了題目再加上一段小提示。讓有意競逐神祕獎品的讀者能聚焦在某個統計的議題。
上一週的數字是100%,這一週的數字是100萬。並不是因為喜歡100這個數字,而是它影響我們太深、太深了。考試要考100分、人生的第一桶金就是要存個100萬。
這一週的提示 — 統計獨立性 — 是一項重要的假設。獨立性談的是變數與變數之間的一種關係,也會是樣本與樣本之間的關係。這裡我們想先談變數與變數之間的獨立性。不論那一項專業領域都充斥著各種變數,統計分析首重隨機變數,它是一種會跟著機率起舞的變數。意味著,不保證看到變數的那一個數字,想要看到股市衝過8000點,得問問機率大神!機率到底是什麼?體會一下這句話:下一秒的你比現在的你老一秒,這是肯定的,表示看到比現在老一秒的你的機率等於1.0。除非!機率現象俯拾即是,但我們卻只會看到數字。數字暗藏著機率,數據分析師用盡心機就是為了把數字背後的機率挖出來。如果兩變數是統計獨立的,那麼它們彼此帶著關於機率的資訊是不重疊的。意思就是說,如果【溫加寶今年在股市賺進新台幣】這個變數,跟【你今年在股市賺進新台幣】這個變數是統計獨立的,那麼兩變數所帶關於賺進100萬新台幣的資訊不會重複。上述這一句話對不對,請讀者諸君仔細評論。你注意到全球化出現在哪裡了嗎?下週再見。
※有意挑戰本週答題者,請於下方「Discussion Area」發表您的意見!
錯過第一週者請連結:報到率
也歡迎前進看看:瞎說、窮人的風險
假如兩者變數是統計獨立的,那麼溫加寶是否能在股市賺進100萬與你是否能在股市賺進100萬是沒有關係的,所以我們可能會因為「溫加寶能在股市賺進100萬新台幣」而認為「溫加寶可以,我也可以」以致大家都對股市有更多的注意,甚至研究。
我認為溫加寶在股市賺進100萬新台幣,並不會改變其他人在股市賺錢的機會,只要對股市有些鑽研的人,都會希望能在股市賺進大把鈔票,而對於100萬這個數字,溫加寶賺來的原因可能是因為:
1.他對企業與政府、政策之間的關係有強大的洞悉能力
2.他在市場上有足夠能力了解企業間的競爭關係以及各方能力
3.他經長期研究股市,根據經驗法則,成功的機率會提高很多
4.他對於挑對股票有很高的信心以及額外的幸運
….等。
而是否改變我在股市賺錢的機會呢? 並不會,因為根據上述4點,只要我也具備這4點能力的話,要賺進100萬也不是困難的。又因為股票市場千變萬化,可說在一定期間內,不會有相同的股票走勢出現,所以,因為我們與溫加寶投入股市的時間不同,所以我認為「時間」是使得兩著變數為統計獨立。
除此之外,我認為是否會改變其他人賺進100萬的因素有:
1.時間
2.種類(例如:觀光股、銀行股…等)
3.政策(政府推行的政策會影響到股市的發展)
4.全球化(世界脈動當然也會影響到股市走向)
…等
以上淺見。
以統計的角度看這個事件,
在統計學的方面,各個理論上的定義都告訴我們,
當兩個隨機過程保持統計獨立時他們必然是不相關的,
但反過來則不一定成立,
意即不相關的兩個隨機過程不一定能保持統計獨立。
在機率論裡,說兩件事件是獨立的,
直覺上是指一件事的發生不會影響到另一件是發生的機率。
兩者的差別在於前者是長久收集資訊,後者估計事件不相關。
全球化的題目中提到”溫家寶投資一百萬與我們投資一百萬互相比較”,
暫且撇開股票技術資訊來講,就統計方面來講這個事件,
可以比喻為,兩個人花錢進入充滿珍寶的山上,
開始無條件的帶走珍寶,沒有上限想拿多少就拿多少,
但第一個問題出現了,珍寶就這麼多大家都要。
所以就統計的角度來看這個事件,是相關的事件,
第二個問題,為了提高壓對寶的事件機率,
是不是有許多的消息提示、股市上的內線?
相繼接下來遇到的問題,自己所在區塊的寶不能挖了,
那解決的方法當然就是去別人家(國)挖寶,
反正大家現在都說地球是平的嘛!
在這我們可以假設溫家寶是指有錢人,
那全球化指的是全球的有錢人都在用錢賺錢
相對的我們投資錢進去的時後到底是賺還是給別人賺?
以上內容見仁見智,但可以確定的是你的一百萬我的一百萬,
只要拿出來想要讓他變多都是相關的,只是影響程度的多少
如果【溫加寶今年在股市賺進新台幣】這個變數,跟【你今年在股市賺進新台幣】這個變數是統計獨立的,那麼兩變數所帶關於賺進100萬新台幣的資訊不會重複。
我與其他人持不一樣的觀點,我認為是錯誤的,因為就現金流量的觀念來看,股市有一筆100萬元的錢被別人賺走了,有人賺錢了,那必然會有人賠錢,只是損失錢的人是否是我?我不知道,但它應該存在著機率,也就是說,有可能是我也可能是別人,我們所努力的,就是把賠錢的機率壓到最低,把賺錢的機率拉到最高而已。
在此我們假設…
溫家寶在股市賺進100萬元 = 事件A
我在股市賺進100萬元 = 事件B
題目提到下一秒的你比現在的你老一秒,這是肯定的,表示看到比現在老一秒的你的機率等於1.0,在A尚未成為事實前,它的機率也是小於1.0的一個值,但既然A已然成為一項事實,那也是肯定的,代表它發生的機率也是1.0,我們將之記為…
P(A)=1.0
我在股市賺進100萬元的機會記為…
P(B)=機率為多少我們尚且不知道
A發生是必然的,而A發生是否影響到了B的發生?我想是的,正如我前面說到,有人賺錢必然會有人賠錢,當溫家寶在股市內賺進了100萬元,那麼我以及其他人賺到錢的機率就變小了,而且還有可能因此賠錢,因為原本P(A)也是小於1.0的一個數值,但如今它已成為事實,我的股票賺錢的機率仍小於1.0,可能還因此小於它原本的機率值,那麼我們就該承認溫家寶在股市賺到錢的機率變成事實時,會影響我在股市賺到錢的機會了。