參考資料
- 基礎知識
- 變異數 (variance)
- 標準差 (standard deviation)
- 大數定律 (Law of large numbers)
- 條件機率 貝氏定理 (Conditionl Probability)
- 範例:檢驗準確率、實際有服用興奮劑的機率
- 應用貝氏定理 在工作、創業
- 常態分佈 Normal Distribution
- 背景:常態分佈 v.s. 長尾分佈
- 常態分佈 基礎
- 中央極限定理
- 常態分布 :
- 常態分佈的應用
- 群體裡的個數愈多,則平均標準差會愈小
- 顯著性檢定
- 六個標準差方法 (Six sigma Method)
- 對數常態分佈 - Intro
- 常見的 對數常態分佈範例:
- 長尾分佈 (Long-tailed Distribution)
- 長尾分佈 - Intro
- 長尾分佈 - 範例:
- <6> 長尾分佈 - 偏好依附模型 (Preferential Attachment Model)
- 可用來解釋這些情境:
- <7> 長尾分佈 - 自我組織臨界模型 (Self-Organized Criticality Model)
- 可用來解釋這些情境:
- 冪律分布 (Power-law Distribution)
- 齊夫分佈(Zipf distribution)
- 齊夫分佈 範例
- 統計謬誤
- 基本比率謬誤(Base Rate Fallacy)
- 辛普森悖論(Simpson's paradox)
- 倖存者偏見(Survivorship Bias)
基礎知識
變異數 (variance)
- 用來測量分布的離散程度。
- 變異數是各資料點到平均值的距離平方的平均值。
- 如果分布中,所有資料點數值都相同,則變異數為0。如果一半的資料值為4、另一半為10,則平均每個資料點與平均值的距離為3,變異數等於9
標準差 (standard deviation)
- 標準差 = 變異數的平方根
大數定律 (Law of large numbers)
- 同一件事做很多次,總體平均收益會接近期望值
- 在一個無限遊戲中,永遠要選數學期望高的選項,即使這個選項未必能為你帶來成功
- 使個體的不確定性被轉化為群體的確定性
- 頂尖的專業投資人之所以頂尖,是因為他獨有的投資原則的數學期望比其他人高,同時他對大數定律的信仰比別人強
Example:詐騙電話
- 會受騙的人不多,所以單一 一次詐騙的成功率不高
- 但只要嘗試夠多次,排除掉「不容易被騙的人」,找出「容易被騙的人」,用力騙一次,把錢騙到手
條件機率 貝氏定理 (Conditionl Probability)
Intro
- P(A|B)
- 「『事件A』在『事件B發生的條件下』發生的機率」
範例:檢驗準確率、實際有服用興奮劑的機率
事件描述:
- A: 運動員有服用興奮劑的事件
- B: 檢驗結果為陽性的事件
- ~B: 檢驗結果為陰性
- P(A) = 2%, 運動員有服用興奮劑的 機率
- P(B|A) = 95%
- 檢驗測試的正確率 = 95%
- = 實際上有服用興奮劑的情況下,測試結果為陽性的機率
- = 實際上沒有服用興奮劑的情況下,檢驗結果為陰性的機率
- P(A|B),即「在測試結果為陽性的情況下,實際上有服用興奮劑的機率」
有 19+49 = 68 人被檢測為陽性
檢驗結果為陽性,且實際上有服用興奮劑的機率 = P(A|B) = 19 / 68 = 28%
解讀:
- 如果某人的檢測呈陽性,這人真正服用興奮劑的可能性只有19/68 = 28%——其他72%的陽性檢測是假指控。雖然藥物檢測可以宣稱「95%準確」,但檢測呈陽性的大多數人事實上是未服用者
- 這種明顯的矛盾在現實生活中會造成問題:因為運動員沒有通過藥物檢測,便遭人隨意指責
根據貝氏定理,P(B) = (0.02 * 0.95) / 0.28 = 6.8%
P(B) = 測試結果為陽性的機率 = 6.8%
注意:
- P(B|A) = 檢驗測試的正確率 = 有服用興奮劑,且檢測呈陽性的機率 = 95%
- P(A|B) = 檢驗結果為陽性,且實際上有服用興奮劑的機率 = 28%
應用貝氏定理 在工作、創業
- 貝氏定理可以:
- 「使用領域知識、新獲得的資料證據 」,來不斷「更新你現有的認知」,「綜合所有資訊」去描述世界的狀態
- 隨著你不斷更新「搜集新的資料」,貝氏統計不會決定你的預測結果,反而是「更新你的認知」,知道「這個預測結果的 未知風險 有多大」
- 我們並非總是能拿到很多樣本作為參考,貝氏統計在你搜集到少少資料點的時候,就幫你清楚量化估計的「不確定性」有多大,讓你有個標準可以決定「該不該採用這項估計做決策」。貝氏統計的參數估計分佈讓你知道你還有多少「不知道」。
- 結論:「正確的事情,重複做」
- 用貝氏定理不斷復盤、改進自己的流程,從而總結出那些「會帶來成功機率大的事情」,也就是「正確的事情」
- 然後透過重複做這些正確的事情,在每一輪競爭中戰勝競爭對手,獲得下一輪融資,最終贏得巨大成功。
常態分佈 Normal Distribution
背景:常態分佈 v.s. 長尾分佈
- 社會上的許多現象,例如銷售資料或投票總數這類加總資料,都可以看成 隨機事件的總和,呈現 常態分佈。
- 例:由常態分布可以得知,身高不會有極端差異,因此飛機設計師不用為三公尺高的人設計伸腳空間
- 例:防止抗爭發生最主要取決於安撫極端份子,而非降低不滿意的平均程度
- 另一種分布:長尾分佈
- 地震規模、戰爭死亡人數和書籍銷售量,這些事件大部分發生的數值都很小,但有時候會突然出現龐大數字。
- 例:加州人每年都會歷經超過一萬次地震,除非緊盯著茉莉花瓣是否抖動,不然不太可能會發現有地震。但有時也會有地殼板塊劇烈運動,造成高速公路斷裂和大樓坍塌的巨型地震。
- 瞭解系統產生的結果是 常態分佈 或 長尾分佈,十分重要
- 因為我們想知道電力網會不會有大規模停電危機,或是金融市場會不會造成超級貧富差距。利用分布知識,我們可以預測洪水是否將漫出堤壩、達美航空238班機準時抵達鹽湖城的機率,以及交通運輸中心成本超出預算一倍的機率。
常態分佈 基礎
中央極限定理
- 20 個以上的 獨立隨機變數 的平均值會近似於常態分佈
- 前提:
- 所有隨機變數之間是獨立的
- 變異數的大小有限
- 沒有任何小群組的變數貢獻了大部分的變異數
常態分布 :
- 平均值正負一個標準差之間包含 68% 的資料點、兩個標準差包含 95%、三個標準差包含 99%
- 任何大小的結果或事件都有機率發生,雖然大數值事件的發生機率極低──距離平均值五個標準差的事件,只有兩百萬分之一的發生機率
常態分佈的應用
群體裡的個數愈多,則平均標準差會愈小
- 所以:在愈小的群體,愈容易看到極好 or 極壞 的事件
- 例:
- 住在小城市,要不是非常安全、要不就非常危險
- 人口較少的國家,肥胖和癌症發生的機率特別高
顯著性檢定
- 如果觀測到的實際平均值落在假設平均值的兩個標準差之外,社會科學家就會認定這個假設是錯的
六個標準差方法 (Six sigma Method)
- 利用常態分佈提供品質管制的相關資訊
- 假設:產品誤差在 6 個標準差之內都算合格
參考筆記:
對數常態分佈 - Intro
- 若利用中央極限定理,則需要將獨立的隨機變數加總或平均,來得到常態分布。
- 如果隨機變數使用加法以外的方式互動,或者並非獨立,產生的分布就幾乎都不是常態分布。
- 如果獨立隨機變數 相乘 產生的隨機變數為 對數常態分布 (而非常態分布)
- 對數常態分布只能包含正數、同時擁有長尾型態,代表可能出現更多的大數值事件,而小數值事件發生的機率則比常態分布還多
- 對數常態分布的長尾,長度取決於隨機變數的變異數相乘結果。如果變異數很小,尾巴就會很短;如果變異數很大,尾巴就會非常長。理由就如同上一段提到的,一系列大數值相乘,會產生非常巨大的數值
常見的 對數常態分佈範例:
- 英國農莊大小
- 地球礦物集中度
- 從感染疾病到出現症狀的時間
- 許多國家的收入分布也很接近對數常態分布,但是很多國家的長尾端有太多高收入人群,導致偏離了對數常態分布。
範例:公司用不同方式對員工加薪,導致薪水數字呈現不同種類的分佈
長尾分佈 (Long-tailed Distribution)
長尾分佈 - Intro
- 非獨立事件、且通常為 “正回饋” 的數據,有 極端大數值 的事件
- 回饋 和 交互作用,會造成長尾分佈
- 世界上各種 國家/公司/人群 之間的相互連結和回饋持續增加,我們會看到愈來愈多呈現長尾分佈的事情
- 且其 “尾部” 會拉得更長
- 這代表:
- 不公平的事情其極端值得不公平程度會擴大
- ”大數值事件“ 通常只佔少數
- 大部分地震的規模都很大地震的雖然發生機率小,但一但發生時可能就會很嚴重
- 常態分布 vs 長尾分布
- 在 常態分布 中,幾乎看不到大數值事件。
- 在 長尾分布 中,雖然大數值事件也很少發生,但發生頻率已足夠得到關注,且我們必須為這些事件做好準備。就算是發生機率僅有百萬分之一的事件,也很值得注意
長尾分佈 - 範例:
- 一個國家中各個城市人口的數量
- 當大城市人口增加的同時,新建的公共設施和工作機會將吸引更多人遷入 (相較於其他較小的城市)
- 書籍銷售量、影片下載次數、學術論文引用次數
- 當有人購買《哈利波特》小說時,基於口碑,會讓其他人的購買機率增加
- 森林大火、水災、地震嚴重的程度
- 當一棵樹著火時,火勢會延燒到鄰近樹木
- 當醫生 vs 當 startup 企業家
- 假設當醫生的薪水:
- 呈現常態分佈
- 平均值較高
- 假設當 startup 企業家的薪水:
- 呈現長尾分佈
- 冪率分佈的指數絕對值 = 3
- “一個人可以嘗試新工作的次數” 決定了 “他能找到的工作的薪水有多高”
- 假設 A 是醫生,B 是 startup 企業家。A 持續換工作但持續當醫生,B 持續換工作但持續當醫生 startup 企業家,B 能獲得的薪水可能比 A 高
- 人去陌生的某國家,選擇中午午餐要吃什麼
- 如果只是短暫待幾天
- 人會傾向選擇 “網路上好評較多的餐廳” or “知名的連鎖餐廳”
- 如果是長住一陣子 (代表人需要吃很多次午餐,有很多次 “選擇餐廳” 的機會)
- 人會願意 嘗試許多不同型態的餐廳
- 物種滅絕
- 網路連結數目
- 戰爭傷亡人數
<6> 長尾分佈 - 偏好依附模型 (Preferential Attachment Model)
Intro
- 認為實體的成長率相當於實體的占比
- “單獨個人的行動” 會提高其他人做相同行動的機率
- 符合馬太效應:大者恆大、贏家通吃
可用來解釋這些情境:
- 各個城市人口分布 (當城市人口增加時,新建的公共設施和工作機會將吸引更多人遷入)
- 書籍銷量 (當有人購買《哈利波特》小說時,基於口碑,會讓其他人的購買機率增加,且很多人是看書店銷售排行榜來買書)
- 音樂下載量
- 大學大一新鮮人,選擇加入社團:
- 加入 「人數多的社團」的機率 高於 加入「人數少的社團」
- 選擇「加入現有社團」的機率 高於「自己去建立新的社團」
<7> 長尾分佈 - 自我組織臨界模型 (Self-Organized Criticality Model)
Intro
- 森林會自然而然會達到臨界密度,
- 因為如果密度較低,火災規模較小,則森林密度會逐漸增加
- 如果森林密度超過某個臨界值,則星星之火就可以燎原
- 巨觀變數值會在事件發生時 (沙堆崩塌或森林大火),迅速減少。
- 其他相仿的自我組織臨界模型(可以解釋太陽閃焰、地震和交通阻塞分布),也有類似的特徵
- 雖然「在事件發生時,造成原本不斷增加的巨觀層級變數值瞬間下降」是自我組織模型的必要條件
- 自我組織臨界狀態必定會發生變數值瞬間下降,但發生變數值瞬間下降並不代表一定是到達了自我組織臨界狀態
- 平衡系統也有這些特性,湖中的水隨時都在流進流出,但因為水流量十分平穩,湖水面的變化非常緩慢。自我組織達到臨界狀態的重要假設為:壓力慢慢增加時,就像水流入湖中般十分平穩,可是達到臨界狀態時,壓力會急遽下降,並且可能發生大數值事件
可用來解釋這些情境:
- 交通阻塞
- 戰爭的死亡人數
- 地震、火災、雪崩的規模
冪律分布 (Power-law Distribution)
- 事件發生機率和事件大小的負指數成正比。
- 冪律分布中,事件數值愈大,發生機率愈低,事件數值和發生機率呈現負相關。
- 在冪律分布中,小數值事件的發生機率比大數值事件高出許多。
- 並不是所有長尾的分布都是 冪律分布
- 例如:對數常態分布,就不是冪律分布
- 在雙對數坐標上繪製分布,可以簡單檢測分布是否為冪律分布
- 雙對數坐標圖將 事件大小 和 機率 都轉換為對數值,並將冪律分布轉換為一條直線
- 在雙對數坐標上的分布若為直線,就能證明是冪律分布
- 而如果直線逐漸下彎,則符合對數常態分布或指數分布(exponential distribution)
- 對數常態分布的曲線下彎率,取決於構成分布的變數的變異量。
- 如果增加對數常態分布的變異數,則尾巴會加長,讓雙對數坐標上的曲線更接近直線。
- 冪律分布的指數大小,決定了大數值事件的發生機率。
- 指數等於 1
- 例如:大小數值為100的事件,發生機率正比於1/100
- 如果指數絕對值為2或以下,冪律分布會缺乏定義良好的平均值。從指數絕對值1.5的冪律分布中抽出資料,平均值並不會收斂,而會不受限制的增加──如圖6.1左側,曲線往上竄升的情況
- 指數等於2 的冪律分布 稱為 齊夫分布(Zipf distribution)
- 事件發生機率與事件大小的平方成反比。
- 例如:大小數值為100的事件,發生機率正比於1/10000
- 假如指數增加到3,
- 例如:大小數值為100的事件,發生機率則正比於1/1000000
齊夫分佈(Zipf distribution)
Intro
- 指數等於2 的冪律分布,稱為 齊夫分布(Zipf distribution)
- 在齊夫分布中,事件排名 乘以 發生機率,會等於常數,這項規則稱為齊夫定律(Zipf's Law)。
齊夫分佈 範例
- 英文單字
- 最常見的英文單字the,出現機率約為7%
- 次常見的單字of,出現機率約為3.5%。
- 請注意,排名 “2” 乘以出現機率 “3.5%” 等於7%
- 如果災難事件發生機率呈現冪律分布、且指數接近2,則政府必須保留大量預備金,隨時準備支應災難支出。畢竟未雨綢繆,有備無患。如果政府決定維持大量預備金,則在還沒有發生大災難時,就不應隨意花費這筆資金或任意減稅
- 包含美國在內,許多國家的城市人口數目分布,近似於齊夫定律。
- 若使用美國2016年城市人口資料進行驗證,會發現每個城市排名乘以人口數,會接近八百萬
統計謬誤
基本比率謬誤(Base Rate Fallacy)
範例:Google的搜索引擎市場有多大,究竟要怎麼定義?
辛普森悖論(Simpson's paradox)
問題到底出在哪裡?出在分群組原則上。某些特定的分群組原則確實有可能導致「在總評中弱勢的一方在分組比較中反而占優勢」這種情況的出現。
倖存者偏見(Survivorship Bias)
所有成功的企業家都是商業世界的倖存者,只學習這些倖存者是不可能得出正確結論的。要想找到真正的成功祕訣,你應該在全部樣本中抽樣統計,去採訪一下那些創業失敗的人。當你這樣做了之後,你可能會發現,他們也挺堅持的,只是堅持的事情不對。