統計學、機率

參考資料

多模型思維：天才的32個思考策略-momo購物網

多模型思維：天才的32個思考策略 - momo 購物網

www.momoshop.com.tw

底層邏輯2：帶你升級思考，挖掘數字裡蘊含的商業寶藏-momo購物網

底層邏輯2：帶你升級思考，挖掘數字裡蘊含的商業寶藏 - momo 購物網

www.momoshop.com.tw

基礎
變異數 (variance)
標準差 (standard deviation)
大數定律 (Law of large numbers)
條件機率貝氏定理 (Conditionl Probability)
範例：檢驗準確率、實際有服用興奮劑的機率
應用貝氏定理在工作、創業
常態分佈 Normal Distribution
背景：常態分佈 v.s. 長尾分佈
常態分佈基礎
中央極限定理
常態分布：
常態分佈的應用
群體裡的個數愈多，則平均標準差會愈小
顯著性檢定
六個標準差方法 (Six sigma Method)
對數常態分佈 - Intro
常見的對數常態分佈範例：
長尾分佈 (Long-tailed Distribution)
長尾分佈 - Intro
長尾分佈 - 範例：
<6> 長尾分佈 - 偏好依附模型 (Preferential Attachment Model)
可用來解釋這些情境：
<7> 長尾分佈 - 自我組織臨界模型 (Self-Organized Criticality Model)
可用來解釋這些情境：
冪律分布 (Power-law Distribution)
齊夫分佈（Zipf distribution）
齊夫分佈範例
統計謬誤
基本比率謬誤（Base Rate Fallacy）
辛普森悖論（Simpson's paradox）
倖存者偏見（Survivorship Bias）

基礎

變異數 (variance)

用來測量分布的離散程度。
變異數是各資料點到平均值的距離平方的平均值。
如果分布中，所有資料點數值都相同，則變異數為0。如果一半的資料值為4、另一半為10，則平均每個資料點與平均值的距離為3，變異數等於9

標準差 (standard deviation)

標準差 = 變異數的平方根

大數定律 (Law of large numbers)

同一件事做很多次，總體平均收益會接近期望值
在一個無限遊戲中，永遠要選數學期望高的選項，即使這個選項未必能為你帶來成功
使個體的不確定性被轉化為群體的確定性
頂尖的專業投資人之所以頂尖，是因為他獨有的投資原則的數學期望比其他人高，同時他對大數定律的信仰比別人強

Example：詐騙電話

會受騙的人不多，所以單一一次詐騙的成功率不高
但只要嘗試夠多次，排除掉「不容易被騙的人」，找出「容易被騙的人」，用力騙一次，把錢騙到手

條件機率貝氏定理 (Conditionl Probability)

Intro

P（A|B)
「『事件A』在『事件B發生的條件下』發生的機率」

範例：檢驗準確率、實際有服用興奮劑的機率

事件描述：

A: 運動員有服用興奮劑的事件
B: 檢驗結果為陽性的事件
~B: 檢驗結果為陰性

P(A) = 2%，運動員有服用興奮劑的機率
P(B|A) = 95%

檢驗測試的正確率 = 95%
= 實際上有服用興奮劑的情況下，測試結果為陽性的機率
= 實際上沒有服用興奮劑的情況下，檢驗結果為陰性的機率

P(A|B)，即「在測試結果為陽性的情況下，實際上有服用興奮劑的機率」

有 19+49 = 68 人被檢測為陽性

檢驗結果為陽性，且實際上有服用興奮劑的機率 = P(A|B) = 19 / 68 = 28%

解讀：

如果某人的檢測呈陽性，這人真正服用興奮劑的可能性只有19/68 = 28%——其他72%的陽性檢測是假指控。雖然藥物檢測可以宣稱「95%準確」，但檢測呈陽性的大多數人事實上是未服用者
這種明顯的矛盾在現實生活中會造成問題：因為運動員沒有通過藥物檢測，便遭人隨意指責

根據貝氏定理，P(B) = (0.02 * 0.95) / 0.28 = 6.8%

P(B) = 測試結果為陽性的機率 = 6.8%

注意：

P(B|A) = 檢驗測試的正確率 = 有服用興奮劑，且檢測呈陽性的機率 = 95%
P(A|B) = 檢驗結果為陽性，且實際上有服用興奮劑的機率 = 28%

應用貝氏定理在工作、創業

貝氏定理可以：

「使用領域知識、新獲得的資料證據」，來不斷「更新你現有的認知」，「綜合所有資訊」去描述世界的狀態
隨著你不斷更新「搜集新的資料」，貝氏統計不會決定你的預測結果，反而是「更新你的認知」，知道「這個預測結果的未知風險有多大」
我們並非總是能拿到很多樣本作為參考，貝氏統計在你搜集到少少資料點的時候，就幫你清楚量化估計的「不確定性」有多大，讓你有個標準可以決定「該不該採用這項估計做決策」。貝氏統計的參數估計分佈讓你知道你還有多少「不知道」。

結論：「正確的事情，重複做」

用貝氏定理不斷復盤、改進自己的流程，從而總結出那些「會帶來成功機率大的事情」，也就是「正確的事情」
然後透過重複做這些正確的事情，在每一輪競爭中戰勝競爭對手，獲得下一輪融資，最終贏得巨大成功。

為何要用貝氏統計？讓決策持續進化的灰階思考 • 好豪筆記

貝氏統計並不只是特定的數學公式、而是一套分析框架，這套框架幫助你在模型加入個人觀點、讓統計模型隨著新的資料取得不斷進化、並且量化你對決策究竟有多麽「不確定」。這則筆記不談艱澀數學公式，將概念性地告訴你為何值得學會應用貝氏統計來進行分析。

haosquare.com

《統計的藝術》：提供了從經驗中找答案的正式機制，這就是「貝氏定理」的關鍵貢獻 - The News Lens 關鍵評論網

本書對於統計學及其廣泛的應用作了深入解讀，讀這本書，你會對統計學產生興趣，知道統計學在做什麼，以及如何應用到實際問題上，還有統計學這門學問的美妙精髓與限制，這些將是讀者珍貴的收穫。

www.thenewslens.com

《統計的藝術》：提供了從經驗中找答案的正式機制，這就是「貝氏定理」的關鍵貢獻 - The News Lens 關鍵評論網

常態分佈 Normal Distribution

背景：常態分佈 v.s. 長尾分佈

社會上的許多現象，例如銷售資料或投票總數這類加總資料，都可以看成隨機事件的總和，呈現常態分佈。

例：由常態分布可以得知，身高不會有極端差異，因此飛機設計師不用為三公尺高的人設計伸腳空間
例：防止抗爭發生最主要取決於安撫極端份子，而非降低不滿意的平均程度

另一種分布：長尾分佈

地震規模、戰爭死亡人數和書籍銷售量，這些事件大部分發生的數值都很小，但有時候會突然出現龐大數字。
例：加州人每年都會歷經超過一萬次地震，除非緊盯著茉莉花瓣是否抖動，不然不太可能會發現有地震。但有時也會有地殼板塊劇烈運動，造成高速公路斷裂和大樓坍塌的巨型地震。

瞭解系統產生的結果是常態分佈或長尾分佈，十分重要

因為我們想知道電力網會不會有大規模停電危機，或是金融市場會不會造成超級貧富差距。利用分布知識，我們可以預測洪水是否將漫出堤壩、達美航空238班機準時抵達鹽湖城的機率，以及交通運輸中心成本超出預算一倍的機率。

常態分佈基礎

中央極限定理

20 個以上的獨立隨機變數的平均值會近似於常態分佈
前提：

所有隨機變數之間是獨立的
變異數的大小有限
沒有任何小群組的變數貢獻了大部分的變異數

常態分布：

平均值正負一個標準差之間包含 68% 的資料點、兩個標準差包含 95%、三個標準差包含 99%

任何大小的結果或事件都有機率發生，雖然大數值事件的發生機率極低──距離平均值五個標準差的事件，只有兩百萬分之一的發生機率

常態分佈的應用

群體裡的個數愈多，則平均標準差會愈小

所以：在愈小的群體，愈容易看到極好 or 極壞的事件
例：

住在小城市，要不是非常安全、要不就非常危險
人口較少的國家，肥胖和癌症發生的機率特別高

顯著性檢定

如果觀測到的實際平均值落在假設平均值的兩個標準差之外，社會科學家就會認定這個假設是錯的

六個標準差方法 (Six sigma Method)

利用常態分佈提供品質管制的相關資訊
假設：產品誤差在 6 個標準差之內都算合格

參考筆記：

對數常態分佈 - Intro

若利用中央極限定理，則需要將獨立的隨機變數加總或平均，來得到常態分布。
如果隨機變數使用加法以外的方式互動，或者並非獨立，產生的分布就幾乎都不是常態分布。
如果獨立隨機變數相乘產生的隨機變數為對數常態分布 (而非常態分布)
對數常態分布只能包含正數、同時擁有長尾型態，代表可能出現更多的大數值事件，而小數值事件發生的機率則比常態分布還多
對數常態分布的長尾，長度取決於隨機變數的變異數相乘結果。如果變異數很小，尾巴就會很短；如果變異數很大，尾巴就會非常長。理由就如同上一段提到的，一系列大數值相乘，會產生非常巨大的數值

常見的對數常態分佈範例：

英國農莊大小
地球礦物集中度
從感染疾病到出現症狀的時間
許多國家的收入分布也很接近對數常態分布，但是很多國家的長尾端有太多高收入人群，導致偏離了對數常態分布。

範例：公司用不同方式對員工加薪，導致薪水數字呈現不同種類的分佈

長尾分佈 (Long-tailed Distribution)

長尾分佈 - Intro

非獨立事件、且通常為 “正回饋” 的數據，有極端大數值的事件
回饋和交互作用，會造成長尾分佈

世界上各種國家/公司/人群之間的相互連結和回饋持續增加，我們會看到愈來愈多呈現長尾分佈的事情
且其 “尾部” 會拉得更長
這代表：

不公平的事情其極端值得不公平程度會擴大

”大數值事件“ 通常只佔少數

大部分地震的規模都很大地震的雖然發生機率小，但一但發生時可能就會很嚴重

常態分布 vs 長尾分布

在常態分布中，幾乎看不到大數值事件。
在長尾分布中，雖然大數值事件也很少發生，但發生頻率已足夠得到關注，且我們必須為這些事件做好準備。就算是發生機率僅有百萬分之一的事件，也很值得注意

長尾分佈 - 範例：

一個國家中各個城市人口的數量

當大城市人口增加的同時，新建的公共設施和工作機會將吸引更多人遷入 (相較於其他較小的城市)

書籍銷售量、影片下載次數、學術論文引用次數

當有人購買《哈利波特》小說時，基於口碑，會讓其他人的購買機率增加

森林大火、水災、地震嚴重的程度

當一棵樹著火時，火勢會延燒到鄰近樹木

當醫生 vs 當 startup 企業家

假設當醫生的薪水：

呈現常態分佈
平均值較高

假設當 startup 企業家的薪水：

呈現長尾分佈
冪率分佈的指數絕對值 = 3

“一個人可以嘗試新工作的次數” 決定了 “他能找到的工作的薪水有多高”

假設 A 是醫生，B 是 startup 企業家。A 持續換工作但持續當醫生，B 持續換工作但持續當醫生 startup 企業家，B 能獲得的薪水可能比 A 高

人去陌生的某國家，選擇中午午餐要吃什麼

如果只是短暫待幾天

人會傾向選擇 “網路上好評較多的餐廳” or “知名的連鎖餐廳”

如果是長住一陣子 (代表人需要吃很多次午餐，有很多次 “選擇餐廳” 的機會)

人會願意嘗試許多不同型態的餐廳

物種滅絕
網路連結數目
戰爭傷亡人數

<6> 長尾分佈 - 偏好依附模型 (Preferential Attachment Model)

Intro

認為實體的成長率相當於實體的占比

“單獨個人的行動” 會提高其他人做相同行動的機率
符合馬太效應：大者恆大、贏家通吃

可用來解釋這些情境：

各個城市人口分布 (當城市人口增加時，新建的公共設施和工作機會將吸引更多人遷入)
書籍銷量 (當有人購買《哈利波特》小說時，基於口碑，會讓其他人的購買機率增加，且很多人是看書店銷售排行榜來買書)
音樂下載量
大學大一新鮮人，選擇加入社團：

加入「人數多的社團」的機率高於加入「人數少的社團」
選擇「加入現有社團」的機率高於「自己去建立新的社團」

<7> 長尾分佈 - 自我組織臨界模型 (Self-Organized Criticality Model)

Intro

森林會自然而然會達到臨界密度，

因為如果密度較低，火災規模較小，則森林密度會逐漸增加
如果森林密度超過某個臨界值，則星星之火就可以燎原

巨觀變數值會在事件發生時 (沙堆崩塌或森林大火)，迅速減少。

其他相仿的自我組織臨界模型（可以解釋太陽閃焰、地震和交通阻塞分布），也有類似的特徵

雖然「在事件發生時，造成原本不斷增加的巨觀層級變數值瞬間下降」是自我組織模型的必要條件

自我組織臨界狀態必定會發生變數值瞬間下降，但發生變數值瞬間下降並不代表一定是到達了自我組織臨界狀態
平衡系統也有這些特性，湖中的水隨時都在流進流出，但因為水流量十分平穩，湖水面的變化非常緩慢。自我組織達到臨界狀態的重要假設為：壓力慢慢增加時，就像水流入湖中般十分平穩，可是達到臨界狀態時，壓力會急遽下降，並且可能發生大數值事件

可用來解釋這些情境：

交通阻塞
戰爭的死亡人數
地震、火災、雪崩的規模

冪律分布 (Power-law Distribution)

事件發生機率和事件大小的負指數成正比。

冪律分布中，事件數值愈大，發生機率愈低，事件數值和發生機率呈現負相關。
在冪律分布中，小數值事件的發生機率比大數值事件高出許多。

並不是所有長尾的分布都是冪律分布

例如：對數常態分布，就不是冪律分布
在雙對數坐標上繪製分布，可以簡單檢測分布是否為冪律分布

雙對數坐標圖將事件大小和機率都轉換為對數值，並將冪律分布轉換為一條直線
在雙對數坐標上的分布若為直線，就能證明是冪律分布
而如果直線逐漸下彎，則符合對數常態分布或指數分布（exponential distribution）
對數常態分布的曲線下彎率，取決於構成分布的變數的變異量。
如果增加對數常態分布的變異數，則尾巴會加長，讓雙對數坐標上的曲線更接近直線。

冪律分布的指數大小，決定了大數值事件的發生機率。

指數等於 1

例如：大小數值為100的事件，發生機率正比於1/100

如果指數絕對值為2或以下，冪律分布會缺乏定義良好的平均值。從指數絕對值1.5的冪律分布中抽出資料，平均值並不會收斂，而會不受限制的增加──如圖6.1左側，曲線往上竄升的情況
指數等於2 的冪律分布稱為齊夫分布（Zipf distribution）

事件發生機率與事件大小的平方成反比。
例如：大小數值為100的事件，發生機率正比於1/10000

假如指數增加到3，

例如：大小數值為100的事件，發生機率則正比於1/1000000

齊夫分佈（Zipf distribution）

Intro

指數等於2 的冪律分布，稱為齊夫分布（Zipf distribution）
在齊夫分布中，事件排名乘以發生機率，會等於常數，這項規則稱為齊夫定律（Zipf's Law）。

齊夫分佈範例

英文單字

最常見的英文單字the，出現機率約為7%
次常見的單字of，出現機率約為3.5%。

請注意，排名 “2” 乘以出現機率 “3.5%” 等於7%

如果災難事件發生機率呈現冪律分布、且指數接近2，則政府必須保留大量預備金，隨時準備支應災難支出。畢竟未雨綢繆，有備無患。如果政府決定維持大量預備金，則在還沒有發生大災難時，就不應隨意花費這筆資金或任意減稅
包含美國在內，許多國家的城市人口數目分布，近似於齊夫定律。

若使用美國2016年城市人口資料進行驗證，會發現每個城市排名乘以人口數，會接近八百萬

統計謬誤

基本比率謬誤（Base Rate Fallacy）

範例：Google的搜索引擎市場有多大，究竟要怎麼定義？

辛普森悖論（Simpson's paradox）

問題到底出在哪裡？出在分群組原則上。某些特定的分群組原則確實有可能導致「在總評中弱勢的一方在分組比較中反而占優勢」這種情況的出現。

倖存者偏見（Survivorship Bias）

所有成功的企業家都是商業世界的倖存者，只學習這些倖存者是不可能得出正確結論的。要想找到真正的成功祕訣，你應該在全部樣本中抽樣統計，去採訪一下那些創業失敗的人。當你這樣做了之後，你可能會發現，他們也挺堅持的，只是堅持的事情不對。

統計學、機率

多模型思維：天才的32個思考策略-momo購物網

底層邏輯2：帶你升級思考，挖掘數字裡蘊含的商業寶藏-momo購物網

基礎

變異數 (variance)

標準差 (standard deviation)

大數定律 (Law of large numbers)

條件機率 貝氏定理 (Conditionl Probability)

範例：檢驗準確率、實際有服用興奮劑的機率

應用貝氏定理 在工作、創業

為何要用貝氏統計？讓決策持續進化的灰階思考 • 好豪筆記

《統計的藝術》：提供了從經驗中找答案的正式機制，這就是「貝氏定理」的關鍵貢獻 - The News Lens 關鍵評論網

常態分佈 Normal Distribution

背景：常態分佈 v.s. 長尾分佈

常態分佈 基礎

中央極限定理

常態分布 ：

常態分佈的應用

群體裡的個數愈多，則平均標準差會愈小

顯著性檢定

六個標準差方法 (Six sigma Method)

對數常態分佈 - Intro

常見的 對數常態分佈範例：

長尾分佈 (Long-tailed Distribution)

長尾分佈 - Intro

長尾分佈 - 範例：

<6> 長尾分佈 - 偏好依附模型 (Preferential Attachment Model)

可用來解釋這些情境：

<7> 長尾分佈 - 自我組織臨界模型 (Self-Organized Criticality Model)

可用來解釋這些情境：

冪律分布 (Power-law Distribution)

齊夫分佈（Zipf distribution）

齊夫分佈 範例

統計謬誤

基本比率謬誤（Base Rate Fallacy）

辛普森悖論（Simpson's paradox）

倖存者偏見（Survivorship Bias）

條件機率貝氏定理 (Conditionl Probability)

應用貝氏定理在工作、創業

常態分佈基礎

常態分布：

常見的對數常態分佈範例：

齊夫分佈範例