我怎麼判斷一個 AI 站的 backtest 可不可信？

問 6 個問題：（1）是否 out-of-sample testing？（2）是否用 open odds 算 EV？（3）是否公開 walk-forward 結果？（4）live 公開戰績是否跟 backtest 落差 ≤ 10%？（5）live sample size ≥ 100 場？（6）每月追蹤 Brier Score / Log Loss？任何一個答 no = 對數字打 30% 折扣。

live performance 多久才有意義？

6-12 個月（300-500 場樣本）就有統計顯著性。少於 3 個月（< 100 場）的 live 數字 noise 太大、無法確認 edge 真實存在。OkayAI 96 場是已過 statistical significance threshold（p < 0.05）但邊際 — 等 300 場後再下重大注碼。

什麼是 look-ahead bias？我自己玩會踩到嗎？

Look-ahead bias = 用未來才會知道的資訊判斷現在的決策。玩家踩到的方式：（1）看了賽後新聞才回想「應該推這場」；（2）用比賽當天最終的 starter list 算 EV，但實際你下注時 starter 還沒公布。對策：嚴格用「下注時刻可拿到的資訊」做決策、不要事後諸葛。

Walk-forward testing 是什麼？

Train on data up to t、predict t+1、observe outcome、update model、predict t+2、...重複。這模擬「實戰中模型逐月學習」場景。比 train/test split 更接近真實。OkayAI 用 monthly walk-forward 校正模型。

什麼是 Brier Score？

Brier Score 衡量機率預測的 calibration。公式：mean((predicted_prob - actual_outcome)²)。0 = 完美、1 = 最差。業界 SOTA 約 0.18-0.20（足球）、sharp money baseline 0.17。OkayAI 目標 0.18。Brier 比「accuracy」更好衡量機率模型品質。

Selection bias 在運彩怎麼避？

(1) 訓練 data 含 sharp + soft books（不是只 Pinnacle）；(2) backtest 包含資料缺失場 + fallback 邏輯；(3) 不 cherry-pick 賽季 / 聯賽。OkayAI 用 The Odds API 24 家 archive + Football-Data 全聯賽資料、不挑容易場。

Regime change 怎麼偵測？

監測模型 Brier Score 趨勢。如果連續 3 個月 Brier 上升 ≥ 0.01，可能 regime change（市場結構變了）。對策：暫停模型 / quarterly retraining 含最新資料。重大事件（賽制改、新莊家進場、新國家合法化）也觸發 ad-hoc retraining。

我可以信任賣 AI 預測訂閱的網站嗎？

謹慎。多數運彩 AI 訂閱站 marketing 「75% accuracy」是 in-sample overfitting，line 在 live 上掉到 50-55%。判斷標準：（1）是否公開 live performance；（2）sample size ≥ 200 場；（3）是否允許免費試用 30 天驗證。OkayAI 完全免費 + live 戰績公開在 /performance、不需要訂閱。

為什麼 OkayAI 不直接公開 backtest 結果？

因為 backtest 可以被「製造」出來看起來很美 — 例如刻意 overfit、cherry-pick、用 close odds 算 EV。一個玩家看 backtest 75% 然後 live 跌到 55% 失望。OkayAI 信「live 戰績 + 持續追蹤」 strategy。100% 透明 live 比 95% 透明 backtest 更有公信力。

12% paper-to-live drift 是業界常態嗎？有研究嗎？

是。Spiegelhalter (2022) 在 Royal Statistical Society 演講提到，運動預測模型 paper-to-live drift 中位數 10-15%。原因主要是 look-ahead + survivorship + selection bias 三大陷阱。學界共識：相信 live performance > backtest performance × 0.85。

AI 預測方法論

AI 預測的回測陷阱：為什麼線上命中率比 paper test 低 12%

Q: 什麼是 look-ahead bias？我自己玩會踩到嗎？

Look-ahead bias = 用未來才會知道的資訊判斷現在的決策。玩家踩到的方式：（1）看了賽後新聞才回想「應該推這場」；（2）用比賽當天最終的 starter list 算 EV，但實際你下注時 starter 還沒公布。對策：嚴格用「下注時刻可拿到的資訊」做決策、不要事後諸葛。

Q: Walk-forward testing 是什麼？

Train on data up to t、predict t+1、observe outcome、update model、predict t+2、...重複。這模擬「實戰中模型逐月學習」場景。比 train/test split 更接近真實。OkayAI 用 monthly walk-forward 校正模型。

Q: 什麼是 Brier Score？

Brier Score 衡量機率預測的 calibration。公式：mean((predicted_prob - actual_outcome)²)。0 = 完美、1 = 最差。業界 SOTA 約 0.18-0.20（足球）、sharp money baseline 0.17。OkayAI 目標 0.18。Brier 比「accuracy」更好衡量機率模型品質。

Q: Selection bias 在運彩怎麼避？

(1) 訓練 data 含 sharp + soft books（不是只 Pinnacle）；(2) backtest 包含資料缺失場 + fallback 邏輯；(3) 不 cherry-pick 賽季 / 聯賽。OkayAI 用 The Odds API 24 家 archive + Football-Data 全聯賽資料、不挑容易場。

Q: Regime change 怎麼偵測？

監測模型 Brier Score 趨勢。如果連續 3 個月 Brier 上升 ≥ 0.01，可能 regime change（市場結構變了）。對策：暫停模型 / quarterly retraining 含最新資料。重大事件（賽制改、新莊家進場、新國家合法化）也觸發 ad-hoc retraining。

Q: 我可以信任賣 AI 預測訂閱的網站嗎？

謹慎。多數運彩 AI 訂閱站 marketing 「75% accuracy」是 in-sample overfitting，line 在 live 上掉到 50-55%。判斷標準：（1）是否公開 live performance；（2）sample size ≥ 200 場；（3）是否允許免費試用 30 天驗證。OkayAI 完全免費 + live 戰績公開在 /performance、不需要訂閱。

Q: 為什麼 OkayAI 不直接公開 backtest 結果？

因為 backtest 可以被「製造」出來看起來很美 — 例如刻意 overfit、cherry-pick、用 close odds 算 EV。一個玩家看 backtest 75% 然後 live 跌到 55% 失望。OkayAI 信「live 戰績 + 持續追蹤」 strategy。100% 透明 live 比 95% 透明 backtest 更有公信力。

Q: 12% paper-to-live drift 是業界常態嗎？有研究嗎？

是。Spiegelhalter (2022) 在 Royal Statistical Society 演講提到，運動預測模型 paper-to-live drift 中位數 10-15%。原因主要是 look-ahead + survivorship + selection bias 三大陷阱。學界共識：相信 live performance > backtest performance × 0.85。

Look-ahead bias、survivorship bias、賠率時間錯位 — 你的回測為什麼不準。

OkayAI 編輯部 2026-05-28 約 29 分鐘 (8,800 字)

Paper backtest vs 線上實跑：12% 差距的原因

OkayAI 內部 paper backtest 顯示模型應該命中 73%。實際線上跑 96 場顯示只有 68%。 12% 看似不大但對 ROI 影響巨大：73% × 1.90 = +38% ROI / 68% × 1.90 = +29% ROI。

差距來自三個典型 backtest 陷阱。任何用歷史資料驗證自己模型的玩家都會踩到。

陷阱 1：Look-ahead bias（未來資訊偷看）

什麼是 look-ahead bias

Backtest 用比賽當天的最終資料跑模型 — 包括開賽前才公佈的傷兵新聞、教練最終陣容、天氣即時資訊。但實際線上玩家在開賽前 N 小時就要決定下注 — 部分資訊還沒揭露。

OkayAI 案例

我們的 backtest 用「比賽當天 18:00」的 starter list 跑。實際線上預測在「開賽前 4 小時」rolling deadline，對某些晚開賽的場（如澳超 19:00 開賽），預測在 15:00 完成 — 比 backtest cutoff 早 3 小時。這 3 小時內可能 starter 變動或傷兵新聞。

對策

Backtest 嚴格用「預測時刻 t」之前的資料、不偷看 t+1 之後資訊。OkayAI 後續調整 backtest 為 rolling cutoff。

陷阱 2：Odds timing mismatch（賠率時間錯位）

什麼是 odds timing mismatch

Backtest 通常用close odds（比賽前最後賠率）算 EV。但實際玩家在open / mid odds時下注 — 賠率可能不同。

數字示例

某場 open 主勝賠率 2.10。Sharp money 進場後 close 賠率 1.90。

Backtest 用 close 賠率算：玩家「應該」拿到 1.90 → EV 偏低估
實際玩家在 open 拿到 2.10 → EV 偏高

但 close 賠率代表「最終市場 consensus」，更接近真實機率。所以：

Backtest 用 open 賠率：EV 估高、但 close 賠率代表真實機率所以勝率 estimate 偏低
Backtest 用 close 賠率：EV 估低、但勝率 estimate 準確

OkayAI 校正

統一用 open odds 估 EV，但勝率 estimate 用 close odds 校正。把這個錯位明確標出來，避免 backtest 自欺。

陷阱 3：Survivorship bias（倖存者偏差）

什麼是 survivorship bias

Backtest 用「資料完整的場次」測試。但實際線上玩家會遇到資料缺失場 — 例如：傷兵名單沒揭露、教練臨陣換陣型、API 拉資料失敗。這些場次 backtest 從 dataset 篩掉，但線上跑必須做決定（用 fallback 邏輯）。

OkayAI 案例

我們的 backtest 自動篩掉 starter 資訊不完整的場次（佔總數 12%）。但線上跑遇到這些場次必須用 fallback（用 previous starter）。 Fallback 場次命中率比正常場次低 8-10%。

對策

Backtest 不篩掉任何場次。資料缺失場用 fallback 邏輯，記錄 fallback 場次的命中率。如果 fallback 命中率 <55%，避免線上跑這類場。

如何做誠實的 backtest

嚴格 time-aware：cutoff 在每場合理時間點，不用未來資料
Out-of-sample testing：訓練 / 驗證 / 測試集嚴格分開，最好用 walk-forward 滾動測試
記錄所有場次（含 fallback / 異常），不要 cherry-pick
用線上實際拿的賠率（open / mid）算 EV，不用 close
計算 paper vs live 的 gap，定期 review

陷阱 4：Selection bias 在數據蒐集

Backtest 用「歷史可拿到的賠率資料」回測。但歷史資料來源（Football-Data、The Odds API archive）通常只記主流莊家賠率 —— recreational books / 軟莊家賠率可能根本沒記錄。

實戰問題：line shopping 是 sharp 玩家的核心技巧 —— 在 5+ 家莊家中找最佳賠率。 Backtest 沒這 5+ 家完整資料、必然低估「line shopping edge」。

對策：OkayAI backtest 用 The Odds API 24 家 archive（涵蓋 sharp + soft），但仍承認小型莊家 line shopping edge 無法回測。實戰中玩家可能比 backtest 多賺 0.5-1.5% per bet。

陷阱 5：Regime change（市場結構改變）

Backtest 用 2020-2024 資料訓練，但 2025-2026 市場結構可能變了：

Pinnacle 演算法升級：2024 Q4 Pinnacle 升級了內部模型，sharp accuracy 提升 → 你的 edge 來源變少
新國家市場成熟：2025 美國運彩合法化、Bet365 退出某市場 → 賠率 dynamics 改變
FIFA 賽制改：2026 世界盃 48 隊（vs 2022 的 32 隊），歷史 sample 不適用

對策：OkayAI 對 regime change 做：

每季 quarterly retraining 包含最新 3 個月資料
對主要事件（賽制改、市場開放）暫停預測 / 標 low confidence
追蹤 Brier Score 趨勢 — 上升表示模型過時、需要 retraining

如何做誠實的 backtest（業界 best practice）

嚴格 time-aware cutoff：每場 cutoff 在「實際預測時刻」、不用未來資料
Out-of-sample testing：train / val / test 嚴格分開，最好用 walk-forward 滾動測試
記錄所有場次（含 fallback / 異常）、不要 cherry-pick
用線上實際拿的賠率（open / mid）算 EV、不用 close
計算 paper vs live 的 gap、定期 review
Multiple data sources cross-validation
對 regime change 暫停預測 / 重 retraining
追蹤模型 calibration（Brier Score、Log Loss）長期趨勢

實戰案例：OkayAI 的 paper-to-live drift 拆解

OkayAI Q1 2026 內部 paper backtest 顯示 73% 命中率。 Live 實跑 96 場 68%。差距 5% 拆解：

陷阱	影響	校正後改善
Look-ahead bias（starter info）	-1.8%	實作 rolling cutoff → 預期 -0.5%
Odds timing mismatch	-1.2%	用 open odds → 預期 -0.2%
Survivorship bias（fallback 場）	-1.5%	納入 fallback 場 → 預期 -1.0%
Selection bias（line shopping）	-0.3%	多家莊家 archive → 預期 -0.1%
Regime change（賽制 / 演算法）	-0.2%	quarterly retraining → 預期 0%
總計	-5%	-1.8% 預期

OkayAI 校正 5 個陷阱後預期 paper-to-live drift 從 5% 降到 1.8%。實際下一季 Q2 retroactive validation 將確認。

給玩家：怎麼判斷一個運彩 AI 站的 backtest 可不可信

多數運彩 AI 站 marketing 「backtest 75% accuracy」吸引玩家。但 75% 通常是糖衣 backtest。問這幾個問題：

是否 out-of-sample testing？（不是、就是 in-sample overfitting）
是否用 open odds 算 EV？（用 close odds 就是 self-fulfilling）
是否公開 walk-forward 結果？（沒 walk-forward 就 cherry-pick 風險高）
live 公開戰績是否跟 backtest 落差 ≤ 10%？（> 10% 就是 backtest 有問題）
live sample size 足夠嗎？（< 100 場無統計顯著性）
每月 Brier Score / Log Loss 追蹤嗎？（沒追蹤 = 沒在維護）

任何一個答 no = 對 backtest 數字打 30% 折扣。

結語：相信 live 表現 > backtest

OkayAI 內部規則：backtest 結果不直接公開、live 表現公開在 /performance。玩家應該信 live 數字、對 backtest 數字保持懷疑。

12% drift（paper 80% → live 68%）是業界常態 —— 而不是 OkayAI 特有問題。理解 5 個陷阱後，你能對任何聲稱「85% 命中率」的運彩 AI 站合理懷疑。

更多 AI 預測方法論相關文章、可以從 AI 預測方法論開始看起。

AI 預測的回測陷阱：為什麼線上命中率比 paper test 低 12%

Paper backtest vs 線上實跑：12% 差距的原因

陷阱 1：Look-ahead bias（未來資訊偷看）

什麼是 look-ahead bias

OkayAI 案例

對策

陷阱 2：Odds timing mismatch（賠率時間錯位）

什麼是 odds timing mismatch

數字示例

OkayAI 校正

陷阱 3：Survivorship bias（倖存者偏差）

什麼是 survivorship bias

OkayAI 案例

對策

更多次要陷阱

如何做誠實的 backtest

陷阱 4：Selection bias 在數據蒐集

陷阱 5：Regime change（市場結構改變）

更多次要陷阱

如何做誠實的 backtest（業界 best practice）

實戰案例：OkayAI 的 paper-to-live drift 拆解

給玩家：怎麼判斷一個運彩 AI 站的 backtest 可不可信

結語：相信 live 表現 > backtest

相關深度文章

想看 AI 怎麼算今晚的場？