Multi-Armed Bandit
中文:多臂老虎机,简称 MAB
1. 通俗大白话
想象赌场里一台老虎机,拉摇杆有概率赚钱;
如果有好几台老虎机(多臂),每台中奖概率、收益都不一样:
- 你不知道哪台收益最高
- 不能一直死磕一台(怕亏)
- 也不能每台都乱试(浪费成本)
MAB 就是一套算法:
在「探索(试新渠道)」和「利用(用好渠道)」之间做平衡。
2. 核心矛盾(经典两难)
-
Exploration 探索
尝试冷门 / 新的上游、新 Key、新节点,找出潜力好的线路
-
Exploitation 利用
一直用当前延迟最低、成功率最高、最便宜的优质线路
无脑只用最好的 → 新优质渠道永远发现不了
无脑乱试所有渠道 → 故障率、耗时、成本爆炸
MAB = 自动动态平衡这两件事
3. 套入你 AI 网关 / Token Pool 场景(重点)
完美对应你的业务:
-
每一个 Provider / 上游渠道 / Key / 节点 = 一只「老虎机」
-
指标:成功率、首 Token 耗时、报错率、402 欠费、稳定性
-
MAB 算法作用:
- 优先调度当前表现最好的线路
- 低频率悄悄测试其他冷门线路
- 线路变差(频繁 402、超时、报错)自动降低权重
- 新线路变强,自动慢慢加大调用比例
4. 常见 MAB 算法
- Epsilon-Greedy:90% 用好线路,10% 随机探索
- Thompson Sampling 汤普森采样:工业界最常用,AI / 路由首选
- UCB(置信上界):适合追求稳定低延迟场景
5. 和你之前故障的关联
你之前的问题:
重试只会卡死在同一个坏 UUID、不会自动择优、不会淘汰烂节点
成熟 MAB 路由 直接解决:
- 自动统计各节点失败率、延迟
- 劣化节点自动降权、减少分配
- 无需硬写死「固定排除名单」,动态智能选路
极简一句话总结
多臂老虎机 (MAB) = 一套智能路由算法,帮你的 AI 池子自动择优、试探新线路、淘汰烂节点,平衡稳定与探索。