Multi-Armed Bandit

中文：多臂老虎机，简称 MAB

1. 通俗大白话

想象赌场里一台老虎机，拉摇杆有概率赚钱；

如果有好几台老虎机（多臂），每台中奖概率、收益都不一样：

MAB 就是一套算法：

在「探索（试新渠道）」和「利用（用好渠道）」之间做平衡。

无脑只用最好的 → 新优质渠道永远发现不了

无脑乱试所有渠道 → 故障率、耗时、成本爆炸

MAB = 自动动态平衡这两件事

完美对应你的业务：

每一个 Provider / 上游渠道 / Key / 节点 = 一只「老虎机」
指标：成功率、首 Token 耗时、报错率、402 欠费、稳定性
MAB 算法作用：
1. 优先调度当前表现最好的线路
2. 低频率悄悄测试其他冷门线路
3. 线路变差（频繁 402、超时、报错）自动降低权重
4. 新线路变强，自动慢慢加大调用比例

你之前的问题：

重试只会卡死在同一个坏 UUID、不会自动择优、不会淘汰烂节点

成熟 MAB 路由直接解决：

多臂老虎机 (MAB) = 一套智能路由算法，帮你的 AI 池子自动择优、试探新线路、淘汰烂节点，平衡稳定与探索。