BLOG

Multi-Armed Bandit

2026/04/28 3 min read BLOG 编程学习之路 MULTI ARMED BANDIT

Multi-Armed Bandit

中文:多臂老虎机,简称 MAB

1. 通俗大白话

想象赌场里一台老虎机,拉摇杆有概率赚钱;

如果有好几台老虎机(多臂),每台中奖概率、收益都不一样:

  • 你不知道哪台收益最高
  • 不能一直死磕一台(怕亏)
  • 也不能每台都乱试(浪费成本)

MAB 就是一套算法:

在「探索(试新渠道)」和「利用(用好渠道)」之间做平衡。


2. 核心矛盾(经典两难)

  1. Exploration 探索

    尝试冷门 / 新的上游、新 Key、新节点,找出潜力好的线路

  2. Exploitation 利用

    一直用当前延迟最低、成功率最高、最便宜的优质线路

无脑只用最好的 → 新优质渠道永远发现不了

无脑乱试所有渠道 → 故障率、耗时、成本爆炸

MAB = 自动动态平衡这两件事


3. 套入你 AI 网关 / Token Pool 场景(重点)

完美对应你的业务:

  • 每一个 Provider / 上游渠道 / Key / 节点 = 一只「老虎机」

  • 指标:成功率、首 Token 耗时、报错率、402 欠费、稳定性

  • MAB 算法作用:

    1. 优先调度当前表现最好的线路
    2. 低频率悄悄测试其他冷门线路
    3. 线路变差(频繁 402、超时、报错)自动降低权重
    4. 新线路变强,自动慢慢加大调用比例

4. 常见 MAB 算法

  • Epsilon-Greedy:90% 用好线路,10% 随机探索
  • Thompson Sampling 汤普森采样:工业界最常用,AI / 路由首选
  • UCB(置信上界):适合追求稳定低延迟场景

5. 和你之前故障的关联

你之前的问题:

重试只会卡死在同一个坏 UUID、不会自动择优、不会淘汰烂节点

成熟 MAB 路由 直接解决:

  • 自动统计各节点失败率、延迟
  • 劣化节点自动降权、减少分配
  • 无需硬写死「固定排除名单」,动态智能选路

极简一句话总结

多臂老虎机 (MAB) = 一套智能路由算法,帮你的 AI 池子自动择优、试探新线路、淘汰烂节点,平衡稳定与探索。