Contextual bandits é um tipo de aprendizado por reforço, adequado para problemas que envolvem o dilema entre explorar investigando e explorar tirando proveito. Nomeado em referência às "bandits" – como são informalmente chamadas as máquinas caça-níqueis, em inglês –, o algoritmo investiga diferentes opções para aprender mais sobre os resultados esperados e equilibra tirando proveito das opções que funcionarem bem. Usamos com sucesso essa técnica em cenários com poucos dados disponíveis para treinar e implantar outros modelos de aprendizado de máquina. O fato de podermos adicionar contexto à relação explorar investigando e explorar tirando proveito torna a técnica adequada para uma ampla variedade de casos de uso, incluindo testes A/B, recomendações e otimizações de layout.