Os modelos de linguagem de grande porte (LLMs) chamam tanto a nossa atenção atualmente que tendemos a negligenciar os desenvolvimentos em curso nos modelos de visão ampla (LVMs). Esses modelos podem ser usados para segmentar, sintetizar, reconstruir e analisar fluxos de vídeo e imagens, às vezes em combinação com modelos de difusão ou redes neurais convolucionais padrão. Apesar do potencial dos LVMs para revolucionar a forma como trabalhamos com dados visuais, ainda enfrentamos desafios significativos na adaptação e aplicação deles em ambientes de produção. Os dados de vídeo, por exemplo, apresentam desafios de engenharia únicos para coletar dados de treinamento, segmentar e rotular objetos, ajustar modelos e, em seguida, implantar os modelos resultantes e monitorá-los em produção. Assim, enquanto os LLMs se prestam a interfaces de chat simples ou APIs de texto simples, uma engenheira de visão computacional ou cientista de dados deve gerenciar, versionar, anotar e analisar grandes quantidades de dados de vídeo em streaming; este trabalho requer uma interface visual. Plataformas LVM são uma nova categoria de ferramentas e serviços — incluindo V7, Nvidia Deepstream SDK e Roboflow — que estão surgindo para enfrentar esses desafios. Deepstream e Roboflow são particularmente interessantes para nós porque combinam um ambiente de desenvolvimento GUI integrado para gerenciar e anotar fluxos de vídeo com um conjunto de APIs Python, C++ ou REST para invocar os modelos a partir do código da aplicação.