Los modelos de lenguaje de gran tamaño (LLMs, por sus siglas en inglés), han captado tanta de nuestra atención, que tendemos a pasar por alto los avances en los modelos de visión de gran tamaño (LVMs). Estos modelos pueden ser usados para segmentar, sintetizar, reconstruir y analizar videos e imágenes, a veces en combinación con modelos de difusión o redes neuronales convolucionales estándar. A pesar del potencial de las LVMs para revolucionar la manera que trabajamos con datos visuales, aún nos enfrentamos a retos significativos al adaptarlos y aplicarlos en ambientes de producción. Los datos de video, por ejemplo, presentan retos de ingeniería únicos para recolectar datos de entrenamiento, segmentar y etiquetar objetos, refinar modelos y luego desplegar los modelos resultantes y monitorearlos en producción. Así que mientras los LLMs se prestan a simples interfaces chat o APIs de texto plano, un ingeniero de visión computarizada o ingeniero de datos debe manejar, versionar, anotar y analizar grandes cantidades de datos de video; este trabajo requiere de una interfaz visual. Las plataformas LVM son una nueva categoría de herramientas y servicios - incluyendo V7, Nvidia Deepstream SDK y Roboflow — que surgen para atender estos retos. Deepstream y Roboflow son particularmente interesantes para nosotros, dado que combinan un ambiente de desarrollo con interfaz de usuario gráfica integrada para el manejo y creación de anotaciones en video con un conjunto de APIs REST, de Python o C++ para invocar los modelos desde el código de la aplicación.