Enable javascript in your browser for better experience. Need to know to enable it? Go here.

Plataformas de modelos de visão ampla (LVM)

Publicado : Oct 23, 2024
Oct 2024
Avalie ?

Os modelos de linguagem de grande porte (LLMs) chamam tanto a nossa atenção atualmente que tendemos a negligenciar os desenvolvimentos em curso nos modelos de visão ampla (LVMs). Esses modelos podem ser usados para segmentar, sintetizar, reconstruir e analisar fluxos de vídeo e imagens, às vezes em combinação com modelos de difusão ou redes neurais convolucionais padrão. Apesar do potencial dos LVMs para revolucionar a forma como trabalhamos com dados visuais, ainda enfrentamos desafios significativos na adaptação e aplicação deles em ambientes de produção. Os dados de vídeo, por exemplo, apresentam desafios de engenharia únicos para coletar dados de treinamento, segmentar e rotular objetos, ajustar modelos e, em seguida, implantar os modelos resultantes e monitorá-los em produção. Assim, enquanto os LLMs se prestam a interfaces de chat simples ou APIs de texto simples, uma engenheira de visão computacional ou cientista de dados deve gerenciar, versionar, anotar e analisar grandes quantidades de dados de vídeo em streaming; este trabalho requer uma interface visual. Plataformas LVM são uma nova categoria de ferramentas e serviços — incluindo V7, Nvidia Deepstream SDK e Roboflow — que estão surgindo para enfrentar esses desafios. Deepstream e Roboflow são particularmente interessantes para nós porque combinam um ambiente de desenvolvimento GUI integrado para gerenciar e anotar fluxos de vídeo com um conjunto de APIs Python, C++ ou REST para invocar os modelos a partir do código da aplicação.

Baixe o PDF

 

 

 

English | Español | Português | 中文

Inscreva-se para receber o boletim informativo Technology Radar

 

 

Seja assinante

 

 

Visite nosso arquivo para acessar os volumes anteriores