ChatGPT ganha suporte para vídeo e compartilhamento de tela

OpenAI expande funcionalidades de visão e áudio, permitindo interações mais dinâmicas com o modelo.

13/12/20243 minutos

Salvar

O Advanced Voice Mode do ChatGPT, da OpenAI, agora conta com suporte para vídeo e compartilhamento de tela. Lançado inicialmente com o GPT-4o em maio, o recurso de visão finalmente foi ativado, permitindo que os usuários interajam com o modelo usando a câmera do celular para mostrar objetos e ações em tempo real.

Durante uma transmissão ao vivo, Kevin Weil, diretor de produto da OpenAI, demonstrou o recurso auxiliando na preparação de café no método pour-over. Usando a câmera do celular, o modelo identificou a cafeteira e forneceu instruções detalhadas para o preparo da bebida. Além disso, a funcionalidade de compartilhamento de tela foi exibida, mostrando o modelo interpretando mensagens abertas em um telefone, enquanto Weil usava uma barba de Papai Noel para ilustrar o modo de voz temático.

Competição

O anúncio da OpenAI ocorre um dia após o lançamento do Gemini 2.0, novo modelo de IA do Google que também processa entradas visuais e de áudio. O Gemini 2.0 inclui recursos mais avançados de agente, realizando tarefas de múltiplas etapas por conta própria, mas ainda em fase de protótipo. Para competir, a OpenAI destacou a precisão do ChatGPT em identificar objetos e sua capacidade de ser interrompido no meio de uma tarefa para atender a novas solicitações, demonstrando flexibilidade e interatividade.

Modos e disponibilidade

Um dos destaques foi o modo de voz temático de Papai Noel, que transforma a interação em uma experiência festiva com "ho-ho-hos" e uma voz alegre. O ícone de floco de neve no ChatGPT ativa essa funcionalidade, embora a OpenAI tenha restringido o uso para maiores de 13 anos.

As funcionalidades de vídeo e compartilhamento de tela já estão disponíveis para assinantes dos planos ChatGPT Plus e Pro, enquanto clientes dos planos Enterprise e Edu receberão acesso em janeiro.

Avanços

Com a ativação das capacidades de vídeo no Advanced Voice Mode, a OpenAI avança na criação de interações multimodais com IA, trazendo maior versatilidade para tarefas práticas e suporte visual em tempo real. A competição com outros modelos como o Gemini 2.0 promete impulsionar ainda mais o desenvolvimento de funcionalidades que aproximam os assistentes de IA de experiências humanas dinâmicas e completas.

Fonte: TechCrunch

------------------------------------------------------------------------------------------------------------------------------

🚀 Gostou do conteúdo? Então continue lendo as principais notícias do mercado de IA.

📩 Assine a nossa newsletter e fique por dentro de tudo sobre a Inteligência Artificial.

Foto: OpenAI