O que é Gemini Live e quando estará disponível

O que é Gemini Live e quando estará disponível

O Google anunciou recentemente uma série de atualizações em seu modelo Gemini AI, incluindo várias atualizações e novos modelos. Entre eles, um que chamou muita atenção foi o Gemini Live, um modelo multimodal de IA que conta com recursos de vídeo e voz.

Desde que Bard foi renomeado para Gemini em fevereiro, o modelo de IA tem servido como substituto do Google Assistant em dispositivos Android. No entanto, é bastante limitado no que pode fazer atualmente. Com o Gemini Live, o Google pretende mudar isso, oferecendo um modelo de IA mais poderoso e versátil.

O que é Gêmeos ao vivo?

Para fornecer aos usuários uma experiência de IA aprimorada e aproveitar o ChatGPT aprimorado GPT-4o da OpenAI, o Google anunciou recentemente o Gemini Live em sua I/O Developer Conference. O Gemini Live permitirá que os usuários tenham conversas naturais e personalizadas em tempo real por meio de voz e, posteriormente, de vídeo.

O novo modelo de IA faz parte do Projeto Astra do Google, que é a tentativa do gigante das buscas de construir um assistente de IA universal que possa usar diferentes tipos de informações da vida cotidiana para fornecer assistência. Por exemplo, Gemini Live pode usar texto, imagens da câmera do smartphone e sua voz para responder a perguntas.

Segundo o Google, o novo modelo de linguagem natural não só ajudará os usuários a resolver problemas e realizar diversas ações, mas também a se sentirem completamente naturais durante as interações. Os usuários poderão iniciar o Gemini Live tocando no ícone de voz em seus telefones, que exibirá a IA em tela cheia com um efeito de forma de onda de áudio.

Você pode então conversar com a IA da mesma forma que faria com um assistente pessoal real. Um excelente exemplo de como o modelo de IA atualizado pode ajudá-lo é quando você pede que ele o ajude na preparação para uma entrevista. Gemini Live irá sugerir as habilidades que você pode destacar, fornecer dicas para falar em público e muito mais.

Características

Gemini Live vem com alguns recursos que o tornam um assistente de IA muito melhor do que o Google Assistant, o Siri da Apple ou o Alexa da Amazon.

Conversas de voz bidirecionais

Gemini Live permite conversar com ele e fornece respostas verbais semelhantes às humanas, resultando em conversas envolventes e intuitivas. Por exemplo, você pode perguntar sobre o tempo e ele lhe dará uma atualização precisa e concisa.

Capacidades de assistente inteligente

O modelo de IA pode servir como um assistente inteligente e realizar tarefas como resumir informações de e-mails e atualizar seu calendário. Por exemplo, você pode tirar uma foto do folheto de um show e o Gemini adicionará o evento ao seu calendário.

Capacidades Visuais

Ao usar a câmera do seu smartphone, o Gemini Live pode capturar vídeos em tempo real. Isso permite identificar objetos e responder perguntas sobre eles. Por exemplo, se você apontar a câmera do seu smartphone para um alto-falante e pedir ao Gemini para identificá-lo, ele lhe dirá o que é e até identificará sua marca e modelo.

Fonte: Google

Como funciona o Gemini Live?

O Projeto Astra pode combinar entradas visuais e de fala, tornando-as fáceis de entender para o modelo de IA. Pode então reagir às informações e fornecer a assistência necessária. Assim como o ChatGPT com tecnologia GPT-4o da OpenAI, o Gemini Live é uma IA multimodal e não depende apenas de texto como entrada.

Embora o Gemini Live use originalmente entrada de voz para coletar e analisar dados no lançamento inicial, ele será atualizado nos próximos meses para também processar e analisar vídeos, dividindo-os quadro a quadro para melhor compreensão e interação.

A IA pode se adaptar à velocidade com que os diferentes usuários falam, podendo até interrompê-la para pedir esclarecimentos ou fornecer mais informações. Sua capacidade de imitar o diálogo humano pode proporcionar uma interação mais envolvente. Assim, você pode conversar com ele, assim como com um assistente humano. Além disso, você poderá escolher entre dez vozes diferentes para a IA.

GPT-4o vs. Gêmeos ao vivo

Embora tanto o GPT-4o quanto o Gemini Live sejam modelos de IA multimodais, no momento é difícil ver qual deles tem melhor desempenho na vida real, especialmente porque nenhum deles está disponível publicamente no momento.

No entanto, ao contrário do ChatGPT, o Gemini Live depende de outros modelos de IA, como Google Veo e Imagen 3, para fornecer resultados na forma de vídeos e imagens. Apesar disso, nas demonstrações apresentadas pela OpenAI e Google, o ChatGPT parecia mais natural e o novo modelo GPT-4o conseguia até detectar e simular emoções humanas através de tons vocais.

Além disso, ele pode se adaptar à forma como você deseja responder, o que o Gemini Live não pode fazer, pelo menos em seu estado atual.

Disponibilidade ao vivo do Gemini

O Gemini Live estará disponível para assinantes do Gemini Advanced, que é a versão paga do chatbot AI. Ele será lançado nos próximos meses e deverá estar amplamente disponível até o final do ano.

Aplicativos como o Google Messages poderão aproveitar ao máximo o Gemini Live, permitindo que os usuários interajam com a IA diretamente no aplicativo de mensagens.

Gemini Live pode ser a próxima grande atualização do chatbot de IA do Google e exatamente o que ele precisa para enfrentar rivais como o ChatGPT da OpenAI. Com funcionalidade multimodal e poderosos recursos de fala, o modelo atualizado pode ajudar o Google a obter sucesso no fornecimento de um assistente digital versátil e confiável.

No momento, o Google apenas anunciou que trará o novo modelo de IA para assinantes pagos. Embora isso deixe de fora os usuários gratuitos, que constituem uma grande parte da base de usuários do Google, esperamos que o Google mude sua postura e decida expandir a disponibilidade do Gemini Live.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *