Quando o primeiro vídeo gerado por IA foi lançado, ninguém poderia imaginar que as ferramentas de IA de geração de vídeo chegariam tão longe em um período tão curto. No entanto, hoje temos inúmeras plataformas que permitem aos usuários gerar vídeos de alta qualidade e incrivelmente detalhados, como Synthesia e Dream Machine da Luma AI. Dito isso, ainda há alguns desafios que impedem que essas ferramentas se tornem populares.
E o maior talvez seja o processo de geração de áudio. Enquanto a maioria das plataformas de geração de vídeo pode produzir vídeos de boa qualidade, eles são, em sua maioria, vídeos silenciosos, sem nenhum áudio. Mesmo que haja áudio, ele geralmente é adicionado separadamente e fica aquém das expectativas do usuário.
Por exemplo, se você visitar a página Dream Machine da Luma AI, poderá ver alguns vídeos muito impressionantes, mas o som que os acompanha é bastante genérico e de baixa qualidade. Mas isso pode estar prestes a mudar com a nova tecnologia de vídeo para áudio (V2A) do Google.
Isso promete levar geração de áudio de boa qualidade para vídeos às massas, o que significa que pode finalmente permitir que você produza filmes gerados por IA com trilhas sonoras e áudio adequados, superando todos os vídeos gerados por IA que estão sendo produzidos atualmente.
https://www.youtube.com/watch?v=VYjZlF6m3nQ
O que é a pesquisa de vídeo para áudio do Google DeepMind?
A tecnologia Video-to-Audio (V2A) desenvolvida pela DeepMind do Google foi projetada para criar trilhas sonoras para vídeos gerados por IA. Essa tecnologia torna possível gerar vídeos e áudio simultaneamente combinando prompts de linguagem natural com pixels de vídeo para gerar sons para quaisquer ações que estejam ocorrendo no vídeo.
Essa tecnologia pode ser pareada com modelos de IA usados para gerar vídeos, como Veo, e pode ajudar a criar diálogos e efeitos sonoros realistas, juntamente com trilhas sonoras dramáticas que combinam com o vídeo. Mais importante, a nova tecnologia V2A não se limita apenas a vídeos gerados usando IA, mas também pode ser usada para gerar trilhas sonoras para vídeos produzidos da maneira tradicional. Assim, você pode usá-la para filmes mudos, material de arquivo e muito mais.
A tecnologia V2A permite que os usuários gerem trilhas sonoras ilimitadas para vídeos e até mesmo usem prompts positivos e negativos para guiar o processo de geração de som e obter os sons necessários facilmente. Isso também permite mais flexibilidade, para que você possa experimentar várias saídas e encontrar o que é melhor para um vídeo específico.
https://www.youtube.com/watch?v=9Q0-t8D9XFI
Como funciona a tecnologia V2A?
De acordo com o Google, a empresa experimentou técnicas baseadas em difusão e autorregressivas e descobriu que a primeira era mais adequada para produção de som. Ela resulta em sons altamente realistas e funciona codificando o vídeo em um formato compactado.
Depois disso, o modelo de difusão é usado para separar ruído aleatório do vídeo, confiando em prompts de linguagem natural e no vídeo. Os prompts ajudam a gerar áudio realista que é perfeitamente sincronizado com o vídeo. Isso é seguido pela decodificação do áudio, após o qual ele é convertido em uma forma de onda de áudio e mesclado com o vídeo.
O DeepMind do Google forneceu mais informações para treinar a IA, por meio das quais os usuários podem guiar o processo de geração de áudio em direção aos sons necessários e permite que a plataforma produza áudio de maior qualidade. Essas informações incluíam transcrições de diálogos falados e descrições detalhadas de som com anotações geradas pela IA.
Sendo treinada com essas informações, a tecnologia V2A pode associar diferentes cenas visuais a eventos de áudio específicos.
O que está no horizonte?
A tecnologia V2A da DeepMind tem um desempenho muito melhor do que outras soluções V2A, pois nem sempre requer um prompt de texto e pode compreender pixels de vídeo. A saída de som também não precisa ser alinhada manualmente com o vídeo. No entanto, ainda existem certas limitações da tecnologia, que o Google pretende superar com mais pesquisas.
Por exemplo, a qualidade do áudio gerado depende da qualidade do vídeo utilizado como entrada. Se houver distorções ou artefatos no vídeo, o modelo de IA não consegue compreendê-los, uma vez que não são incluídos em seu treinamento, resultando em última análise na redução da qualidade do áudio.
Além disso, para vídeos que possuem fala humana, a empresa está trabalhando para melhorar a sincronização labial. A tecnologia V2A tenta gerar fala usando as transcrições de entrada e depois alinhá-la com os movimentos labiais dos personagens do vídeo. Porém, se o vídeo não contar com transcrições, há uma incompatibilidade entre o áudio e os movimentos labiais.
Com melhores capacidades de geração de áudio, os modelos de IA serão capazes de gerar vídeos que não apenas parecem impressionantes, mas também têm um som excelente. O Google também está integrando sua tecnologia V2A com SynthID, que marca d’água todo o conteúdo gerado usando IA. Isso pode ajudar a evitar seu uso indevido, garantindo total segurança.
Além disso, a empresa afirma que testará rigorosamente sua tecnologia V2A antes de lançá-la ao público. Até agora, pelo que o Google apresentou e prometeu para o futuro, esta tecnologia parece ser um grande avanço na geração de áudio para vídeos gerados por IA.
Deixe um comentário