ChatGPT lançou recursos de voz e imagem

Seguindo a tendência atual de outras IA’s, o ChatGPT lançou recursos de voz e imagem, para tornar essa IA ainda mais completa.

O chatbot favorito de todos agora pode ver, ouvir e falar. Na segunda-feira, a OpenAI anunciou novos recursos multimodais para ChatGPT. Os usuários agora podem ter conversas de voz ou compartilhar imagens com ChatGPT em tempo real.

ChatGPT lançou recursos de voz e imagem

ChatGPT lançou recursos de voz e imagem

Sim. O ChatGPT lançou recursos de voz e imagem. Os recursos de áudio e multimodais se tornaram a próxima fase na feroz competição de IA generativa.

A Meta lançou recentemente o AudioCraft para gerar música com IA e o Google Bard e o Microsoft Bing implantaram recursos multimodais para suas experiências de bate-papo.

Na semana passada, a Amazon apresentou uma versão renovada do Alexa que será alimentada por seu próprio LLM (modelo de linguagem grande), e até a Apple está experimentando voz gerada por IA, com Voz Pessoal.

Os recursos de voz estarão disponíveis para iOS e Android. Como Alexa ou Siri, você pode tocar para falar com o ChatGPT e ele responderá a você em uma das cinco opções de voz preferidas.

Ao contrário dos assistentes de voz atuais, o ChatGPT é alimentado por LLMs mais avançados, então o que você ouvirá é o mesmo tipo de resposta conversacional e criativa que o GPT-4 e o GPT-3.5 da OpenAI são capazes de criar com texto.

O exemplo que a OpenAI compartilhou no anúncio é a geração de uma história para dormir a partir de um comando de voz. Assim, pais exaustos ao final de um longo dia podem terceirizar sua criatividade para o ChatGPT.


O reconhecimento multimodal é algo previsto há algum tempo e agora está sendo lançado de forma amigável para ChatGPT.

Quando o GPT-4 foi lançado em março passado, o OpenAI demonstrou sua capacidade de compreender e interpretar imagens e textos manuscritos.

Agora fará parte do uso diário do ChatGPT. Os usuários podem fazer upload de uma imagem de algo e perguntar ao ChatGPT sobre isso – identificando uma nuvem ou fazendo um plano de refeições com base em uma foto do conteúdo da sua geladeira.

Vale ressaltar que o reconhecimento Multimodal estará disponível em todas as plataformas.

Tal como acontece com qualquer avanço de IA generativa, há sérias questões éticas e de privacidade a serem consideradas.

Para mitigar os riscos de deepfakes de áudio, a OpenAI afirma que está usando sua tecnologia de reconhecimento de áudio apenas para o caso específico de “bate-papo por voz”. Além disso, foi criado com dubladores com quem eles “trabalharam diretamente”.

Dito isso, o anúncio não menciona se as vozes dos usuários podem ser usadas para treinar o modelo, quando você opta pelo chat de voz.

Para os recursos multimodais do ChatGPT, a OpenAI afirma que “tomou medidas técnicas para limitar significativamente a capacidade do ChatGPT de analisar e fazer declarações diretas sobre as pessoas, uma vez que o ChatGPT nem sempre é preciso e esses sistemas devem respeitar a privacidade dos indivíduos”.

Mas o verdadeiro teste de usos nefastos não será conhecido até que seja solto na natureza.

Deixe um comentário

Sair da versão mobile