Claude 3.5 Sonnet lançado pela Anthropic: um novo e impressionante modelo de IA

Claude 3.5 Sonnet lançado pela Anthropic: um novo e impressionante modelo de IA

Recentemente, a Anthropic lançou melhorias para seu modelo líder, Claude 3.5 Sonnet, que pode ter passado despercebido devido a outras atualizações notáveis ​​como o Computer Use e a ferramenta Analysis. No entanto, o Claude 3.5 Sonnet atualizado apresenta várias melhorias notáveis.

Embora o Computer Use represente um avanço significativo, sua adoção entre usuários ainda é limitada. Isso ocorre principalmente porque ele está nos estágios iniciais de desenvolvimento e não tem confiabilidade total. Além disso, sua acessibilidade é limitada ao uso de API, tornando-o menos acessível para o público mais amplo.

Em contraste, o novo Claude 3.5 Sonnet está disponível para uso imediato e oferece desempenho consideravelmente melhorado. Então, o que exatamente diferencia este 3.5 Sonnet atualizado?

Um relatório da Anthropic destaca que o mais recente Claude 3.5 Sonnet exibiu melhorias marcantes em relação aos modelos anteriores e muitos concorrentes em benchmarks do setor. Os avanços na codificação agêntica e no uso de ferramentas são particularmente impressionantes. Por exemplo, ele aumentou sua precisão de codificação agêntica de 33,4% para 49% na verificação de bancada SWE e, para uso de ferramentas agênticas no teste de bancada TAU, aumentou de 51,0% para 69,2% no varejo e de 22,8% para 46,0% no setor de companhias aéreas. Notavelmente, essas melhorias são obtidas com o mesmo custo e velocidade de seu antecessor.

Atualização do Soneto Claude 3.5
Fonte: Anthropic

Quando avaliado, o Claude 3.5 Sonnet (novo), que alguns usuários chamam de 3.6 Sonnet devido à confusão de nomenclatura, mostra avanços notáveis, particularmente em codificação, raciocínio e capacidades de escrita criativa.

Anteriormente reconhecido como um dos melhores executores em codificação, Claude fez avanços significativos com esta atualização, agora capaz de resolver problemas muito complexos em uma única resposta. Ele também melhorou sua capacidade de retificar erros anteriores.

Os usuários descobrirão que o novo Claude 3.5 Sonnet fornece respostas muito mais rápidas, resolvendo as frustrações enfrentadas com sua versão anterior, onde o desempenho havia diminuído visivelmente.

Claude também refinou suas habilidades de raciocínio, fazendo uma comparação com o modelo o1 da OpenAI. Embora ele possa não corresponder ao o1 em tarefas de raciocínio intrincadas, ele continua competente com desafios de raciocínio mais simples.

Para um teste envolvente do raciocínio de Claude, tente perguntar a ele, How many words are in your response to this prompt?. Notavelmente, modelos de arquitetura de transformadores frequentemente lutam com tais prompts devido à necessidade de prever palavras subsequentes. No entanto, esse prompt encoraja o modelo a criar estratégias de antemão.

O modelo o1 da OpenAI se destaca em lidar com esse prompt de forma eficaz. Embora o novo Claude 3.5 Sonnet não atinja a proficiência do o1, ele supera significativamente a versão mais antiga do Claude. Anteriormente, Claude poderia ter feito um palpite bem fundamentado, mas agora ele tenta contar as palavras com precisão — embora sem considerar todas elas igualmente. No final das contas, se a resposta de Claude é considerada correta dependerá da interpretação pessoal.

Let me count the words in my response to your question:
This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8).
There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.

Exemplo de contagem de palavras de Claude

De acordo com a instância fornecida, alguns usuários podem argumentar que Claude contou as palavras nas quais considerou sua resposta com precisão. Ele esclarece que quaisquer palavras subsequentes não fazem parte de sua resposta, pois elas simplesmente elaboram seu processo de raciocínio. Enquanto alguns podem ignorar a omissão da frase introdutória, “Deixe-me contar as palavras em minha resposta à sua pergunta”, outros podem vê-la de forma diferente. No final das contas, isso se torna uma questão de julgamento pessoal.

No entanto, esta instância ilustra que o novo Claude 3.5 Sonnet realmente melhorou suas capacidades de raciocínio. Agora ele pode articular seus processos de pensamento ou dizer, “ruminado sobre isso, aguarde,” quando requer tempo adicional para considerar — algo similar ao o1. Ocasionalmente, ele pode até mesmo se autocorrigir, dizendo, “Deixe-me repensar isso.”

Essa capacidade de pensar à frente também reforçou as habilidades de escrita criativa de Claude. Com a capacidade de pensar à frente, ele pode criar narrativas estendidas que apresentam arcos coerentes, elementos prenúncios e personagens cativantes.

Além disso, avanços significativos foram feitos em seu desempenho analítico. Claude agora compete de perto com o modelo mais abrangente da Anthropic, Claude 3 Opus, bem como com o o1 mini da OpenAI em relação à análise.

Em resumo, as últimas atualizações produziram um progresso notável em várias dimensões. Os novos recursos de codificação atraíram muita atenção. No entanto, uma limitação atual para Claude são os limites de uso, que são consideravelmente mais restritivos até mesmo para usuários Pro em comparação com os do ChatGPT.

Fonte

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *