A Apple publicou recentemente uma pesquisa que lança luz sobre uma questão fundamental: os modelos de linguagem com raciocínio avançado realmente pensam — ou apenas parecem pensar? O estudo, intitulado The Illusion of Thinking, analisa o desempenho de modelos de linguagem de última geração, conhecidos como LRMs (Large Reasoning Models), e revela limites surpreendentes em suas capacidades de raciocínio.
O que são LRMs?
Diferente dos tradicionais modelos de linguagem (LLMs), que geram texto com base em padrões estatísticos, os LRMs são projetados para executar tarefas mais complexas com cadeias de raciocínio estruturadas. Eles produzem longos trechos de pensamento antes de chegar a uma resposta — algo que muitos acreditam ser um passo em direção à inteligência artificial geral (AGI). Modelos como Claude 3.7 Thinking e DeepSeek-R1 são exemplos desse novo tipo.
Mas será que essa “capacidade de pensar” é real?
A proposta da Apple
Para investigar essa dúvida, a Apple desenvolveu um ambiente de testes diferente dos benchmarks tradicionais, que frequentemente estão contaminados por dados já vistos durante o treinamento dos modelos. Em vez disso, a equipe utilizou quebra-cabeças como Torre de Hanói, Travessia do Rio e Mundo dos Blocos — todos com complexidade ajustável e regras claras. Esse ambiente permitiu medir não só as respostas finais, mas também as etapas do raciocínio gerado pelos modelos.
O que a pesquisa descobriu?
Os resultados mostram que os LRMs têm sérias limitações. A Apple identificou três fases distintas de desempenho conforme a complexidade do problema aumenta:
- Baixa complexidade: Modelos padrão (sem “pensamento”) são mais eficientes e precisos.
- Complexidade intermediária: Os LRMs mostram vantagens ao explorar soluções com mais profundidade.
- Alta complexidade: Todos os modelos — com ou sem raciocínio — entram em colapso. A precisão cai para zero, e, curiosamente, os LRMs passam a “pensar menos” conforme o desafio cresce.
Outro achado intrigante foi o fenômeno do overthinking: em problemas simples, os LRMs encontravam a resposta correta cedo, mas continuavam explorando caminhos errados, desperdiçando tempo e recursos computacionais. Já em problemas complexos, não conseguiam sequer chegar a uma solução correta.
Mesmo quando a Apple forneceu o algoritmo exato para resolver uma tarefa (como a Torre de Hanói), os modelos falharam ao executá-lo corretamente, revelando limitações em seguir instruções lógicas.
Conclusão
Apesar do avanço impressionante dos LRMs, a pesquisa da Apple mostra que estamos longe de alcançar um raciocínio confiável nas IAs. O “pensamento” dessas máquinas ainda é frágil, inconsistente e fortemente dependente da complexidade da tarefa. O estudo desafia o entusiasmo excessivo sobre as capacidades dos modelos atuais e destaca a importância de avaliações mais rigorosas.
Se você achava que a IA já estava pronta para pensar como um humano — talvez seja hora de repensar isso.
Comentários
Postar um comentário