LLMs - A Ilusão do Pensamento
Apple revela: o “pensamento” da inteligência artificial pode ser apenas uma ilusão
A Apple publicou recentemente uma pesquisa que lança luz sobre uma questão fundamental: modelos de linguagem com raciocínio avançado realmente pensam - ou apenas parecem pensar?
O estudo, intitulado The Illusion of Thinking, analisa o desempenho de modelos de última geração conhecidos como LRMs (Large Reasoning Models) e revela limites surpreendentes em suas capacidades de raciocínio.
O que são LRMs?
Diferentemente dos modelos de linguagem tradicionais (LLMs), que geram texto com base em padrões estatísticos, os LRMs são projetados para executar tarefas mais complexas por meio de cadeias de raciocínio estruturadas. Eles produzem longos trechos de “pensamento” antes de chegar a uma resposta - algo que muitos consideram um possível passo em direção à Inteligência Artificial Geral (AGI).
Modelos como Claude 3.7 Thinking, da Anthropic, e DeepSeek-R1, da DeepSeek, são exemplos dessa nova abordagem.
Mas será que essa “capacidade de pensar” é real?
A proposta da Apple
Para investigar essa questão, a Apple criou um ambiente de testes diferente dos benchmarks tradicionais - frequentemente contaminados por dados já vistos durante o treinamento.
Em vez disso, a equipe utilizou quebra-cabeças com regras claras e complexidade ajustável, como:
- Torre de Hanói
- Travessia do Rio
- Mundo dos Blocos
Esse ambiente permitiu avaliar não apenas as respostas finais, mas também as etapas do raciocínio geradas pelos modelos.
O que a pesquisa descobriu?
Os resultados indicam limitações importantes nos LRMs. A Apple identificou três fases distintas de desempenho à medida que a complexidade dos problemas aumenta:
- Baixa complexidade: modelos padrão (sem “pensamento explícito”) são mais eficientes e precisos.
- Complexidade intermediária: os LRMs apresentam vantagem ao explorar soluções com maior profundidade.
- Alta complexidade: todos os modelos - com ou sem raciocínio - entram em colapso. A precisão cai para zero e, de forma curiosa, os LRMs passam a “pensar menos” conforme o desafio aumenta.
Outro achado relevante foi o fenômeno do overthinking: em problemas simples, os LRMs frequentemente encontram a resposta correta cedo, mas continuam explorando caminhos incorretos, desperdiçando tempo e recursos computacionais. Já em problemas mais complexos, falham em chegar a qualquer solução válida.
Mesmo quando a Apple forneceu o algoritmo exato para resolver uma tarefa (como na Torre de Hanói), os modelos tiveram dificuldade em executá-lo corretamente, evidenciando limitações em seguir instruções lógicas passo a passo.
Conclusão
Apesar dos avanços impressionantes dos LRMs, a pesquisa da Apple sugere que ainda estamos longe de alcançar um raciocínio confiável em sistemas de IA. O “pensamento” dessas máquinas permanece frágil, inconsistente e altamente dependente da complexidade do problema.
O estudo desafia o entusiasmo excessivo em torno das capacidades atuais dos modelos e reforça a necessidade de avaliações mais rigorosas e realistas.
Se você acreditava que a IA já estava pronta para pensar como um ser humano - talvez seja hora de repensar essa ideia.
Referências
- "The Illusion of Thinking": https://machinelearning.apple.com/research/illusion-of-thinking