
Um experimento conduzido por pesquisadores da Carnegie Mellon University (CMU) revelou que agentes de inteligência artificial ainda enfrentam grandes limitações ao simular rotinas corporativas. No estudo, os cientistas criaram a TheAgentCompany, uma empresa fictícia de software inteiramente composta por agentes autônomos de IA desenvolvidos por diferentes fornecedores, como Google, OpenAI, Anthropic e Meta.
Cada agente era capaz de navegar na web, escrever código, usar planilhas e interagir com colegas simulados, incluindo bots de RH e TI. Eles receberam tarefas típicas do ambiente empresarial, como análise de dados financeiros, elaboração de relatórios, preenchimento de formulários fiscais, avaliações de desempenho e gestão de projetos. No entanto, os resultados ficaram aquém do esperado.
O modelo com melhor desempenho, Claude 3.5 Sonnet (da Anthropic), concluiu menos de 25% das tarefas. Outros modelos, como o GPT-4o da OpenAI e o Gemini 2.0 Flash do Google, ficaram na faixa dos 9% a 11% de sucesso. Nenhuma IA conseguiu concluir a maioria das atividades atribuídas, destacando que esses agentes funcionam melhor em tarefas simples e curtas, mas travam diante de rotinas mais complexas ou de longo prazo.
Além do baixo desempenho, o custo por tarefa completada também chamou atenção. O Claude 3.5, por exemplo, exigiu cerca de 30 interações para cada tarefa, ao custo médio de US$ 6,34. Já o Gemini Flash, embora mais barato (US$ 0,79 por tarefa), teve desempenho inferior e demandou cerca de 40 interações por atividade. Modelos abertos ou mais antigos, como o Llama 3.3 (70B) e o próprio GPT-4o, também apresentaram baixo rendimento.
Os autores do estudo destacam que o benchmark possui limitações. As tarefas eram objetivas e de curto prazo, não incluíam atividades criativas ou ambíguas, como “desenvolver novos produtos”. Além disso, apenas uma arquitetura de agente foi testada, sem comparação direta com o desempenho de humanos. Ainda assim, os pesquisadores observaram falhas recorrentes, como falta de “bom senso” ou contexto social: agentes interpretavam mal instruções simples, encerravam tarefas prematuramente ou cometiam erros banais, como falhar ao colar textos em arquivos Word ou criar usuários inexistentes durante interações simuladas.
Apesar dos resultados modestos, o entusiasmo do setor corporativo com a automação por IA continua alto. O Work Trend Index 2025, relatório anual da Microsoft, introduziu o conceito das Frontier Firms, empresas ágeis, baseadas em equipes híbridas de humanos e agentes de IA, com foco em “inteligência sob demanda”. De acordo com o levantamento, 82% dos líderes veem 2025 como um ano crucial para repensar suas estratégias, e 24% afirmam já ter implementado IA de forma ampla em suas organizações.
Em empresas-piloto, os dados são promissores: 71% dos funcionários dizem que a empresa está prosperando (contra 37% da média global) e 93% estão otimistas quanto ao futuro (vs. 77% no geral). Exemplos concretos reforçam essa tendência. A Klarna, fintech sueca, afirma que seu chatbot de IA realiza tarefas que antes exigiam 700 atendentes humanos. A Duolingo adotou o lema “AI-first” e anunciou que só abrirá novas vagas quando nenhuma automação for possível. Na Shopify, o uso de IA virou pré-requisito para todos os colaboradores. Já a Intuit (dona do TurboTax) cortou 1.800 vagas para investir em automação, enquanto a Cisco reestruturou equipes inteiras com foco em inteligência artificial.
O experimento da CMU, no entanto, oferece um contraponto a esse otimismo. No mundo acadêmico, agentes de IA ainda falham em grande parte das tarefas profissionais e geram custos significativos. Mesmo assim, os próprios pesquisadores reconhecem que o estudo “pinta um retrato mais matizado” do futuro do trabalho com IA. A conclusão é que essas tecnologias podem acelerar tarefas simples e repetitivas, mas ainda estão longe de substituir a complexidade do trabalho humano. Pelo menos por enquanto.
Texto: Redação TI Rio