MolmoWeb: open source para competir com rivais fechados

O Allen Institute for AI (Ai2), instituto sem fins lucrativos sediado em Seattle, anunciou nesta terça-feira o MolmoWeb, um agente de IA para navegação na web capaz de operar um navegador e concluir tarefas a partir do que “vê” na tela. A proposta é oferecer uma alternativa open source em um mercado que vem sendo dominado por soluções fechadas de empresas como OpenAI, Google e Anthropic, permitindo que desenvolvedores inspecionem o funcionamento do sistema com um nível de transparência que, segundo o instituto, não é possível em plataformas proprietárias.

O que é o MolmoWeb e como ele funciona

De acordo com a descrição do Ai2, o MolmoWeb foi construído sobre a família de modelos multimodais Molmo 2 e segue uma abordagem baseada em percepção visual. Em vez de depender do código subjacente das páginas, o agente interpreta capturas de tela de sites de forma semelhante a um usuário humano e, a partir disso, decide quais ações executar para completar um objetivo.

Na prática, isso inclui comandos como clicar, digitar e rolar a página. Esse tipo de ferramenta costuma ser agrupado na categoria de web agents ou “agentes de uso do computador”, sistemas pensados para realizar tarefas digitais de ponta a ponta, como navegar entre páginas, preencher campos e acionar botões conforme a interface apresentada.

Por que o anúncio chama atenção agora

O lançamento ocorre em um período de mudanças internas no Ai2. O instituto afirmou que está em transição, com a saída do CEO Ali Farhadi e de pesquisadores-chave rumo à Microsoft, onde se juntariam ao time de Superintelligence liderado por Mustafa Suleyman. Ao mesmo tempo, o Ai2 informou que seu principal financiador está mudando o foco: em vez de priorizar o treinamento de modelos, a orientação passa a ser mais voltada a aplicações de IA no mundo real, embora o instituto diga que todos os programas de 2026 estão totalmente financiados.

Esse contexto ajuda a explicar a ênfase no caráter aberto do projeto. Em uma postagem no blog, o Ai2 faz uma comparação com o cenário anterior aos seus esforços com modelos abertos, argumentando que a comunidade precisa de uma base disponível publicamente para desenvolver, testar e entender agentes web, num momento em que a tecnologia avança rapidamente, mas com grande parte do trabalho concentrado em plataformas fechadas.

Corrida por agentes: OpenAI, Google e Anthropic no mesmo terreno

O anúncio do MolmoWeb também se encaixa em uma corrida mais ampla. Nos últimos meses, OpenAI, Google e Anthropic lançaram seus próprios agentes voltados a navegar na web ou operar computadores em nome do usuário, segundo o Ai2. A disputa envolve desde a capacidade de compreender interfaces até a robustez em tarefas longas e com múltiplos passos, um tipo de desafio que frequentemente expõe limitações de modelos de linguagem quando precisam interagir com ambientes dinâmicos.

O texto divulgado menciona ainda uma movimentação relevante no ecossistema de Seattle: a Anthropic adquiriu a startup Vercept, fundada por ex-integrantes do Ai2 e que trabalhava com tecnologia semelhante de agentes baseados em entendimento de tela para Macs e PCs. A aquisição reforça o interesse comercial nesse tipo de ferramenta, que pode ser aplicada tanto em automação pessoal quanto em fluxos corporativos.

Tamanhos do modelo e resultados em benchmarks

O MolmoWeb chega em duas variantes, com 4B e 8B parâmetros. O Ai2 afirma que os modelos obtiveram resultados fortes em benchmarks e destaca que a versão de 8B superou agentes construídos sobre modelos proprietários bem maiores, incluindo o GPT-4o, em tarefas-chave de navegação na web. O instituto não detalha, no trecho divulgado, a lista completa de métricas e cenários, mas usa esses números para sustentar a tese de que um agente aberto pode competir em desempenho, não apenas em transparência.

Outro ponto central do argumento é a possibilidade de “olhar por dentro”. Em sistemas fechados, pesquisadores e desenvolvedores muitas vezes têm acesso limitado a como decisões são tomadas, como erros surgem e quais dados ou sinais estão guiando cada ação do agente. A promessa do Ai2 é que o MolmoWeb funcione como uma base auditável para experimentação e evolução por terceiros.

Disponibilidade para desenvolvedores

O Ai2 informou que o MolmoWeb está disponível no Hugging Face e no GitHub, junto de uma demonstração para testar o agente em um conjunto de sites compatíveis. Esse tipo de distribuição costuma acelerar a adoção por permitir que pesquisadores, empresas e a comunidade de código aberto reproduzam resultados, adaptem o agente a novos cenários e integrem o sistema a pipelines próprios.

O que isso pode significar para o Brasil

Para o ecossistema brasileiro, um agente web open source tende a ser relevante por dois motivos práticos: acesso e adaptação. Em geral, soluções fechadas podem impor barreiras como dependência de API, custos recorrentes e restrições de inspeção do funcionamento. Já um projeto aberto permite que times locais avaliem com mais profundidade o comportamento do agente, experimentem ajustes e estudem o impacto em tarefas que refletem sites e fluxos usados no país.

Também há um efeito indireto no mercado. A popularização de agentes capazes de operar interfaces reais pode acelerar automações em atendimento, rotinas administrativas e processos digitais, desde que os resultados sejam confiáveis e previsíveis. Nesse cenário, a disponibilidade de uma base aberta amplia o espaço para pesquisa aplicada em universidades, protótipos em startups e testes internos em empresas, sem depender exclusivamente de “caixas-pretas” internacionais.

Fechamento

Com o MolmoWeb, o Ai2 entra de forma mais direta na disputa pelos agentes que navegam na web, mas faz isso com uma bandeira diferente: abrir o código e permitir que a comunidade entenda como o sistema enxerga a tela, decide e executa ações. Em um momento em que o setor se move rapidamente e os principais produtos concorrentes são fechados, a iniciativa reforça a tese de que a próxima etapa da IA aplicada não será apenas conversar com modelos, e sim delegar tarefas inteiras a agentes capazes de operar o mundo digital como um usuário.

Opinião da StrongCode

Agentes web estão virando uma espécie de “campo de batalha” da IA aplicada: é onde modelos precisam provar que não só escrevem bem, mas também executam bem. Nesse contexto, um projeto open source como o MolmoWeb tem valor por facilitar auditoria, reprodutibilidade e aprendizado coletivo, três ingredientes que costumam acelerar maturidade tecnológica.

Se os benchmarks do Ai2 se sustentarem em uso real, o efeito pode ser duplo: pressionar soluções fechadas a evoluir em transparência e criar uma base mais acessível para inovação fora do eixo das big techs. Para desenvolvedores e empresas brasileiras, isso tende a significar mais espaço para experimentar, adaptar e validar agentes com controle maior sobre o que está acontecendo “por baixo do capô”.

Sobre o autor

Redação Strong Code

A equipe da StrongCode respira tecnologia. Acompanhamos de perto o ecossistema tech brasileiro e internacional, traduzindo tendências complexas em conteúdo acessível e direto ao ponto. Acreditamos que informação de qualidade deve ser aberta para todos.