Um estudo abrangente conduzido pela Search Atlas descobriu que seis grandes plataformas de modelos de linguagem demonstram zero vazamento de dados de informações sensíveis dos usuários, abordando preocupações generalizadas de privacidade enquanto destaca problemas persistentes com alucinação de IA. A pesquisa, que avaliou OpenAI, Gemini, Perplexity, Grok, Copilot e Google AI Mode através de experimentos controlados simulando cenários de exposição de dados no pior caso, fornece garantia significativa para empresas e indivíduos preocupados com confidencialidade ao usar ferramentas de IA.
A metodologia do estudo envolveu introduzir fatos únicos e não públicos para cada modelo através de prompts diretos e resultados de pesquisa na web simulados, depois testando se esses fatos poderiam ser recuperados em interações subsequentes sem acesso à pesquisa. Em todas as plataformas, os pesquisadores não encontraram evidências de que os modelos retivessem ou reproduzissem as informações sensíveis, com zero respostas corretas produzidas após a exposição inicial. Os detalhes completos do estudo estão disponíveis em https://searchatlas.com.
Um experimento-chave revelou diferenças comportamentais entre as plataformas ao lidar com informações desconhecidas. OpenAI, Perplexity e Grok tenderam a responder com incerteza, frequentemente fornecendo respostas "Não sei" quando informações confiáveis estavam faltando. Em contraste, Gemini, Copilot e Google AI Mode estavam mais inclinados a gerar respostas confiantes, porém incorretas. Crucialmente, nenhuma dessas respostas incorretas correspondia às informações privadas fornecidas anteriormente, demonstrando que a alucinação—a fabricação de informações incorretas—é distinta do vazamento de dados.
O segundo experimento examinou se informações recuperadas via pesquisa na web ao vivo persistiriam uma vez que o acesso à pesquisa fosse desativado. Os pesquisadores selecionaram um evento do mundo real ocorrendo após os cortes de treinamento de todos os modelos para garantir que respostas corretas só poderiam originar-se da recuperação ao vivo. Quando a pesquisa estava habilitada, os modelos responderam a maioria das perguntas corretamente, mas uma vez que a pesquisa foi desativada, essas respostas corretas desapareceram em grande parte. Isso indica que os modelos não armazenam ou transportam fatos obtidos durante interações anteriores através de mecanismos de recuperação.
Para empresas e usuários conscientes da privacidade, essas descobertas sugerem que informações sensíveis compartilhadas durante uma única sessão de IA atuam mais como "memória de trabalho" temporária em vez de serem absorvidas em memória duradoura que poderia ser revelada a outros usuários. Isso aborda uma preocupação primária na adoção empresarial de IA—o medo de que estratégias de negócios proprietárias ou detalhes privados possam ser vazados para outros usuários através do sistema de IA.
O estudo enfatiza que, embora as preocupações com vazamento de dados pareçam infundadas com base nesta pesquisa, a alucinação continua sendo um desafio genuíno. Plataformas exibindo menor precisão—Gemini, Copilot e Google AI Mode—não alcançaram isso repetindo informações recebidas anteriormente, mas gerando respostas plausíveis, porém incorretas. Essa distinção é crucial para avaliação de risco, pois desloca o foco das preocupações com privacidade para requisitos de verificação de precisão.
Para desenvolvedores e construtores de IA, a pesquisa ressalta a importância de sistemas baseados em recuperação como Geração Aumentada por Recuperação (RAG), que conectam modelos a bancos de dados ao vivo ou sistemas de pesquisa. Essas abordagens continuam sendo o método mais confiável para garantir respostas precisas para eventos atuais, informações proprietárias ou dados frequentemente atualizados, já que os modelos carecem de mecanismos integrados para reter fatos descobertos durante interações anteriores sem tais sistemas.
As implicações se estendem a pesquisadores e verificadores de fatos, destacando que LLMs não podem "aprender" com correções fornecidas em conversas anteriores. Se um modelo contém erros em seus dados de treinamento subjacentes, ele pode persistir em repetir esses erros a menos que o modelo seja retreinado ou fontes corretas sejam fornecidas novamente. Essa limitação enfatiza a necessidade de verificação contínua de conteúdo gerado por IA, particularmente em contextos onde a precisão é fundamental.
Manick Bhan, Fundador da Search Atlas, observou que grande parte da preocupação com adoção empresarial de IA deriva de suposições não testadas sobre vazamento de dados, e este estudo visou testar rigorosamente essas suposições sob condições controladas. Embora a IA não seja livre de riscos—com a alucinação sendo um problema documentado—o medo específico de que dados possam ser vazados para outro usuário não foi apoiado por evidências em nenhuma plataforma avaliada.
Essas descobertas poderiam acelerar a adoção de IA em setores onde a sensibilidade dos dados tem sido uma barreira, como saúde, finanças e serviços jurídicos. Organizações agora podem engajar com ferramentas de IA com maior confiança em relação à privacidade de dados, embora devam manter processos robustos de verificação para abordar riscos de alucinação. O estudo fornece uma estrutura mais clara para entender riscos reais versus percebidos de IA, permitindo tomada de decisão mais informada sobre estratégias de implementação de IA.

