Ferramentas de IA Aceleram Extração de Dados Experimentais de Artigos Científicos para Banco de Dados de Materiais

By Redação da Burstable

Found this article helpful?

Share it with your network and spread the knowledge!

Ferramentas de IA Aceleram Extração de Dados Experimentais de Artigos Científicos para Banco de Dados de Materiais

Cientistas de materiais que desenvolvem novos materiais funcionais para tecnologias como smartphones e automóveis enfrentam desafios significativos na previsão de propriedades dos materiais, pois modelos teóricos isolados não podem fornecer previsões confiáveis devido às relações complexas entre composição, métodos de síntese e propriedades resultantes. Uma equipe liderada pela Dra. Yukari Katsura do Instituto Nacional de Ciência dos Materiais do Japão desenvolveu duas ferramentas de inteligência artificial que aceleram a construção do Starrydata, um banco de dados de propriedades de materiais construído a partir de dados coletados de artigos científicos, com seu trabalho recentemente publicado na revista Science and Technology of Advanced Materials: Methods.

A pesquisa aborda um gargalo crítico na ciência dos materiais: milhões de artigos científicos contêm dados experimentais valiosos coletados por pesquisadores anteriores, mas grande parte dessa informação permanece inexplorada porque extraí-la manualmente consome muito tempo. O projeto Starrydata, lançado pela Dra. Katsura em 2015, inicialmente dependia de coleta manual de dados apoiada pelo sistema web Starrydata2. As novas ferramentas de IA simplificam drasticamente esse processo ao aproveitar modelos de linguagem de grande escala como o ChatGPT para extrair informações sobre figuras, tabelas e amostras de PDFs de artigos em vários campos da ciência dos materiais.

A primeira ferramenta, Starrydata Auto-Suggestion for Sample Information, já está integrada ao sistema web Starrydata2 e funciona lendo o texto do artigo e sugerindo entradas candidatas para campos de dados pré-projetados para cada domínio de materiais. Quando os usuários colam texto do resumo ou da seção de métodos experimentais de um artigo, o sistema o envia para o GPT da OpenAI via API e exibe automaticamente entradas candidatas em inglês abaixo de cada campo de entrada. Essa ferramenta ajuda a padronizar a entrada de dados enquanto reduz o tempo que os pesquisadores gastam extraindo informações manualmente.

A segunda ferramenta, Starrydata Auto-Summary GPT, desconstrói PDFs inteiros de artigos de acesso aberto enviados pelos usuários e resume automaticamente todas as descrições de figuras, tabelas e amostras como dados estruturados no formato JSON. Gerados usando o recurso GPT personalizado do ChatGPT, os dados resultantes podem ser visualizados como tabelas de fácil leitura em navegadores da web. Embora esses dados atualmente não sejam incorporados diretamente ao banco de dados Starrydata, eles aceleram drasticamente o trabalho dos coletores de dados em localizar rapidamente informações-alvo e inseri-las sistematicamente. A equipe observa que a leitura de pontos de dados de imagens de gráficos ainda é desafiadora para LLMs, portanto essa tarefa é realizada por coletores de dados usando uma ferramenta semiautomatizada desenvolvida independentemente.

A Dra. Katsura explicou a importância dessa abordagem: "Um artigo é uma estrutura lógica montada para transmitir as afirmações do autor, mas ao desconstruí-lo e retorná-lo à forma de dados experimentais, outros pesquisadores também podem usá-lo para suas próprias pesquisas." A equipe almeja um futuro onde dados experimentais de todos os campos da ciência dos materiais possam ser compartilhados digitalmente e visualizados de uma perspectiva ampla, permitindo que pesquisadores obtenham inspiração através de visões gerais abrangentes de dados e realizem previsões de propriedades baseadas em tendências empíricas usando aprendizado de máquina.

Atualmente, o Starrydata progrediu na construção de bancos de dados para campos específicos da ciência dos materiais, como materiais termoelétricos que convertem calor e eletricidade, e ímãs. Como um conjunto de dados aberto utilizável para o desenvolvimento de novos materiais, ele está começando a ser utilizado por pesquisadores líderes em todo o mundo. A pesquisa da equipe visa aumentar a conscientização mais ampla sobre o potencial de dados experimentais em larga escala e estabelecer a coleta de dados de artigos como uma forma reconhecida de pesquisa dentro da comunidade científica. As ferramentas atualmente visam artigos de acesso aberto devido a restrições dos editores sobre o uso de inteligência artificial com PDFs de artigos, com mais detalhes disponíveis em seu artigo publicado em https://doi.org/10.1080/27660400.2025.2590811.

As implicações dessa pesquisa vão além da ciência dos materiais, demonstrando como a IA pode transformar o gerenciamento de dados científicos em várias disciplinas. Ao automatizar a extração de dados experimentais enterrados, os pesquisadores podem construir bancos de dados mais abrangentes que aceleram a descoberta e a inovação. Essa abordagem poderia eventualmente ser aplicada a outros campos científicos onde dados valiosos permanecem bloqueados dentro de artigos publicados, potencialmente revolucionando como o conhecimento científico é organizado, acessado e utilizado para futuros avanços. A revista onde essa pesquisa aparece, Science and Technology of Advanced Materials: Methods, foca em métodos e ferramentas emergentes para melhorar o desenvolvimento de materiais, com mais informações disponíveis em https://www.tandfonline.com/STAM-M.

blockchain registration record for this content
Redação da Burstable

Redação da Burstable

@estouro

O Burstable News™ é uma solução hospedada projetada para ajudar empresas a construir audiência e aprimorar suas estratégias de press release para AIO e SEO, fornecendo automaticamente conteúdo de notícias corporativas atualizado, exclusivo e alinhado à marca.

A plataforma elimina a complexidade de engenharia, manutenção e criação de conteúdo, oferecendo uma implementação fácil — sem necessidade de desenvolvedores — que funciona em qualquer site.

O serviço concentra-se em aumentar a autoridade do site com matérias alinhadas ao setor, garantidamente exclusivas e em conformidade com as diretrizes E-E-A-T do Google, para manter seu site dinâmico e envolvente.