O Instituto Nacional de Ciência dos Materiais (NIMS) desenvolveu o Research Data Express (RDE), um sistema de gestão de dados projetado para automatizar o processamento de dados experimentais e criar conjuntos de dados prontos para IA na pesquisa de materiais. Publicado na Science and Technology of Advanced Materials: Methods, este sistema aborda desafios significativos em um campo onde a pesquisa gera grandes volumes de dados que frequentemente existem em formatos específicos de fabricantes com terminologia inconsistente, dificultando a agregação, comparação e reutilização.
A pesquisa tradicional de materiais exige que os pesquisadores dediquem tempo considerável a tarefas tediosas como conversão de formato, atribuição de metadados e extração de características. Essas etapas adicionais frequentemente desencorajam o compartilhamento de dados, prejudicando o avanço do trabalho baseado em dados. O problema tornou-se cada vez mais agudo à medida que o campo depende mais da descoberta de materiais orientada por IA, que exige conjuntos de dados padronizados e de alta qualidade. O RDE interpreta automaticamente dados experimentais de arquivos brutos e medições inseridas manualmente, depois reestrutura e armazena essas informações em um formato com legibilidade aprimorada.
"O RDE reduz significativamente a carga do processamento rotineiro de dados para pesquisadores e melhora a localização, interoperabilidade, reutilização (os princípios FAIR) e rastreabilidade dos dados", explica Jun Fujima, autor correspondente e pesquisador da Plataforma de Dados de Materiais do NIMS. "Esperamos que isso promova a pesquisa colaborativa e baseada em dados em materiais." A inovação central do sistema é sua abordagem de "Modelo de Conjunto de Dados", que define e direciona como os dados de diferentes tipos de experimentos devem ser processados, em vez de simplesmente definir formatos de dados.
Por exemplo, quando pesquisadores fazem upload de planilhas de medições de raios X de diferentes fontes, o Modelo de Conjunto de Dados pode ser configurado para interpretá-las. O sistema então realiza automaticamente análises avançadas e cria visualizações para fornecer visões gerais imediatas. Múltiplos modelos podem ser preparados para diferentes temas de pesquisa de materiais, permitindo máxima flexibilidade na gestão de dados. Pesquisadores individuais também podem preparar facilmente modelos personalizados quando necessário. Muitos modelos já foram preparados e compartilhados entre usuários através do sistema.
"A abordagem única do RDE permite que pesquisadores definam livremente estruturas de dados adaptadas aos seus instrumentos, enquanto permite que o sistema realize estruturação massiva de dados e extração de metadados automaticamente", diz Fujima. Desde seu lançamento em janeiro de 2023, o RDE demonstrou escalabilidade significativa com ampla adoção na comunidade japonesa de pesquisa de materiais. O sistema atualmente tem mais de 5.000 usuários, com mais de 1.900 Modelos de Conjunto de Dados para vários métodos experimentais implementados, mais de 16.000 conjuntos de dados criados e mais de três milhões de arquivos de dados acumulados.
O RDE serve como infraestrutura de dados para grandes iniciativas nacionais, incluindo a iniciativa Plataforma DX de Pesquisa de Materiais promovida pelo Ministério da Educação, Cultura, Esportes, Ciência e Tecnologia do Japão. Para incentivar um uso mais amplo na comunidade de pesquisa, a equipe do NIMS lançou um kit de ferramentas de software de código aberto chamado RDEToolKit. O artigo de pesquisa detalhando o sistema está disponível em https://doi.org/10.1080/27660400.2025.2597702, e informações adicionais sobre o periódico podem ser encontradas em https://www.tandfonline.com/STAM-M.
O desenvolvimento do RDE representa um avanço significativo na infraestrutura da ciência dos materiais, potencialmente acelerando processos de descoberta ao reduzir a carga de processamento de dados e facilitar a colaboração. Ao criar conjuntos de dados padronizados e prontos para IA, o sistema aborda um gargalo crítico na transição do campo para metodologias de pesquisa baseadas em dados. Este desenvolvimento de infraestrutura pode ter implicações de longo alcance para a inovação em materiais em setores como eletrônicos, energia, transporte e saúde, onde novas descobertas de materiais frequentemente impulsionam avanços tecnológicos.

