Fechar

%0 Thesis
%4 sid.inpe.br/mtc-m21c/2020/08.12.17.37
%2 sid.inpe.br/mtc-m21c/2020/08.12.17.37.59
%T Predição de propriedades moleculares via aprendizado de máquina e representação SMILES
%J Machine learning prediction of molecular properties based on the SMILES representation
%D 2021
%8 2020-07-29
%9 Dissertação (Mestrado em Computação Aplicada)
%P 165
%A Pinheiro, Gabriel Augusto Lins Leal,
%E Vijaykumar, Nandamudi Lankalapalli (presidente),
%E Quiles, Marcos Gonçalves (orientador),
%E Soares, Marinalva Dias (orientadora),
%E Santos, Rafael Duarte Coelho dos,
%E Fileti, Eudes Eterno,
%E Prati, Ronaldo Cristiano,
%I Instituto Nacional de Pesquisas Espaciais (INPE)
%C São José dos Campos
%K aprendizado de máquina, SMILES, redes neurais, ciência dos materiais, propriedades moleculares, machine learning, SMILES, neural networks, materials science, molecular properties.
%X O campo de ciência dos materiais possui caráter interdisciplinar, com aplicações nas mais diversas áreas do conhecimento que acabam influenciando vários aspectos da vida cotidiana. Pode-se citar como exemplo de aplicações pesquisas relacionadas à energia renovável, saúde, engenharia mecânica, aviação e espaço. Nesta área da ciência, o estudo das propriedades dos materiais e as relações com suas estruturas em escala atômica ou molecular torna-se imprescindível para a descoberta de novos materiais, requerendo assim, o conhecimento de como estes se comportam e reagem uns com os outros em diferentes ambientes. Na área espacial, por exemplo, o desenvolvimento de nanotecnologias para a composição das estruturas de um satélite pode permitir a descoberta de materiais mais leves e resistentes a danos de radiação. Contudo, abordagens tradicionais em ciência dos materiais, como a teoria do funcional da densidade, usadas no processo do cálculo das propriedades físico-químicas de um material, são computacionalmente custosas. Por outro lado, a quantidade de dados providos sobre cálculos e experimentos realizados na última década possibilitou a aplicação de algoritmos de aprendizado de máquina como alternativa aos métodos tradicionais, tendo por vantagem a otimização no tempo do cálculo. Para que o algoritmo de aprendizado de máquina realize um mapeamento adequado entre a entrada e saída, é necessário fazer a descrição da molécula, chamado de descritor ou atributo, de maneira a codificar informações significativas presentes no sistema molecular. Neste sentido, este trabalho visou explorar o uso de descritores baseados na representação Simplified Molecular Input Line Entry System (SMILES) para a predição de propriedades moleculares. Para isso, utilizou-se uma rede Perceptron de múltiplas camadas e cinco métodos de seleção de atributos. As melhores predições foram obtidas para as propriedades térmicas, que atingiram um erro absoluto médio próximo a 0.05 eV e portanto, bem próximo ao erro aceitável pela acurácia química. ABSTRACT: The field of material science is characterized by its interdisciplinary in several scientific areas, which influences diverse aspects of daily life. For instance, one can cite material science applications in clean energy, health, mechanical engineer, and aircraft materials. In this realm, the study of materials properties and its relationship with the molecular structure at the atomic or molecular scale is crucial for the development of new materials, requiring an understanding of the behavior of the material to different environments and other materials. In aerospace applications, for instance, the development of nanotechnology for satellites structure can achieve materials more resistant to spatial radiation and weightless. Nevertheless, traditional approaches in material science (i.e., density functional theory) used to compute the physicochemical properties demand high computational resources. By contrast, the amount of available data provided from previous calculations and experiments in the last decade has allowed the application of a machine learning algorithm as an alternative approach for such computations with less time and computational resources. However, machine learning algorithms rely on a well suitable representation of the data to perform an accurate prediction. Thus, molecular features, or descriptors, are essential to encode meaningful information present in the molecules. In this sense, this work aims to explore molecular descriptors based in the Simplified Molecular Input Line Entry System (SMILES) representation to predict molecular properties. For that, it was used a multilayer perceptron and five feature selection methods. The best achievements in this work obtained an error, in terms of mean absolute error, of 0.05 eV for the thermodynamic properties, which is an error close to the chemical accuracy.
%@language pt
%3 publicacao.pdf


Fechar