@MastersThesis{Pinheiro:2021:PrPrMo,
author = "Pinheiro, Gabriel Augusto Lins Leal",
title = "Predi{\c{c}}{\~a}o de propriedades moleculares via aprendizado
de m{\'a}quina e representa{\c{c}}{\~a}o SMILES",
school = "Instituto Nacional de Pesquisas Espaciais (INPE)",
year = "2021",
address = "S{\~a}o Jos{\'e} dos Campos",
month = "2020-07-29",
keywords = "aprendizado de m{\'a}quina, SMILES, redes neurais, ci{\^e}ncia
dos materiais, propriedades moleculares, machine learning, SMILES,
neural networks, materials science, molecular properties.",
abstract = "O campo de ci{\^e}ncia dos materiais possui car{\'a}ter
interdisciplinar, com aplica{\c{c}}{\~o}es nas mais diversas
{\'a}reas do conhecimento que acabam influenciando v{\'a}rios
aspectos da vida cotidiana. Pode-se citar como exemplo de
aplica{\c{c}}{\~o}es pesquisas relacionadas {\`a} energia
renov{\'a}vel, sa{\'u}de, engenharia mec{\^a}nica,
avia{\c{c}}{\~a}o e espa{\c{c}}o. Nesta {\'a}rea da
ci{\^e}ncia, o estudo das propriedades dos materiais e as
rela{\c{c}}{\~o}es com suas estruturas em escala at{\^o}mica ou
molecular torna-se imprescind{\'{\i}}vel para a descoberta de
novos materiais, requerendo assim, o conhecimento de como estes se
comportam e reagem uns com os outros em diferentes ambientes. Na
{\'a}rea espacial, por exemplo, o desenvolvimento de
nanotecnologias para a composi{\c{c}}{\~a}o das estruturas de um
sat{\'e}lite pode permitir a descoberta de materiais mais leves e
resistentes a danos de radia{\c{c}}{\~a}o. Contudo, abordagens
tradicionais em ci{\^e}ncia dos materiais, como a teoria do
funcional da densidade, usadas no processo do c{\'a}lculo das
propriedades f{\'{\i}}sico-qu{\'{\i}}micas de um material,
s{\~a}o computacionalmente custosas. Por outro lado, a quantidade
de dados providos sobre c{\'a}lculos e experimentos realizados na
{\'u}ltima d{\'e}cada possibilitou a aplica{\c{c}}{\~a}o de
algoritmos de aprendizado de m{\'a}quina como alternativa aos
m{\'e}todos tradicionais, tendo por vantagem a
otimiza{\c{c}}{\~a}o no tempo do c{\'a}lculo. Para que o
algoritmo de aprendizado de m{\'a}quina realize um mapeamento
adequado entre a entrada e sa{\'{\i}}da, {\'e} necess{\'a}rio
fazer a descri{\c{c}}{\~a}o da mol{\'e}cula, chamado de
descritor ou atributo, de maneira a codificar
informa{\c{c}}{\~o}es significativas presentes no sistema
molecular. Neste sentido, este trabalho visou explorar o uso de
descritores baseados na representa{\c{c}}{\~a}o Simplified
Molecular Input Line Entry System (SMILES) para a
predi{\c{c}}{\~a}o de propriedades moleculares. Para isso,
utilizou-se uma rede Perceptron de m{\'u}ltiplas camadas e cinco
m{\'e}todos de sele{\c{c}}{\~a}o de atributos. As melhores
predi{\c{c}}{\~o}es foram obtidas para as propriedades
t{\'e}rmicas, que atingiram um erro absoluto m{\'e}dio
pr{\'o}ximo a 0.05 eV e portanto, bem pr{\'o}ximo ao erro
aceit{\'a}vel pela acur{\'a}cia qu{\'{\i}}mica. ABSTRACT: The
field of material science is characterized by its
interdisciplinary in several scientific areas, which influences
diverse aspects of daily life. For instance, one can cite material
science applications in clean energy, health, mechanical engineer,
and aircraft materials. In this realm, the study of materials
properties and its relationship with the molecular structure at
the atomic or molecular scale is crucial for the development of
new materials, requiring an understanding of the behavior of the
material to different environments and other materials. In
aerospace applications, for instance, the development of
nanotechnology for satellites structure can achieve materials more
resistant to spatial radiation and weightless. Nevertheless,
traditional approaches in material science (i.e., density
functional theory) used to compute the physicochemical properties
demand high computational resources. By contrast, the amount of
available data provided from previous calculations and experiments
in the last decade has allowed the application of a machine
learning algorithm as an alternative approach for such
computations with less time and computational resources. However,
machine learning algorithms rely on a well suitable representation
of the data to perform an accurate prediction. Thus, molecular
features, or descriptors, are essential to encode meaningful
information present in the molecules. In this sense, this work
aims to explore molecular descriptors based in the Simplified
Molecular Input Line Entry System (SMILES) representation to
predict molecular properties. For that, it was used a multilayer
perceptron and five feature selection methods. The best
achievements in this work obtained an error, in terms of mean
absolute error, of 0.05 eV for the thermodynamic properties, which
is an error close to the chemical accuracy.",
committee = "Vijaykumar, Nandamudi Lankalapalli (presidente) and Quiles, Marcos
Gon{\c{c}}alves (orientador) and Soares, Marinalva Dias
(orientadora) and Santos, Rafael Duarte Coelho dos and Fileti,
Eudes Eterno and Prati, Ronaldo Cristiano",
englishtitle = "Machine learning prediction of molecular properties based on the
SMILES representation",
language = "pt",
pages = "165",
ibi = "8JMKD3MGP3W34R/433H4PS",
url = "http://urlib.net/ibi/8JMKD3MGP3W34R/433H4PS",
targetfile = "publicacao.pdf",
urlaccessdate = "27 abr. 2024"
}