@PhDThesis{Barchi:2020:MaDeLe,
author = "Barchi, Paulo Henrique",
title = "Machine and deep learning applied to galaxy morphology",
school = "Instituto Nacional de Pesquisas Espaciais (INPE)",
year = "2020",
address = "S{\~a}o Jos{\'e} dos Campos",
month = "2020-03-09",
keywords = "computational astrophysics, galaxy morphology, machine learning,
deep learning, astrof{\'{\i}}sica computacional, morfologia de
gal{\'a}xias, aprendizado de m{\'a}quina, aprendizado de
m{\'a}quina profundo.",
abstract = "Morphological classification is a key piece of information to
define samples of galaxies aiming to study the large-scale
structure of the universe. In essence, the challenge is to build
up a robust methodology to perform a reliable morphological
estimate from galaxy images. Here, I investigate how to
substantially improve the galaxy classification within large
datasets by mimicking human classification. I combine accurate
visual classifications from the Galaxy Zoo project with machine
and deep learning methodologies. I propose two distinct approaches
for galaxy morphology: one based on non-parametric morphology and
traditional machine learning algorithms; and another based on deep
learning. To measure the input features for the traditional
machine learning methodology, I and my collaborators have
developed a system called CyMorph, with a novel non-parametric
approach to study galaxy morphology. The main datasets employed
comes from the Sloan Digital Sky Survey Data Release 7 (SDSS-DR7).
I also discuss the class imbalance problem considering three
classes. Performance of each model is mainly measured by overall
accuracy (OA). A spectroscopic validation with astrophysical
parameters is also provided for Decision Tree models to assess the
quality of our morphological classification. In all of our
samples, both Deep and Traditional Machine Learning approaches
have over 94.5% OA to classify galaxies in two classes (elliptical
and spiral). I compare our classification with state-of-the-art
morphological classification from literature. Considering only two
classes separation, I achieve 99% OA in average when using our
deep learning models, and 82% when using three classes. I provide
a catalog with 670,560 galaxies containing our best results,
including morphological metrics and classification. RESUMO:
Classifica{\c{c}}{\~a}o morfol{\'o}gica {\'e} pe{\c{c}}a
chave de informa{\c{c}}{\~a}o para definir amostras de
gal{\'a}xias com objetivo de estudar a estrutura do Universo em
larga-escala. Em ess{\^e}ncia, o desafio {\'e} construir uma
metodologia robusta para produzir uma estimativa morfol{\'o}gica
confi{\'a}vel a partir de imagens de gal{\'a}xias. Aqui,
investigo como melhorar substancialmente a
classifica{\c{c}}{\~a}o autom{\'a}tica de gal{\'a}xias em
grandes conjuntos de dados ao imitar a classifica{\c{c}}{\~a}o
fornecida por humanos. Combino classifica{\c{c}}{\~o}es visuais
do projeto Galaxy Zoo com metodologias de aprendizado de
m{\'a}quina tradicional e profundo. Proponho duas abordagens
distintas para morfologias de gal{\'a}xias: uma baseada em
morfologia n{\~a}o-param{\'e}trica e algoritmos de aprendizado
de m{\'a}quina tradicional; e outra baseada em aprendizado
profundo. Para medir as caracter{\'{\i}}sticas morfol{\'o}gicas
de entrada para algoritmos de aprendizado de m{\'a}quina
tradicional, desenvolvi com meus colaboradores um sistema chamado
CyMorph, com uma nova abordagem n{\~a}o-param{\'e}trica para
estudar morfologia de gal{\'a}xias. O principal conjunto de dados
explorado prov{\'e}m do Sloan Digital Sky Survey Data Release 7
(SDSS-DR7). Tamb{\'e}m discuto o problema de desbalanceamento de
classes considerando o problema com tr{\^e}s classes. A
performance de cada modelo {\'e} medida principalmente por
acur{\'a}cia global. A valida{\c{c}}{\~a}o espectrosc{\'o}pica
com par{\^a}metros astrof{\'{\i}}sicos tamb{\'e}m {\'e}
fornecida para os modelos de {\'A}rvore de Decis{\~a}o para
avaliar a qualidade de nossa classifica{\c{c}}{\~a}o
morfol{\'o}gica. Em todas as nossas amostras, tanto com
aprendizado de m{\'a}quina profundo como tradicional, obtenho
mais de 94.5% de acur{\'a}cia global para classificar
gal{\'a}xias em duas classes (el{\'{\i}}ptica e espiral).
Comparo minha classifica{\c{c}}{\~a}o com
classifica{\c{c}}{\~o}es morfol{\'o}gicas do estado-da-arte da
literatura. Considerando apenas duas classes, atingi 99% de
acur{\'a}cia global e m{\'e}dia usando modelos de aprendizado
profundo, e 82% usando tr{\^e}s classes. Forne{\c{c}}o uma
cat{\'a}logo com 670.560 gal{\'a}xias contendo nossos melhores
resultados, incluindo m{\'e}tricas morfol{\'o}gicas e
classifica{\c{c}}{\~o}es.",
committee = "Queiroz, Gilberto Ribeiro de (presidente) and Rosa, Reinaldo
Roberto (orientador) and Carvalho, Reinaldo Ramos de (orientador)
and K{\"o}rting, Thales Sehn and Men{\'e}ndez-Delmestre,
Kar{\'{\i}}n and Oliveira Filho, Irapuan Rodrigues de",
englishtitle = "Aprendizado de m{\'a}quina tradicional e profundo aplicado a
morfologia de gal{\'a}xias",
language = "en",
pages = "83",
ibi = "8JMKD3MGP3W34R/4257LEL",
url = "http://urlib.net/ibi/8JMKD3MGP3W34R/4257LEL",
targetfile = "publicacao.pdf",
urlaccessdate = "28 mar. 2024"
}