@PhDThesis{Gomes:2023:ToBiEa,
author = "Gomes, Vitor Conrado Faria",
title = "Brazil Data Cube Workflow Engine: a tool for big earth observation
data processing",
school = "Instituto Nacional de Pesquisas Espaciais (INPE)",
year = "2023",
address = "S{\~a}o Jos{\'e} dos Campos",
month = "2023-03-29",
keywords = "big data, directed acyclic graphs, open data cube, OpenEO,
dagster, grafos ac{\'{\i}}clicos dirigidos, open data cube,
OpenEO, grandes volumes de dados, dagster.",
abstract = "Earth Observation (EO) satellites have produced large amounts of
geospatial data that are freely available to society and
researchers. Handling these data often exceeds the capabilities of
the hardware and software traditionally used for storing and
processing EO data. This scenario presents challenges for
traditional Spatial Data Infrastructure (SDI) to properly store,
process, disseminate, and analyze big data sets. To meet these
demands, new technologies based on cloud computing and distributed
systems, such as matrix database systems, MapReduce systems, and
web services, have been proposed and developed. These technologies
are now being integrated into leading-edge platforms to support a
new generation of SDI for big EO data. These platforms have
different characteristics in terms of governance, technologies
used, data access, infrastructure abstractions, data processing,
and flexibility to extend their functionality. In general, we
observed that the greater the degree of abstraction given to the
scientist, the greater the difficulty in providing flexibility in
data-processing approaches. This thesis contributes to the area of
spatial data infrastructure through the evaluation and analysis of
available EO data processing and analysis platforms as well as a
server-side EO data processing architecture that provides an
abstraction of access and processing of EO data for users and the
possibility of including algorithms and access and processing
techniques by SDI maintainers. The main idea was to build a
framework based on workflow orchestration tools integrated with a
high-level API for user interaction. This tool allows the
configuration of processes and the extension of previously defined
data models. Furthermore, the interface between the processing
services and the user is executed through the OpenEO API, which
establishes a standard for accessing, manipulating and processing
EO data. The architecture proposed in this thesis was implemented
and applied in two case studies. RESUMO: Sat{\'e}lites de
observa{\c{c}}{\~a}o da Terra (Earth Observation - EO) t{\^e}m
produzido grandes quantidades de dados geoespaciais que est{\~a}o
dispon{\'{\i}}veis gratuitamente para a sociedade e
pesquisadores. Frequentemente, a manipula{\c{c}}{\~a}o desses
dados excedem as capacidades de hardware e software
tradicionalmente usados para o armazenamento e processamento de
dados de EO. Este cen{\'a}rio traz desafios para as
infraestruturas tradicionais de dados espaciais (SDI) para
armazenar, processar, disseminar e analisar adequadamente esses
conjuntos de big data. Para atender a essas demandas, novas
tecnologias foram propostas e desenvolvidas, baseadas em
computa{\c{c}}{\~a}o em nuvem e sistemas distribu{\'{\i}}dos,
como sistemas de banco de dados matriciais, sistemas MapReduce e
servi{\c{c}}os web, para acessar e processar esses volumes de
dados. Atualmente, essas tecnologias v{\^e}m sendo integradas em
plataformas de ponta para suportar uma nova gera{\c{c}}{\~a}o de
SDI para grandes volumes de dados de EO. Essas plataformas
apresentam diferentes caracter{\'{\i}}sticas em
rela{\c{c}}{\~a}o {\`a} governan{\c{c}}a, tecnologias
utilizadas, acesso aos dados, abstra{\c{c}}{\~o}es de
infraestrutura, dados e processamento e quanto {\`a}
flexibilidade de extens{\~a}o de suas funcionalidades. De maneira
geral, observamos que quanto maior o grau de abstra{\c{c}}{\~a}o
entregue ao cientista, maior a dificuldade em fornecer
flexibilidade nas abordagens de processamento de dados. Essa tese
contribui para a {\'a}rea de infraestrutura de dados espaciais
por meio da avalia{\c{c}}{\~a}o e an{\'a}lise de plataformas de
processamento e an{\'a}lise de dados de EO dispon{\'{\i}}veis e
pela proposi{\c{c}}{\~a}o de uma arquitetura de processamento de
dados de EO no lado do servidor que fornece, aos usu{\'a}rios,
abstra{\c{c}}{\~a}o de acesso e processamento de dados. Essa
arquitetura {\'e} estruturada na forma de um framework baseado em
ferramentas de orquestra{\c{c}}{\~a}o de workflows, integrado
com uma API de alto n{\'{\i}}vel para a intera{\c{c}}{\~a}o
com os usu{\'a}rios. Essa ferramenta permite a
configura{\c{c}}{\~a}o de processamentos e a extens{\~a}o dos
modelos de dados previamente definidos. Al{\'e}m disso, a
interface entre os servi{\c{c}}os de processamento e o
usu{\'a}rio {\'e} feita por meio da OpenEO API, a qual
estabelece um padr{\~a}o para o acesso, manipula{\c{c}}{\~a}o e
processamento de dados de EO. A arquitetura proposta nesta tese
foi implementa e aplicada em dois estudos de caso.",
committee = "Korting, Thales Sehn (presidente) and Gomes, Karine Reis Ferreira
(orientadora) and Queiroz, Gilberto Ribeiro de (orientador) and
Barbosa, Cl{\'a}udio Clemente Faria and Campelo, Cl{\'a}udio
El{\'{\i}}zio Calazans and Cogo, Vin{\'{\i}}cius Vielmo",
englishtitle = "Brazil Data Cube Workflow Engine: uma ferramenta para
processamento de grandes volumes de dados de
observa{\c{c}}{\~a}o da Terra",
language = "en",
pages = "95",
ibi = "8JMKD3MGP3W34T/48QKERL",
url = "http://urlib.net/ibi/8JMKD3MGP3W34T/48QKERL",
targetfile = "publicacao.pdf",
urlaccessdate = "29 jun. 2024"
}