@PhDThesis{Porto:2019:AlAgFl,
author = "Porto, Sandy Moreira",
title = "Rede prot{\'o}tipo: um algoritmo para agrupamento de fluxo de
dados baseado em redes complexas",
school = "Instituto Nacional de Pesquisas Espaciais (INPE)",
year = "2019",
address = "S{\~a}o Jos{\'e} dos Campos",
month = "2019-08-21",
keywords = "Fluxo de dados, redes complexas, agrupamento, MODIS,
observa{\c{c}}{\~a}o da Terra, data streams, complex network,
clustering, Earth observing.",
abstract = "Fluxo de dados s{\~a}o um novo conceito surgido a partir do
grande avan{\c{c}}o tecnol{\'o}gico das {\'u}ltimas
d{\'e}cadas. Data streams, como s{\~a}o chamados em ingl{\^e}s,
s{\~a}o sequ{\^e}ncias de objetos que s{\~a}o gerados em tempo
real e, portanto, trazem desafios {\'u}nicos aos algoritmos que
pretendem process{\'a}-los. Este trabalho est{\'a} concentrado
na tarefa de analisar os objetos que chegam com intuito de
agrup{\'a}-los em conjuntos similares. Como os fluxos tendem ao
infinito e, geralmente, os dados chegam com rapidez, os algoritmos
de agrupamento para este tipo de dado, diferentemente das
t{\'e}cnicas tradicionais, tem que desempenhar seus pap{\'e}is
com restri{\c{c}}{\~o}es quanto ao espa{\c{c}}o de
armazenamento e tempo de processamento que limitam sua
atua{\c{c}}{\~a}o. Al{\'e}m disso, o algoritmo a tratar esses
dados deve estar preparado para lidar com mudan{\c{c}}as e
evolu{\c{c}}{\~o}es no conceito dos dados ao longo do tempo. A
metodologia apresentada neste trabalho, nomeada Rede
Prot{\'o}tipo, utiliza uma estrutura de dados baseada em Redes
Complexas para armazenar um sum{\'a}rio inteligente dos dados do
fluxo, inteligente porque ao mesmo tempo que agrupa os dados em
conjuntos similares, consegue acompanhar os movimentos de conceito
sem maiores interfer{\^e}ncias do usu{\'a}rio. A proposta deste
trabalho tem como maior vantagem a depend{\^e}ncia de apenas dois
par{\^a}metros, MAXV e H, sendo que o primeiro define a
quantidade m{\'a}xima de v{\'e}rtices da rede e o segundo a
quantidade de dados recentes do fluxo a serem considerados. Os
experimentos relatados nesta tese avaliam o desempenho da Rede
Prot{\'o}tipo contra algoritmos cl{\'a}ssicos na tarefa de
agrupamento de fluxos como CluStream e DenStream, mas tamb{\'e}m
contra outros algoritmos tamb{\'e}m baseados em Redes Complexas.
Os algoritmos s{\~a}o testados com dados sint{\'e}ticos que
simulam mudan{\c{c}}as e evolu{\c{c}}{\~o}es de conceito,
al{\'e}m de dados provenientes de imagens de
Observa{\c{c}}{\~a}o da Terra, que se mostraram ainda mais
desafiadores para os algoritmos de agrupamento de fluxo de dados.
ABSTRACT: Data streams are a new concept that emerged from the
significant technological advances of the last decades. Those data
are sequences of objects that are generated in real-time and
therefore pose unique challenges to the algorithms that intend to
process them. This work is focused on the task of analyzing the
objects that arrive with the intent of group them into similar
sets. Since data streams tend to infinity and data usually arrive
quickly, clustering algorithms for this type of data, unlike
traditional techniques, have to play their role with storage space
and processing time constraints that limit their performance. In
addition, the algorithm handling this data must be prepared to
deal with changes and developments in the concept of data over
time. The methodology presented in this thesis, called Prototype
Network, uses a data structure based on Complex Networks to store
an intelligent data stream summary, intelligent because while
grouping the data into similar sets, it can follow the concept
movements without major user interference. The purpose of this
work has the most significant advantage of relying on only two
parameters, MAXV and H, the first one defining the maximum amount
of network vertices and the second the amount of recent stream
data to be considered. The experiments reported in this thesis
evaluate the performance of the Prototype Network against
classical algorithms in the clustering task such as CluStream and
DenStream, but also against other algorithms also based on Complex
Networks. The algorithms are tested with synthetic data that
simulate concept changes and evolution, as well as data from Earth
Observation images, which have proven to be even more challenging
for data streams clustering algorithms.",
committee = "Vijaykumar, Nandamudi Lankalapalli (presidente) and Quiles, Marcos
Gon{\c{c}}alves (orientador) and Macau, Elbert Einstein Nehrer
and Lorena, Ana Carolina and Basgalupp, M{\'a}rcio Porto",
englishtitle = "Prototype network: an algorithm for data stream clustering based
on complex networks",
language = "pt",
pages = "133",
ibi = "8JMKD3MGP3W34R/3TR9CEL",
url = "http://urlib.net/ibi/8JMKD3MGP3W34R/3TR9CEL",
targetfile = "publicacao.pdf",
urlaccessdate = "04 jun. 2024"
}