Fechar

%0 Thesis
%4 sid.inpe.br/mtc-m21c/2020/12.28.13.44
%2 sid.inpe.br/mtc-m21c/2020/12.28.13.44.06
%T Bisecting stochastic clustering: a new algorithm for PolSAR image unsupervised classification
%J Bi-divisão estocástica de agrupamento: um novo algoritmo para classificação não supervisionada de imagens polSAR
%D 2021
%8 2020-11-10
%9 Tese (Doutorado em Computação Aplicada)
%P 179
%A Carvalho, Naiallen Carolyne Rodrigues Lima,
%E Körting, Thales Sehn (presidente),
%E Sant'Anna, Sidnei João Siqueira (orientador),
%E Bins, Leonardo Sant'Anna (orientador),
%E Shiguemori, Elcio Hideiti,
%E Carvalho, Solon Venâncio de,
%E Correia, Antonio Henrique,
%E Sousa Júnior, Manoel de Araújo,
%I Instituto Nacional de Pesquisas Espaciais (INPE)
%C São José dos Campos
%K stochastic distance, Riemann geometry, divisive hierarchical clustering, PolSAR image, unsupervised classification, distancia estocastica, geometria de Riemann, agrupamento divisivo hierarquico, imagens PolSAR, classificação não supervisionada.
%X PolSAR (Polarimetric Synthetic Aperture Radar) images can be represented by a set of complex Hermitian positive definite matrices, which have a natural Riemannian metric tensor. PolSAR images are, also, known for following the Wishart distribution, and, by using the information theory contrast function, stochastic distances between Wishart distributions can be derived. This work addresses unsupervised classification strategies, explores the Riemann geometry and studies stochastic distances applied to PolSAR images. The proposed algorithm, named Bisecting Stochastic Clustering (BSC), is a combination between the Stochastic Clustering (SC) algorithm and the hierarchical divisive clustering algorithm. The SC algorithm is technique based on K-means, which uses stochastic distances as similarity metric. The SC algorithm can, usually, be trapped in a local minimum, what led to incorrect clustering results. Therefore, the choice of good initial parameter candidates is essential for the clustering quality. The BSC algorithm is a top-down procedure, it starts with all samples in an unique cluster, that are successively splitted into two new sub-clusters. This algorithm is mainly divided into three steps: the initial parameter determination, the cluster bi-partitioning procedure, and the choice of a suitable cluster to split. In this work, two algorithms for the initial parameter determination are tested: the Expectation-Maximization (EM) algorithm for Wishart Mixture Model and the Riemann Principal Direction Divisive Partitioning (RPDDP). The RPDDP is a new proposed algorithm, whose goal is to perform the bi-partition of a dataset. This algorithm estimates the dataset covariance matrix under the the Riemann geometry, in order to find the principal component, which is used to separate the input data in two sub-clusters. From the RPDDP two estimated sub-clusters, the BSC derives the initial parameters. The BSC second step is performed by the SC algorithm. The BSC builds a dendrogram in order to represent the dataset splitting. Each sub-cluster, or node, links two successor sub-clusters in the dendrogram. When three or more nodes are available in one dendrogram level, the algorithm needs to choose a node to split. The BSC third step uses the information gain as the node choice rule. This work analyses the SC algorithm and two main variants of BSC. The first variant uses the RPDDP as initial parameter determiner, and the second, uses the EM algorithm as initial parameter determiner. The Bhattacharyya (B), Kullback-Leibler (KL) and Hellinger (H) stochastic distances are analysed in this work. In total, nine algorithms are evaluated: SC-B, SC-KL, SC-H, BSC-R-B, BSC-R-KL, BSC-R-H, BSC-EM-B, BSC-EM-KL, BSC-EM-H. The algorithms were analysed in a quantitative and qualitative way. The quantitative analysis consists in the confusion matrix and accuracy estimation, and the qualitative analysis explore the BSC dendrogram and the clusters scattering mechanism by inspecting the Plan H − alpha. RESUMO: As imagens PolSAR (Polarimetric Synthetic Aperture Radar) podem ser representadas por um conjunto de matrizes definidas positivas Hermitianas complexas, que possuem um tensor métrico Riemanniano. As imagens PolSAR também são conhecidas por seguir a distribuição de Wishart e, usando a função de contraste da teoria da informação, distâncias estocásticas entre as distribuições de Wishart podem ser derivadas. Este trabalho aborda estratégias de classificação não supervisionadas, explora a geometria de Riemann e estuda distâncias estocásticas aplicadas às imagens PolSAR. O algoritmo proposto, denominado Bisecting Stochastic Clustering (BSC), é uma combinação entre o algoritmo Stochastic Clustering (SC) e o algoritmo hierárquico divisivo. O algoritmo SC é uma técnica baseada no K-médias, que usa distâncias estocásticas como métrica de similaridade. O algoritmo SC pode, geralmente, ficar preso em um mínimo local, o que leva a agrupamentos incorretos. Por isso, a escolha de bons parâmetros iniciais é essencial para a qualidade do agrupamento. O algoritmo BSC é um procedimento top-down, ele começa com todas as amostras em um único cluster, que é sucessivamente dividido em dois novos subclusters. Este algoritmo é dividido em três etapas: a determinação do parâmetro inicial, o procedimento de bi-particionamento do cluster e a escolha de um cluster adequado para dividir. Neste trabalho, dois algoritmos para a determinação dos parâmetros iniciais são testados: o algoritmo Expectation-Maximization (EM) para o Modelo de Mistura de Wishart e o Particionamento Divisivo da Direção Principal de Riemann (RPDDP). O RPDDP é um novo algoritmo, proposto com objetivo de realizar a bi-partição de um conjunto de dados. Este algoritmo estima a matriz de covariância do conjunto de dados sob a geometria de Riemann, a fim de encontrar a componente principal, que é usada para separar os dados de entrada em dois subclusters. A partir dos dois subclusters estimados pelo RPDDP, o BSC deriva os parâmetros iniciais. A segunda etapa do BSC é realizada pelo algoritmo SC. O BSC constrói um dendrograma para representar a divisão do conjunto de dados. Cada sub-cluster, ou nó, é ligado a dois sub-grupos sucessores no dendrograma. Quando há três ou mais nós disponíveis em um nível de dendrograma, o algoritmo precisa escolher um nó para ser dividido. A terceira etapa do BSC usa o ganho de informação como regra de escolha desse nó. Este trabalho analisa o algoritmo SC e as duas variantes principais do BSC. A primeira variante usa o RPDDP como determinador dos parâmetros iniciais e a segunda, usa o algoritmo EM. As distâncias estocásticas de Bhattacharyya (B), Kullback-Leibler (KL) e Hellinger (H) são analisadas neste trabalho. No total, nove algoritmos são avaliados: SC-B, SC-KL, SC-H, BSC-R-B, BSC-R-KL, BSC-RH, BSC-EM-B, BSC-EM-KL, BSC-EM-H. Os algoritmos foram analisados de forma quantitativa e qualitativa. A análise quantitativa consiste no calculo da matriz de confusão e na estimativa da acuracia; a análise qualitativa explora o dendrograma e os mecanismos de espalhamento dos clusters através da inspeção do Plan H− alpha.
%@language en
%3 publicacao.pdf


Fechar