@TechReport{RohrPetr:2022:ReCoEl,
author = "Rohr, Jo{\~a}o V{\'{\i}}tor Bernardi and Petry, Adriano",
title = "Reconstru{\c{c}}{\~a}o do conte{\'u}do eletr{\^o}nico total da
ionosfera utilizando an{\'a}lise espectral de dados
hist{\'o}ricos",
institution = "Instituto Nacional de Pesquisas Espaciais",
year = "2022",
type = "RPQ",
address = "S{\~a}o Jos{\'e} dos Campos",
note = "{Bolsa PIBIC/PIBITI/INPE/CNPq.}",
keywords = "conte{\'u}do eletr{\^o}nico total, previs{\~a}o, aprendizado de
m{\'a}quina, modelagem sazonal, ionosfera, total electron
content, forecasting, machine learning, seasonal modeling,
ionosphere.",
abstract = "A descri{\c{c}}{\~a}o anal{\'{\i}}tica de modelos para o
Conte{\'u}do Eletr{\^o}nico Total (TEC) da ionosfera apresenta
alta complexidade e elevado custo computacional. Sendo assim, com
a grande quantidade de dados j{\'a} existentes {\'e} de
interesse a utiliza{\c{c}}{\~a}o de m{\'e}todos de aprendizado
de m{\'a}quina e ci{\^e}ncia de dados para a mais r{\'a}pida
predi{\c{c}}{\~a}o do TEC da ionosfera atrav{\'e}s de
indicadores de atividade solar. Dando continuidade ao trabalho
anterior, neste tamb{\'e}m se buscou a modelagem da din{\^a}mica
da ionosfera durante longos per{\'{\i}}odos (1 a 3 anos) fazendo
uso da an{\'a}lise espectral atrav{\'e}s da Transformada
Discreta do Cosseno (DCT). As vari{\'a}veis solares analisadas
como features do modelo foram o n{\'u}mero relativo de manchas
solares (RSN), {\'{\i}}ndice F10.7 e 39 bandas de fluxo
fot{\^o}nico (PF) de extremo ultravioleta (EUV) obtidos
atrav{\'e}s do modelo emp{\'{\i}}rico Solar2000. A fim de
condensar as 39 bandas de fluxo fot{\^o}nico em apenas uma
vari{\'a}vel foi proposta uma nova feature baseada na m{\'e}dia
ponderada pelos coeficientes de correla{\c{c}}{\~a}o de Pearson
de cada uma das bandas, nomeada por simplicidade como PF
combinado. Para o presente trabalho foram considerados apenas os
modelos de regress{\~a}o linear e m{\'a}quina de vetores de
suporte (SVM). Al{\'e}m disso, o conjunto de dados foi aumentado
para 19 anos (2003-2021) tanto em valores de TEC como de dados
solares o que permitiu a an{\'a}lise de desempenho com o aumento
dos anos de teste e maior tempo de treino. Por fim, desenvolveu-se
um c{\'o}digo geral em que {\'e} poss{\'{\i}}vel se subdividir
a simula{\c{c}}{\~a}o em diferentes modelos individuais
separados por um per{\'{\i}}odo de dias do ano, sazonal por
exemplo, pelos solst{\'{\i}}cios e equin{\'o}cios. Analisando o
desempenho de modelos treinados com certas combina{\c{c}}{\~o}es
de features ficou not{\'a}vel que aqueles com F10.7 e algumas
bandas separadas de PF desempenharam muito abaixo do que aqueles
treinados somente com RSN e/ou PF combinado, os quais atingiram
erros de 2.8 TECu, quando comparados com dados de TEC fornecidos
pelo International GNSS Service (IGS). De outro modo, com
vari{\'a}veis de F10.7, RSN e PF das tr{\^e}s primeiras bandas,
mas agora com divis{\~a}o sazonal, o valor de RMSE ficou em torno
de 2 TECu para todo o per{\'{\i}}odo de teste. Todavia,
observou-se que a utiliza{\c{c}}{\~a}o apenas de RSN e/ou PF
combinado n{\~a}o obt{\'e}m benef{\'{\i}}cios significativos
da divis{\~a}o sazonal, pois com estas features o comportamento
peri{\'o}dico sazonal {\'e} suprimido. ABSTRACT: The analytical
description of models for the ionospheric Total Electron Content
(TEC) shows high complexity and computational cost. Therefore,
with the large amount od data already available it is of interest
the application of machine learning and data science methods to
forecast the ionospheric TEC more rapidly through solar activity
proxies. In that way, it was done the dynamical modeling of the
ionosphere during long periods of time (1 to 3 years) using
spectral analysis by means of the Discrete Cosine Transform (DCT).
The variables analyzed as the models features were the Relative
Sunspot Number (RSN), the F10.7 index and 39 bandwidths of Photon
Fluxes (PF) in the Extreme Ultra-Violet (EUV) spectrum, all of
those obtained from the empirical model Solar2000. Aiming to
condensate the 39 bandwidths of photon flux into only one variable
it was proposed a new feature based on the weighted average where
the weights are the Pearson coefficient with respect to the TEC
for each bandwidth, this variable was named combined PF. The
models considered were linear regression and Support Vector
Machine (SVM), based on previous results. Moreover, the data base
on this analysis constituted 19 years (2003-2021) of TEC and solar
data, for which performance over long periods of time changing
training and testing. Based on previous observed evidence of error
seasonal variation, it was tested the seasonal subdivision of the
model to lower the Root Mean Square Error (RMSE) during solstices.
Evaluating the RMSE error of models trained and tested with
different sets of features it was evident that those with F10.7 e
some bands of PF performed well lower than those trained only with
RSN and/or combined PF, who reached errors of 2.8 TECu, when
compared with TEC data obtained from the International GNSS
Service (IGS). Otherwise, considering F10.7, RSN and the three
first bandwidths of PF, but now with seasonal division, the value
of RMSE stayed in the range of 2 TECu for the whole test period.
Nevertheless, using only RSN and/or combined PF it was not
observed significant benefits from seasonal division, the reason
for that being the suppression of the error seasonal behavior when
applying those features.",
affiliation = "{Universidade Federal de Santa Maria (UFSM) } and {Instituto
Nacional de Pesquisas Espaciais (INPE)}",
language = "pt",
pages = "32",
ibi = "8JMKD3MGP3W34T/47N3NNS",
url = "http://urlib.net/ibi/8JMKD3MGP3W34T/47N3NNS",
targetfile = "Relatorio_Final_PIBIC_2021_2022_Joao_Vitor_Bernardi_Rohr.pdf",
urlaccessdate = "02 maio 2024"
}