Fechar

1. Identificação
Tipo de ReferênciaTese ou Dissertação (Thesis)
Sitemtc-m21d.sid.inpe.br
Código do Detentorisadg {BR SPINPE} ibi 8JMKD3MGPCW/3DT298S
Identificador8JMKD3MGP3W34T/45U9NCS
Repositóriosid.inpe.br/mtc-m21d/2021/12.09.23.37
Última Atualização2022:04.19.18.27.33 (UTC) administrator
Repositório de Metadadossid.inpe.br/mtc-m21d/2021/12.09.23.37.30
Última Atualização dos Metadados2022:08.06.21.39.49 (UTC) administrator
Chave SecundáriaINPE-18533-TDI/3178
Chave de CitaçãoMarques:2022:InAtCo
TítuloIntelligent attitude control of satellites via deep reinforcement learning
Título AlternativoControle de atitude inteligente de satélites via aprendizagem por reforço profundo
CursoCMC-ETES-DIPGR-INPE-MCTI-GOV-BR
Ano2022
Data2021-12-14
Data de Acesso28 jun. 2024
Tipo da TeseDissertação (Mestrado em Mecânica Espacial e Controle)
Tipo SecundárioTDI
Número de Páginas124
Número de Arquivos1
Tamanho4271 KiB
2. Contextualização
AutorMarques, Wilson José de Sá
ORCID0000-0002-3294-4108
GrupoCMC-ETES-DIPGR-INPE-MCTI-GOV-BR
AfiliaçãoInstituto Nacional de Pesquisas Espaciais (INPE)
BancaRocco, Evandro Marconi (presidente)
Chagas, Ronan Arraes Jardim (orientador)
Maximo, Marcos Ricardo Omena de Albuquerque
Endereço de e-Mailwilson.marques@inpe.br, wilsonssmarques@gmail.com
UniversidadeInstituto Nacional de Pesquisas Espaciais (INPE)
CidadeSão José dos Campos
Histórico (UTC)2021-12-09 23:39:45 :: wilson.marques@inpe.br -> pubtc@inpe.br :: 2021
2021-12-10 13:00:17 :: pubtc@inpe.br -> wilson.marques@inpe.br :: 2021
2022-02-09 16:36:49 :: wilson.marques@inpe.br -> pubtc@inpe.br :: 2021
2022-02-09 18:19:26 :: pubtc@inpe.br -> wilson.marques@inpe.br :: 2021
2022-02-11 11:21:09 :: wilson.marques@inpe.br -> pubtc@inpe.br :: 2021
2022-02-14 11:35:21 :: pubtc@inpe.br -> wilson.marques@inpe.br :: 2021
2022-03-09 19:51:40 :: wilson.marques@inpe.br -> administrator :: 2021
2022-04-19 17:52:05 :: administrator -> pubtc@inpe.br :: 2021
2022-04-19 19:23:44 :: pubtc@inpe.br -> simone :: 2021
2022-04-19 19:28:10 :: simone :: 2021 -> 2022
2022-04-19 19:28:11 :: simone -> administrator :: 2022
2022-08-06 21:39:49 :: administrator -> :: 2022
3. Conteúdo e estrutura
É a matriz ou uma cópia?é a matriz
Estágio do Conteúdoconcluido
Transferível1
Tipo do ConteúdoExternal Contribution
Palavras-Chaveattitude control
satellite
artificial intelligence
deep reinforcement learning
optimal control
controle de atitude
satélite
inteligência artificial
aprendizagem por reforço profundo
controle ótimo
ResumoThis work proposes the application of machine learning techniques to the attitude control of satellites. More specifically, Deep Reinforcement Learning (DRL) is used to generate an optimal control policy. The policy is parameterized as a neural network, which allows for its application in higher dimension state spaces. Since the torque command used to modify the attitude of the satellite is a continuous signal, it is necessary to use algorithms suited for continuous action spaces. Accordingly, three DRL algorithms were evaluated, namely the Deep Deterministic Policy Gradient (DDPG), the Twin Delayed DDPG (TD3), and the Soft Actor-Critic (SAC). For this method to work in the attitude control setting, it was necessary to modify the default neural network model used within the referred algorithms. Particularly, the bias units of the neural networks representing the control policies have been removed. In regards to the training procedure, the three algorithms were successful in finding the parameters of Neural Networks (NN) capable of solving the attitude control problem. However, there were differences in performance. For instance, the SAC converged considerably faster than the other two, and its learning curve showed more consistent learning. Furthermore, the final average reward value was equivalent for SAC and TD3. DDPG, on the other hand, showed a more oscillatory behavior during training, with the acquired reward varying considerably across the training episodes. While comparing the actual performance of the NN trained with each algorithm in an attitude control task, the neural network trained with the TD3 algorithm presented the best response, which closely matched that of a Proportional-Derivative controller in a nominal scenario. Thereafter, a more critical scenario involving actuator failure was also evaluated, where we compared the performance of the intelligent controller trained with the TD3 algorithm with that of a baseline PD controller. Overall, in three out of four failure scenarios, the intelligent controller was able to respond better than the baseline PD in this challenging scenario. RESUMO: Este trabalho propõe a aplicação de técnicas de aprendizagem de máquina para o controle de atitude de satélites. Mais precisamente, aprendizagem por reforço profundo é utilizada para a obtenção de uma política ótima de controle. A política de controle é parametrizada por uma rede neural, o que possibilita a sua aplicação em espaços de estados de ordem elevada. Uma vez que o torque de controle é um sinal contínuo, se faz necessário o uso de algoritmos apropriados para espaços de ação contínuos. Dessa forma, três algoritmos são avaliados, sendo eles Deep Deterministic Policy Gradient (DDPG), Twin Delayed DDPG (TD3) e Soft Actor-Critic (SAC). Para que esse método funcione em problemas de controle de atitude, é necessário modificar o modelo da rede neural padrão usado nesses algoritmos. Particularmente, as unidades de viés das redes neurais utilizadas para representar políticas de controle foram removidas. Em relação ao procedimento de treinamento, o algoritmo SAC convergiu consideravelmente mais rápido do que os outros dois, e a sua curva de aprendizagem teve um comportamento mais estável. Além disso, o valor final da recompensa acumulada foi equivalente para os algoritmos SAC e TD3. O algoritmo DDPG, em contrapartida, apresentou um comportamento instável durante o treinamento. Quando comparamos o desempenho da rede neural treinada com cada algoritmo em uma tarefa de controle de atitude, a rede neural treinada pelo algoritmo TD3 apresentou a melhor resposta, a qual se aproximou da resposta do controlador PD de referência em um cenário nominal. Em seguida, um cenário mais crítico envolvendo falha em atuador foi avaliado, onde comparamos o desempenho do controlador inteligente treinado com o algoritmo TD3 com o desempenho de um controlador PD de referência. De forma geral, em três dos quatro cenários de falha analisados, o controlador inteligente respondeu melhor do que o PD de referência.
ÁreaETES
Arranjo 1urlib.net > CMC > Intelligent attitude control...
Arranjo 2urlib.net > BDMCI > Fonds > Produção a partir de 2021 > CGCE > Intelligent attitude control...
Conteúdo da Pasta docacessar
Conteúdo da Pasta source
originais/@4primeirasPaginas.pdf 19/04/2022 14:05 413.1 KiB 
originais/Defesa.pdf 10/02/2022 10:07 123.8 KiB 
originais/INPE_Masters_Thesis_Wilson_Marques_Atualizada_09-03.pdf 10/03/2022 09:52 3.7 MiB
originais/Intelligent attitude control of satellites via deep reinforcement learning.pdf 19/04/2022 12:00 410.4 KiB 
Conteúdo da Pasta agreement
autorizacao.pdf 19/04/2022 15:27 115.7 KiB 
4. Condições de acesso e uso
URL dos dadoshttp://mtc-m21d.sid.inpe.br/ibi/8JMKD3MGP3W34T/45U9NCS
URL dos dados zipadoshttp://mtc-m21d.sid.inpe.br/zip/8JMKD3MGP3W34T/45U9NCS
Idiomaen
Arquivo Alvopublicacao.pdf
Grupo de Usuáriospubtc@inpe.br
simone
wilson.marques@inpe.br
Visibilidadeshown
Licença de Direitos Autoraisurlib.net/www/2012/11.12.15.10
Permissão de Leituraallow from all
Permissão de Atualizaçãonão transferida
5. Fontes relacionadas
Repositório Espelhourlib.net/www/2021/06.04.03.40.25
Unidades Imediatamente Superiores8JMKD3MGPCW/3F2UALS
8JMKD3MGPCW/46KTFK8
Lista de Itens Citandosid.inpe.br/bibdigital/2013/10.14.00.13 4
Acervo Hospedeirourlib.net/www/2021/06.04.03.40
6. Notas
Campos Vaziosacademicdepartment archivingpolicy archivist callnumber copyholder creatorhistory descriptionlevel dissemination doi electronicmailaddress format isbn issn label lineage mark nextedition notes number parameterlist parentrepositories previousedition previouslowerunit progress readergroup resumeid rightsholder schedulinginformation secondarydate secondarymark session shorttitle sponsor subject tertiarymark tertiarytype url versiontype


Fechar