Metadados

Fechar
Metadados

1. Identificação

Tipo de Referência Tese ou Dissertação (Thesis)

Site mtc-m21d.sid.inpe.br

Código do Detentor isadg {BR SPINPE} ibi 8JMKD3MGPCW/3DT298S

Identificador 8JMKD3MGP3W34T/45U9NCS

Repositório sid.inpe.br/mtc-m21d/2021/12.09.23.37

Última Atualização 2022:04.19.18.27.33 (UTC) administrator

Repositório de Metadados sid.inpe.br/mtc-m21d/2021/12.09.23.37.30

Última Atualização dos Metadados 2022:08.06.21.39.49 (UTC) administrator

Chave Secundária INPE-18533-TDI/3178

Chave de Citação Marques:2022:InAtCo

Título Intelligent attitude control of satellites via deep reinforcement learning

Título Alternativo Controle de atitude inteligente de satélites via aprendizagem por reforço profundo

Curso CMC-ETES-DIPGR-INPE-MCTI-GOV-BR

Ano 2022

Data 2021-12-14

Data de Acesso 28 jun. 2024

Tipo da Tese Dissertação (Mestrado em Mecânica Espacial e Controle)

Tipo Secundário TDI

Número de Páginas 124

Número de Arquivos 1

Tamanho 4271 KiB

2. Contextualização

Autor Marques, Wilson José de Sá

ORCID 0000-0002-3294-4108

Grupo CMC-ETES-DIPGR-INPE-MCTI-GOV-BR

Afiliação Instituto Nacional de Pesquisas Espaciais (INPE)

Banca Rocco, Evandro Marconi (presidente) Chagas, Ronan Arraes Jardim (orientador) Maximo, Marcos Ricardo Omena de Albuquerque

Endereço de e-Mail wilson.marques@inpe.br, wilsonssmarques@gmail.com

Universidade Instituto Nacional de Pesquisas Espaciais (INPE)

Cidade São José dos Campos

Histórico (UTC) 2021-12-09 23:39:45 :: wilson.marques@inpe.br -> pubtc@inpe.br :: 2021 2021-12-10 13:00:17 :: pubtc@inpe.br -> wilson.marques@inpe.br :: 2021 2022-02-09 16:36:49 :: wilson.marques@inpe.br -> pubtc@inpe.br :: 2021 2022-02-09 18:19:26 :: pubtc@inpe.br -> wilson.marques@inpe.br :: 2021 2022-02-11 11:21:09 :: wilson.marques@inpe.br -> pubtc@inpe.br :: 2021 2022-02-14 11:35:21 :: pubtc@inpe.br -> wilson.marques@inpe.br :: 2021 2022-03-09 19:51:40 :: wilson.marques@inpe.br -> administrator :: 2021 2022-04-19 17:52:05 :: administrator -> pubtc@inpe.br :: 2021 2022-04-19 19:23:44 :: pubtc@inpe.br -> simone :: 2021 2022-04-19 19:28:10 :: simone :: 2021 -> 2022 2022-04-19 19:28:11 :: simone -> administrator :: 2022 2022-08-06 21:39:49 :: administrator -> :: 2022

3. Conteúdo e estrutura

É a matriz ou uma cópia? é a matriz

Estágio do Conteúdo concluido

Transferível 1

Tipo do Conteúdo External Contribution

Palavras-Chave attitude control satellite artificial intelligence deep reinforcement learning optimal control controle de atitude satélite inteligência artificial aprendizagem por reforço profundo controle ótimo

Resumo This work proposes the application of machine learning techniques to the attitude control of satellites. More specifically, Deep Reinforcement Learning (DRL) is used to generate an optimal control policy. The policy is parameterized as a neural network, which allows for its application in higher dimension state spaces. Since the torque command used to modify the attitude of the satellite is a continuous signal, it is necessary to use algorithms suited for continuous action spaces. Accordingly, three DRL algorithms were evaluated, namely the Deep Deterministic Policy Gradient (DDPG), the Twin Delayed DDPG (TD3), and the Soft Actor-Critic (SAC). For this method to work in the attitude control setting, it was necessary to modify the default neural network model used within the referred algorithms. Particularly, the bias units of the neural networks representing the control policies have been removed. In regards to the training procedure, the three algorithms were successful in finding the parameters of Neural Networks (NN) capable of solving the attitude control problem. However, there were differences in performance. For instance, the SAC converged considerably faster than the other two, and its learning curve showed more consistent learning. Furthermore, the final average reward value was equivalent for SAC and TD3. DDPG, on the other hand, showed a more oscillatory behavior during training, with the acquired reward varying considerably across the training episodes. While comparing the actual performance of the NN trained with each algorithm in an attitude control task, the neural network trained with the TD3 algorithm presented the best response, which closely matched that of a Proportional-Derivative controller in a nominal scenario. Thereafter, a more critical scenario involving actuator failure was also evaluated, where we compared the performance of the intelligent controller trained with the TD3 algorithm with that of a baseline PD controller. Overall, in three out of four failure scenarios, the intelligent controller was able to respond better than the baseline PD in this challenging scenario. RESUMO: Este trabalho propõe a aplicação de técnicas de aprendizagem de máquina para o controle de atitude de satélites. Mais precisamente, aprendizagem por reforço profundo é utilizada para a obtenção de uma política ótima de controle. A política de controle é parametrizada por uma rede neural, o que possibilita a sua aplicação em espaços de estados de ordem elevada. Uma vez que o torque de controle é um sinal contínuo, se faz necessário o uso de algoritmos apropriados para espaços de ação contínuos. Dessa forma, três algoritmos são avaliados, sendo eles Deep Deterministic Policy Gradient (DDPG), Twin Delayed DDPG (TD3) e Soft Actor-Critic (SAC). Para que esse método funcione em problemas de controle de atitude, é necessário modificar o modelo da rede neural padrão usado nesses algoritmos. Particularmente, as unidades de viés das redes neurais utilizadas para representar políticas de controle foram removidas. Em relação ao procedimento de treinamento, o algoritmo SAC convergiu consideravelmente mais rápido do que os outros dois, e a sua curva de aprendizagem teve um comportamento mais estável. Além disso, o valor final da recompensa acumulada foi equivalente para os algoritmos SAC e TD3. O algoritmo DDPG, em contrapartida, apresentou um comportamento instável durante o treinamento. Quando comparamos o desempenho da rede neural treinada com cada algoritmo em uma tarefa de controle de atitude, a rede neural treinada pelo algoritmo TD3 apresentou a melhor resposta, a qual se aproximou da resposta do controlador PD de referência em um cenário nominal. Em seguida, um cenário mais crítico envolvendo falha em atuador foi avaliado, onde comparamos o desempenho do controlador inteligente treinado com o algoritmo TD3 com o desempenho de um controlador PD de referência. De forma geral, em três dos quatro cenários de falha analisados, o controlador inteligente respondeu melhor do que o PD de referência.

Área ETES

Arranjo 1 urlib.net > CMC > Intelligent attitude control...

Arranjo 2 urlib.net > BDMCI > Fonds > Produção a partir de 2021 > CGCE > Intelligent attitude control...

Conteúdo da Pasta doc acessar

Conteúdo da Pasta source

originais/@4primeirasPaginas.pdf 19/04/2022 14:05 413.1 KiB originais/Defesa.pdf 10/02/2022 10:07 123.8 KiB originais/INPE_Masters_Thesis_Wilson_Marques_Atualizada_09-03.pdf 10/03/2022 09:52 3.7 MiB originais/Intelligent attitude control of satellites via deep reinforcement learning.pdf 19/04/2022 12:00 410.4 KiB

Conteúdo da Pasta agreement

autorizacao.pdf 19/04/2022 15:27 115.7 KiB

4. Condições de acesso e uso

URL dos dados http://mtc-m21d.sid.inpe.br/ibi/8JMKD3MGP3W34T/45U9NCS

URL dos dados zipados http://mtc-m21d.sid.inpe.br/zip/8JMKD3MGP3W34T/45U9NCS

Idioma en

Arquivo Alvo publicacao.pdf

Grupo de Usuários pubtc@inpe.br simone wilson.marques@inpe.br

Visibilidade shown

Licença de Direitos Autorais urlib.net/www/2012/11.12.15.10

Permissão de Leitura allow from all

Permissão de Atualização não transferida

5. Fontes relacionadas

Repositório Espelho urlib.net/www/2021/06.04.03.40.25

Unidades Imediatamente Superiores 8JMKD3MGPCW/3F2UALS 8JMKD3MGPCW/46KTFK8

Lista de Itens Citando sid.inpe.br/bibdigital/2013/10.14.00.13 4

Acervo Hospedeiro urlib.net/www/2021/06.04.03.40

6. Notas

Campos Vazios academicdepartment archivingpolicy archivist callnumber copyholder creatorhistory descriptionlevel dissemination doi electronicmailaddress format isbn issn label lineage mark nextedition notes number parameterlist parentrepositories previousedition previouslowerunit progress readergroup resumeid rightsholder schedulinginformation secondarydate secondarymark session shorttitle sponsor subject tertiarymark tertiarytype url versiontype

Fechar