1. Identificação | |
Tipo de Referência | Tese ou Dissertação (Thesis) |
Site | mtc-m21d.sid.inpe.br |
Código do Detentor | isadg {BR SPINPE} ibi 8JMKD3MGPCW/3DT298S |
Identificador | 8JMKD3MGP3W34T/45U9NCS |
Repositório | sid.inpe.br/mtc-m21d/2021/12.09.23.37 |
Última Atualização | 2022:04.19.18.27.33 (UTC) administrator |
Repositório de Metadados | sid.inpe.br/mtc-m21d/2021/12.09.23.37.30 |
Última Atualização dos Metadados | 2022:08.06.21.39.49 (UTC) administrator |
Chave Secundária | INPE-18533-TDI/3178 |
Chave de Citação | Marques:2022:InAtCo |
Título | Intelligent attitude control of satellites via deep reinforcement learning ![](http://mtc-m21d.sid.inpe.br/col/dpi.inpe.br/banon/2000/01.23.20.24/doc/externalLink.gif) |
Título Alternativo | Controle de atitude inteligente de satélites via aprendizagem por reforço profundo |
Curso | CMC-ETES-DIPGR-INPE-MCTI-GOV-BR |
Ano | 2022 |
Data | 2021-12-14 |
Data de Acesso | 28 jun. 2024 |
Tipo da Tese | Dissertação (Mestrado em Mecânica Espacial e Controle) |
Tipo Secundário | TDI |
Número de Páginas | 124 |
Número de Arquivos | 1 |
Tamanho | 4271 KiB |
|
2. Contextualização | |
Autor | Marques, Wilson José de Sá |
ORCID | 0000-0002-3294-4108 |
Grupo | CMC-ETES-DIPGR-INPE-MCTI-GOV-BR |
Afiliação | Instituto Nacional de Pesquisas Espaciais (INPE) |
Banca | Rocco, Evandro Marconi (presidente) Chagas, Ronan Arraes Jardim (orientador) Maximo, Marcos Ricardo Omena de Albuquerque |
Endereço de e-Mail | wilson.marques@inpe.br, wilsonssmarques@gmail.com |
Universidade | Instituto Nacional de Pesquisas Espaciais (INPE) |
Cidade | São José dos Campos |
Histórico (UTC) | 2021-12-09 23:39:45 :: wilson.marques@inpe.br -> pubtc@inpe.br :: 2021 2021-12-10 13:00:17 :: pubtc@inpe.br -> wilson.marques@inpe.br :: 2021 2022-02-09 16:36:49 :: wilson.marques@inpe.br -> pubtc@inpe.br :: 2021 2022-02-09 18:19:26 :: pubtc@inpe.br -> wilson.marques@inpe.br :: 2021 2022-02-11 11:21:09 :: wilson.marques@inpe.br -> pubtc@inpe.br :: 2021 2022-02-14 11:35:21 :: pubtc@inpe.br -> wilson.marques@inpe.br :: 2021 2022-03-09 19:51:40 :: wilson.marques@inpe.br -> administrator :: 2021 2022-04-19 17:52:05 :: administrator -> pubtc@inpe.br :: 2021 2022-04-19 19:23:44 :: pubtc@inpe.br -> simone :: 2021 2022-04-19 19:28:10 :: simone :: 2021 -> 2022 2022-04-19 19:28:11 :: simone -> administrator :: 2022 2022-08-06 21:39:49 :: administrator -> :: 2022 |
|
3. Conteúdo e estrutura | |
É a matriz ou uma cópia? | é a matriz |
Estágio do Conteúdo | concluido |
Transferível | 1 |
Tipo do Conteúdo | External Contribution |
Palavras-Chave | attitude control satellite artificial intelligence deep reinforcement learning optimal control controle de atitude satélite inteligência artificial aprendizagem por reforço profundo controle ótimo |
Resumo | This work proposes the application of machine learning techniques to the attitude control of satellites. More specifically, Deep Reinforcement Learning (DRL) is used to generate an optimal control policy. The policy is parameterized as a neural network, which allows for its application in higher dimension state spaces. Since the torque command used to modify the attitude of the satellite is a continuous signal, it is necessary to use algorithms suited for continuous action spaces. Accordingly, three DRL algorithms were evaluated, namely the Deep Deterministic Policy Gradient (DDPG), the Twin Delayed DDPG (TD3), and the Soft Actor-Critic (SAC). For this method to work in the attitude control setting, it was necessary to modify the default neural network model used within the referred algorithms. Particularly, the bias units of the neural networks representing the control policies have been removed. In regards to the training procedure, the three algorithms were successful in finding the parameters of Neural Networks (NN) capable of solving the attitude control problem. However, there were differences in performance. For instance, the SAC converged considerably faster than the other two, and its learning curve showed more consistent learning. Furthermore, the final average reward value was equivalent for SAC and TD3. DDPG, on the other hand, showed a more oscillatory behavior during training, with the acquired reward varying considerably across the training episodes. While comparing the actual performance of the NN trained with each algorithm in an attitude control task, the neural network trained with the TD3 algorithm presented the best response, which closely matched that of a Proportional-Derivative controller in a nominal scenario. Thereafter, a more critical scenario involving actuator failure was also evaluated, where we compared the performance of the intelligent controller trained with the TD3 algorithm with that of a baseline PD controller. Overall, in three out of four failure scenarios, the intelligent controller was able to respond better than the baseline PD in this challenging scenario. RESUMO: Este trabalho propõe a aplicação de técnicas de aprendizagem de máquina para o controle de atitude de satélites. Mais precisamente, aprendizagem por reforço profundo é utilizada para a obtenção de uma política ótima de controle. A política de controle é parametrizada por uma rede neural, o que possibilita a sua aplicação em espaços de estados de ordem elevada. Uma vez que o torque de controle é um sinal contínuo, se faz necessário o uso de algoritmos apropriados para espaços de ação contínuos. Dessa forma, três algoritmos são avaliados, sendo eles Deep Deterministic Policy Gradient (DDPG), Twin Delayed DDPG (TD3) e Soft Actor-Critic (SAC). Para que esse método funcione em problemas de controle de atitude, é necessário modificar o modelo da rede neural padrão usado nesses algoritmos. Particularmente, as unidades de viés das redes neurais utilizadas para representar políticas de controle foram removidas. Em relação ao procedimento de treinamento, o algoritmo SAC convergiu consideravelmente mais rápido do que os outros dois, e a sua curva de aprendizagem teve um comportamento mais estável. Além disso, o valor final da recompensa acumulada foi equivalente para os algoritmos SAC e TD3. O algoritmo DDPG, em contrapartida, apresentou um comportamento instável durante o treinamento. Quando comparamos o desempenho da rede neural treinada com cada algoritmo em uma tarefa de controle de atitude, a rede neural treinada pelo algoritmo TD3 apresentou a melhor resposta, a qual se aproximou da resposta do controlador PD de referência em um cenário nominal. Em seguida, um cenário mais crítico envolvendo falha em atuador foi avaliado, onde comparamos o desempenho do controlador inteligente treinado com o algoritmo TD3 com o desempenho de um controlador PD de referência. De forma geral, em três dos quatro cenários de falha analisados, o controlador inteligente respondeu melhor do que o PD de referência. |
Área | ETES |
Arranjo 1 | urlib.net > CMC > Intelligent attitude control... |
Arranjo 2 | urlib.net > BDMCI > Fonds > Produção a partir de 2021 > CGCE > Intelligent attitude control... |
Conteúdo da Pasta doc | acessar |
Conteúdo da Pasta source | originais/@4primeirasPaginas.pdf | 19/04/2022 14:05 | 413.1 KiB | originais/Defesa.pdf | 10/02/2022 10:07 | 123.8 KiB | originais/INPE_Masters_Thesis_Wilson_Marques_Atualizada_09-03.pdf | 10/03/2022 09:52 | 3.7 MiB | originais/Intelligent attitude control of satellites via deep reinforcement learning.pdf | 19/04/2022 12:00 | 410.4 KiB | |
Conteúdo da Pasta agreement | |
|
4. Condições de acesso e uso | |
URL dos dados | http://mtc-m21d.sid.inpe.br/ibi/8JMKD3MGP3W34T/45U9NCS |
URL dos dados zipados | http://mtc-m21d.sid.inpe.br/zip/8JMKD3MGP3W34T/45U9NCS |
Idioma | en |
Arquivo Alvo | publicacao.pdf |
Grupo de Usuários | pubtc@inpe.br simone wilson.marques@inpe.br |
Visibilidade | shown |
Licença de Direitos Autorais | urlib.net/www/2012/11.12.15.10 |
Permissão de Leitura | allow from all |
Permissão de Atualização | não transferida |
|
5. Fontes relacionadas | |
Repositório Espelho | urlib.net/www/2021/06.04.03.40.25 |
Unidades Imediatamente Superiores | 8JMKD3MGPCW/3F2UALS 8JMKD3MGPCW/46KTFK8 |
Lista de Itens Citando | sid.inpe.br/bibdigital/2013/10.14.00.13 4 |
Acervo Hospedeiro | urlib.net/www/2021/06.04.03.40 |
|
6. Notas | |
Campos Vazios | academicdepartment archivingpolicy archivist callnumber copyholder creatorhistory descriptionlevel dissemination doi electronicmailaddress format isbn issn label lineage mark nextedition notes number parameterlist parentrepositories previousedition previouslowerunit progress readergroup resumeid rightsholder schedulinginformation secondarydate secondarymark session shorttitle sponsor subject tertiarymark tertiarytype url versiontype |
|