Close

1. Identity statement
Reference TypeThesis or Dissertation (Thesis)
Sitemtc-m21d.sid.inpe.br (namespace prefix: upn:44QHRCS)
Holder Codeisadg {BR SPINPE} ibi 8JMKD3MGPCW/3DT298S
Identifier8JMKD3MGP3W34T/45U9NCS
Repositorysid.inpe.br/mtc-m21d/2021/12.09.23.37
Last Update2022:04.19.18.27.33 (UTC) administrator
Metadata Repositorysid.inpe.br/mtc-m21d/2021/12.09.23.37.30
Metadata Last Update2024:12.26.14.49.50 (UTC) administrator
Secondary KeyINPE-18533-TDI/3178
Citation KeyMarques:2022:InAtCo
TitleIntelligent attitude control of satellites via deep reinforcement learning
Alternate TitleControle de atitude inteligente de satélites via aprendizagem por reforço profundo
CourseCMC-ETES-DIPGR-INPE-MCTI-GOV-BR
Year2022
Date2021-12-14
Access Date2025, Dec. 08
Thesis TypeDissertação (Mestrado em Mecânica Espacial e Controle)
Secondary TypeTDI
Number of Pages124
Number of Files1
Size4271 KiB
2. Context
AuthorMarques, Wilson José de Sá
ORCID0000-0002-3294-4108
GroupCMC-ETES-DIPGR-INPE-MCTI-GOV-BR
AffiliationInstituto Nacional de Pesquisas Espaciais (INPE)
CommitteeRocco, Evandro Marconi (presidente)
Chagas, Ronan Arraes Jardim (orientador)
Maximo, Marcos Ricardo Omena de Albuquerque
e-Mail Addresswilson.marques@inpe.br, wilsonssmarques@gmail.com
UniversityInstituto Nacional de Pesquisas Espaciais (INPE)
CitySão José dos Campos
Host Collectionurlib.net/www/2021/06.04.03.40 upn:44QHRCS
History (UTC)2021-12-09 23:39:45 :: wilson.marques@inpe.br -> pubtc@inpe.br :: 2021
2021-12-10 13:00:17 :: pubtc@inpe.br -> wilson.marques@inpe.br :: 2021
2022-02-09 16:36:49 :: wilson.marques@inpe.br -> pubtc@inpe.br :: 2021
2022-02-09 18:19:26 :: pubtc@inpe.br -> wilson.marques@inpe.br :: 2021
2022-02-11 11:21:09 :: wilson.marques@inpe.br -> pubtc@inpe.br :: 2021
2022-02-14 11:35:21 :: pubtc@inpe.br -> wilson.marques@inpe.br :: 2021
2022-03-09 19:51:40 :: wilson.marques@inpe.br -> administrator :: 2021
2022-04-19 17:52:05 :: administrator -> pubtc@inpe.br :: 2021
2022-04-19 19:23:44 :: pubtc@inpe.br -> simone :: 2021
2022-04-19 19:28:10 :: simone :: 2021 -> 2022
2022-04-19 19:28:11 :: simone -> administrator :: 2022
2024-12-26 14:49:50 :: administrator -> :: 2022
3. Content and structure
Is the master or a copy?is the master
Content Stagecompleted
Transferable1
Content TypeExternal Contribution
Keywordsattitude control
satellite
artificial intelligence
deep reinforcement learning
optimal control
controle de atitude
satélite
inteligência artificial
aprendizagem por reforço profundo
controle ótimo
AbstractThis work proposes the application of machine learning techniques to the attitude control of satellites. More specifically, Deep Reinforcement Learning (DRL) is used to generate an optimal control policy. The policy is parameterized as a neural network, which allows for its application in higher dimension state spaces. Since the torque command used to modify the attitude of the satellite is a continuous signal, it is necessary to use algorithms suited for continuous action spaces. Accordingly, three DRL algorithms were evaluated, namely the Deep Deterministic Policy Gradient (DDPG), the Twin Delayed DDPG (TD3), and the Soft Actor-Critic (SAC). For this method to work in the attitude control setting, it was necessary to modify the default neural network model used within the referred algorithms. Particularly, the bias units of the neural networks representing the control policies have been removed. In regards to the training procedure, the three algorithms were successful in finding the parameters of Neural Networks (NN) capable of solving the attitude control problem. However, there were differences in performance. For instance, the SAC converged considerably faster than the other two, and its learning curve showed more consistent learning. Furthermore, the final average reward value was equivalent for SAC and TD3. DDPG, on the other hand, showed a more oscillatory behavior during training, with the acquired reward varying considerably across the training episodes. While comparing the actual performance of the NN trained with each algorithm in an attitude control task, the neural network trained with the TD3 algorithm presented the best response, which closely matched that of a Proportional-Derivative controller in a nominal scenario. Thereafter, a more critical scenario involving actuator failure was also evaluated, where we compared the performance of the intelligent controller trained with the TD3 algorithm with that of a baseline PD controller. Overall, in three out of four failure scenarios, the intelligent controller was able to respond better than the baseline PD in this challenging scenario. RESUMO: Este trabalho propõe a aplicação de técnicas de aprendizagem de máquina para o controle de atitude de satélites. Mais precisamente, aprendizagem por reforço profundo é utilizada para a obtenção de uma política ótima de controle. A política de controle é parametrizada por uma rede neural, o que possibilita a sua aplicação em espaços de estados de ordem elevada. Uma vez que o torque de controle é um sinal contínuo, se faz necessário o uso de algoritmos apropriados para espaços de ação contínuos. Dessa forma, três algoritmos são avaliados, sendo eles Deep Deterministic Policy Gradient (DDPG), Twin Delayed DDPG (TD3) e Soft Actor-Critic (SAC). Para que esse método funcione em problemas de controle de atitude, é necessário modificar o modelo da rede neural padrão usado nesses algoritmos. Particularmente, as unidades de viés das redes neurais utilizadas para representar políticas de controle foram removidas. Em relação ao procedimento de treinamento, o algoritmo SAC convergiu consideravelmente mais rápido do que os outros dois, e a sua curva de aprendizagem teve um comportamento mais estável. Além disso, o valor final da recompensa acumulada foi equivalente para os algoritmos SAC e TD3. O algoritmo DDPG, em contrapartida, apresentou um comportamento instável durante o treinamento. Quando comparamos o desempenho da rede neural treinada com cada algoritmo em uma tarefa de controle de atitude, a rede neural treinada pelo algoritmo TD3 apresentou a melhor resposta, a qual se aproximou da resposta do controlador PD de referência em um cenário nominal. Em seguida, um cenário mais crítico envolvendo falha em atuador foi avaliado, onde comparamos o desempenho do controlador inteligente treinado com o algoritmo TD3 com o desempenho de um controlador PD de referência. De forma geral, em três dos quatro cenários de falha analisados, o controlador inteligente respondeu melhor do que o PD de referência.
AreaETES
Arrangement 1urlib.net > BDMCI > Fonds > Teses e Dissertações... > Intelligent attitude control...
Arrangement 2urlib.net > BDMCI > Fonds > Produção pgr ATUAIS > CMC > Teses e Dissertações... > Intelligent attitude control...
Arrangement 3urlib.net > BDMCI > Fonds > Produção a partir de 2021 > CGCE > Teses e Dissertações... > Intelligent attitude control...
Arrangement 4urlib.net > BDMCI > Fonds > Produção pgr ATUAIS > CMC > Intelligent attitude control...
Arrangement 5urlib.net > Fonds > Produção a partir de 2021 > CGCE > Intelligent attitude control...
doc Directory Contentaccess
source Directory Contentaccess
agreement Directory Content
autorizacao.pdf 19/04/2022 15:27 115.7 KiB 
4. Conditions of access and use
data URIupn:44QHRCS:8JMKD3MGP3W34T/45U9NCS
data URLhttp://urlib.net/ibi/8JMKD3MGP3W34T/45U9NCS
zipped data URLhttp://urlib.net/zip/8JMKD3MGP3W34T/45U9NCS
Languageen
Target Filepublicacao.pdf
User Grouppubtc@inpe.br
simone
wilson.marques@inpe.br
Visibilityshown
Copyright Licenseurlib.net/www/2012/11.12.15.10
Read Permissionallow from all
Update Permissionnot transferred
5. Allied materials
Mirror Repositoryurlib.net/www/2021/06.04.03.40.25
Next Higher Units8JMKD2USNNW34T/4CL6N3H
8JMKD3MGPCW/3F2UALS
8JMKD3MGPCW/46KTFK8
Citing Item Listsid.inpe.br/mtc-m21d/2024/12.26.14.49 - 93
sid.inpe.br/bibdigital/2013/10.14.00.13 - 28
sid.inpe.br/bibdigital/2022/04.03.17.52 - 25
6. Notes
Empty Fieldsacademicdepartment archivingpolicy archivist callnumber copyholder creatorhistory descriptionlevel dissemination doi electronicmailaddress format isbn issn label lineage mark nextedition notes number parameterlist parentrepositories previousedition previouslowerunit progress readergroup resumeid rightsholder schedulinginformation secondarydate secondarymark session shorttitle sponsor subject tertiarymark tertiarytype url versiontype


Close