banner
Lar / Notícias / Controle magnético de plasmas tokamak através de aprendizado de reforço profundo
Notícias

Controle magnético de plasmas tokamak através de aprendizado de reforço profundo

Dec 21, 2023Dec 21, 2023

Nature volume 602, páginas 414–419 (2022) Cite este artigo

182k Acessos

131 Citações

2389 Altmétrico

Detalhes das métricas

A fusão nuclear usando confinamento magnético, em particular na configuração tokamak, é um caminho promissor para a energia sustentável. Um desafio central é moldar e manter um plasma de alta temperatura dentro do vaso tokamak. Isso requer controle de malha fechada de alta dimensão e alta frequência usando bobinas de atuador magnético, complicado ainda mais pelos diversos requisitos em uma ampla gama de configurações de plasma. Neste trabalho, apresentamos uma arquitetura não descrita anteriormente para o projeto de controlador magnético tokamak que aprende autonomamente a comandar o conjunto completo de bobinas de controle. Essa arquitetura atende aos objetivos de controle especificados em alto nível, ao mesmo tempo em que satisfaz as restrições físicas e operacionais. Essa abordagem tem flexibilidade e generalidade sem precedentes na especificação do problema e produz uma redução notável no esforço de projeto para produzir novas configurações de plasma. Produzimos e controlamos com sucesso um conjunto diversificado de configurações de plasma no Tokamak à Variável de configuração1,2, incluindo formas convencionais alongadas, bem como configurações avançadas, como triangularidade negativa e configurações de 'floco de neve'. Nossa abordagem alcança rastreamento preciso da localização, corrente e forma para essas configurações. Também demonstramos 'gotículas' sustentadas no TCV, nas quais dois plasmas separados são mantidos simultaneamente dentro do vaso. Isso representa um avanço notável para o controle de feedback tokamak, mostrando o potencial do aprendizado por reforço para acelerar a pesquisa no domínio da fusão e é um dos sistemas do mundo real mais desafiadores aos quais o aprendizado por reforço foi aplicado.

Tokamaks são dispositivos em forma de toro para pesquisa de fusão nuclear e são um dos principais candidatos para a geração de energia elétrica sustentável. Uma direção principal da pesquisa é estudar os efeitos de moldar a distribuição do plasma em diferentes configurações3,4,5 para otimizar a estabilidade, confinamento e exaustão de energia e, em particular, informar o primeiro experimento de queima de plasma, ITER. O confinamento de cada configuração dentro do tokamak requer o projeto de um controlador de feedback que pode manipular o campo magnético6 por meio do controle preciso de várias bobinas que são acopladas magneticamente ao plasma para atingir a corrente, a posição e a forma desejadas do plasma, um problema conhecido como problema de controle magnético do tokamak .

A abordagem convencional para este problema de controle multivariado, não linear e variável no tempo é primeiro resolver um problema inverso para pré-computar um conjunto de correntes e tensões da bobina feedforward7,8. Em seguida, um conjunto de controladores PID independentes de entrada única e saída única é projetado para estabilizar a posição vertical do plasma e controlar a posição radial e a corrente do plasma, todos os quais devem ser projetados para não interferir mutuamente6. A maioria das arquiteturas de controle é ainda aumentada por um loop de controle externo para a forma do plasma, que envolve a implementação de uma estimativa em tempo real do equilíbrio do plasma9,10 para modular as correntes da bobina feedforward8. Os controladores são projetados com base na dinâmica do modelo linearizado e o escalonamento de ganho é necessário para rastrear alvos de controle variáveis ​​no tempo. Embora esses controladores sejam geralmente eficazes, eles exigem um esforço substancial de engenharia, esforço de projeto e experiência sempre que a configuração do plasma alvo é alterada, juntamente com cálculos complexos em tempo real para estimativa de equilíbrio.

Uma abordagem radicalmente nova para o projeto do controlador é possível usando o aprendizado por reforço (RL) para gerar controladores de realimentação não lineares. A abordagem RL, já utilizada com sucesso em diversas aplicações desafiadoras em outros domínios11,12,13, permite a definição intuitiva de objetivos de desempenho, mudando o foco para o que deve ser alcançado, ao invés de como. Além disso, RL simplifica muito o sistema de controle. Um único controlador computacionalmente barato substitui a arquitetura de controle aninhada, e uma reconstrução de estado internalizado remove a necessidade de reconstrução de equilíbrio independente. Esses benefícios combinados reduzem o ciclo de desenvolvimento do controlador e aceleram o estudo de configurações alternativas de plasma. De fato, a inteligência artificial foi recentemente identificada como uma 'Oportunidade de pesquisa prioritária' para controle de fusão14, com base em sucessos demonstrados na reconstrução de parâmetros de forma de plasma15,16, acelerando simulações usando modelos substitutos17,18 e detectando interrupções iminentes de plasma19. RL não foi, no entanto, usado para projeto de controlador magnético, que é desafiador devido a medições e atuação de alta dimensão, horizontes de tempo longos, taxas de crescimento de instabilidade rápida e a necessidade de inferir a forma do plasma por meio de medições indiretas.