AES0625

Settembre 2025 Automazione e Strumentazione Tecnica 94 CONTROLLO pleto). In altre parole, l’agente non impara una singola strategia , ma un insieme di strategie e un meccanismo per scegliere quella più adatta in funzione delle condizioni osservate. Vantaggi del Meta-RL: • Generalizzazione : l’agente si adatta a nuovi e- difici senza riaddestramento. • Efficienza : bastano pochi giorni di dati per ot- tenere buone prestazioni. • Flessibilità : gestisce incertezze sui parametri fisici e dinamiche variabili. Tra gli svantaggi: • Maggiore complessità progettuale . • Necessità di un ambiente di simulazione reali- stico e variegato per l’addestramento. La tecnica RMA: ispirazione dalla robotica Il cuore dell‘approccio è costituito dalla tecnica RMA (Rapid Motor Adaptation), inizialmente sviluppata per permettere a robot quadrupedi di camminare su superfici sconosciute [3]. L’idea è separare il processo in due fasi: • Codifica delle dinamiche : un primo modulo (Encoder) sintetizza le caratteristiche dinami- che dell’ambiente (per esempio edificio) in una variabile latente. • Controllo : un secondo modulo (Controller) usa tale variabile per applicare la strategia di con- trollo più adeguata. Nel lavoro qui presentato, l’Encoder è un agen- te RL che opera solo in fase di training, usando in simulazione i parametri termici dell’edificio e generando una variabile di uscita che incapsula la dinamica dell’edificio (detta variabile latente). Durante l’utilizzo reale, viene sostituito da un mo- dulo di Adattamento, basato su una rete neurale LSTM (Long-Short Term Memory), che stima la variabile latente osservando i dati raccolti nei pri- mi due / tre giorni di funzionamento. A valle di questo breve periodo, la variabile latente stimata viene inviata al controllore RL, che quindi è in grado di adattarsi alla dinamica stimata. Esperimenti e risultati L’algoritmo è stato sviluppato e testato in più ver- sioni, via via più complesse, assumendo un nume- ro di variabili incerte crescente, da 2 a 4: • Versione 1: due parametri incerti (trasmittanza e capacità dei fan coil). • Versione 2: aggiunta della capacità termica dell’aria. • Versione 3: aggiunta della massa d’acqua nel si- stema. Ogni versione è stata validata su: • Un modello realistico dell’edificio 25 del Poli- tecnico di Milano [4]. • Due casi estremi simulati (il più facile e il più difficile da riscaldare). I risultati hanno mostrato che: • Il sistema raggiunge prestazioni comparabili a un Model Predictive Controller con conoscen- za completa del sistema. • È in grado di adattarsi efficacemente a edifici diversi, con tracking della temperatura stabile e consumo energetico coerente. • Il modulo di adattamento riesce a stimare cor- rettamente la dinamica del sistema già dal ter- zo giorno. Conclusione Il lavoro svolto dimostra come le tecniche di Me- ta-Reinforcement Learning possano rivoluziona- re il modo in cui gestiamo l’energia e il comfort negli edifici. Un controllore adattativo, ispirato al mondo della robotica ma applicato a quello dell’e- dilizia, può garantire: • prestazioni elevate anche in presenza di incer- tezza, • semplicità di installazione su edifici diversi, • una scalabilità mai vista nei controlli tradizionali. In un mondo dove l’efficienza energetica e la de- carbonizzazione degli edifici sono obiettivi strate- gici, strumenti come questo rappresentano una di- rezione concreta per l’implementazione di sistemi HVAC intelligenti, sostenibili e autonomi . I futuri sviluppi potrebbero puntare a combinare questi algoritmi con controllori più classici, per e- sempio usando il Meta-RL per ottimizzare i para- metri di un MPC. Bibliografia [1] Sutton, R. S., McAllester, D., Singh, S., and Mansour, Y. (2000). Policy Gradient Methods for Reinforcement Learning with Function Approximation. Advances in Neural Information Processing Systems (NIPS), 12, 1057-1063. [2] Beck, J., Vuorio, R., Liu, E. Z., Xiong, Z., Zintgraf, L., Finn, C., and Whiteson, S. (2023). A survey of meta-reinforcement learning. arXiv preprint arXiv:2301.08028. [3] A. Kumar, Z. Fu, D. Pathak and J. Malik, ”RMA: Rapid Motor Adaptation for Legged Robots”, CoRR, vol. abs/2107.04034, 2021 [4] Rastegarpour, S., Ferrarini, L. (2021), “Hierarchical Nonlinear MPC for Large Buildings HVAC Optimization”, IEEE 17th International Conf. on Automation Science and Engineering, pp. 2175-2180.