Introducing Nested Learning: A new ML paradigm for continual learning

Hier is de herschreven en opmaakvrije tekst, geschikt voor een WordPress post:

—

**Introducing Nested Learning: A new ML paradigm for continual learning**
*November 7, 2025*
*Ali Behrouz, Student Researcher, and Vahab Mirrokni, VP and Google Fellow, Google Research*

—

We introduceren Nested Learning, een nieuwe benadering van machine learning waarbij modellen worden gezien als een verzameling kleinere, geneste optimalisatieproblemen, elk met een eigen interne workflow. Dit moet het probleem van “catastrophic forgetting” verminderen of zelfs helemaal vermijden, waarbij het leren van nieuwe taken ten koste gaat van het behouden van vaardigheid in oude taken.

—

### Inleiding

Het afgelopen decennium is er enorme vooruitgang geboekt in machine learning (ML), vooral gedreven door krachtige neurale netwerkarchitecturen en de algoritmen om deze te trainen. Ondanks het succes van grote taalmodellen (LLM’s) blijven er fundamentele uitdagingen bestaan, vooral rondom continual learning — het vermogen van een model om actief nieuwe kennis en vaardigheden te verwerven zonder oude te vergeten.

Het menselijk brein wordt gezien als de gouden standaard van continual learning, dankzij neuroplasticiteit — het opmerkelijke vermogen om zijn structuur aan te passen aan nieuwe ervaringen en kennis. Huidige LLM’s zijn echter vaak beperkt tot de context van hun invoervenster of de statische informatie die tijdens pre-training is geleerd.

Het simpelweg continu bijwerken van modelparameters met nieuwe data leidt vaak tot “catastrophic forgetting” (CF), waarbij leren van nieuwe taken ten koste gaat van bekwaamheid op oude taken. Traditioneel wordt CF bestreden met aanpassingen in architectuur of betere optimalisatieregels. Vaak worden architectuur (netwerkstructuur) en optimalisatiealgoritmes als aparte elementen gezien, wat een unified en efficiënt leersysteem in de weg staat.

In ons paper, “Nested Learning: The Illusion of Deep Learning Architectures”, gepresenteerd op NeurIPS 2025, introduceren we Nested Learning, een paradigma dat een ML-model niet als één continu proces ziet, maar als een systeem van meerdere, geneste leerproblemen die tegelijk geoptimaliseerd worden. Architectuur en optimalisatie worden zo als één systeem beschouwd, met verschillende “niveaus” van optimalisatie, elk met eigen contextflow en updatefrequentie. Deze structuur opent een nieuwe dimensie voor het ontwerpen van efficiëntere AI, en helpt problemen zoals CF op te lossen.

Als proof-of-concept hebben we een zelf-modificerende architectuur genaamd “Hope” ontworpen, die betere taalmodellering en langetermijncontext beheert dan bestaande state-of-the-art modellen.

—

### Het Nested Learning Paradigma

Nested Learning bekijkt een complex ML-model als een set van coherente, onderling verbonden optimalisatieproblemen die genest of parallel lopen. Elk intern probleem heeft zijn eigen context flow — een eigen informatiebron waaruit geleerd wordt.

Bestaande deep learning methodes comprimeren eigenlijk hun interne context flows. Nested Learning opent een nieuwe ontwerpdimensie, waarmee modellen gebouwd kunnen worden met diepere computationele diepte.

Een voorbeeld is associatief geheugen — het vermogen om op basis van één input iets anders te herinneren, zoals een naam onthouden bij een gezicht.
– Het trainingsproces zelf, bijvoorbeeld backpropagation, kan worden gemodelleerd als een associatief geheugen dat data koppelt aan de lokale fout of “verrassing”.
– Architecturale componenten zoals de aandachtmechanismen in transformers kunnen ook worden gezien als eenvoudige associatieve geheugenmodules die relatie tussen tokens leren.

Door voor elk component een updatefrequentie te definiëren (hoe vaak de gewichten worden aangepast), ontstaan er geordende “niveaus”. Deze ordening vormt de kern van het Nested Learning paradigma.

—

### Nested Learning in de Praktijk

Het paradigma biedt nieuwe, principiële manieren om bestaande algoritmes en architecturen te verbeteren:

#### Deep optimizers
Optimizers zoals momentum-gebaseerde methodes worden gezien als associatieve geheugenmodules. We vonden dat veel standaard optimizer updates gebaseerd zijn op dot-product gelijkheid zonder rekening te houden met relaties tussen data samples. Door het optimalisatiedoel te veranderen naar een standaard verliesfunctie zoals L2-regressieverlies, leiden we nieuwe formuleringen af die robuuster zijn bij imperfecte data.

#### Continuüm geheugensystemen
In standaard transformers fungeert het sequence model als kortetermijngeheugen, en de feedforward netwerken als langetermijngeheugen. Nested Learning breidt dit uit tot een continuüm geheugensysteem (CMS), waarin geheugenmodules bestaan op een spectrum van updatefrequenties, wat het geheugen voor continual learning rijker en effectiever maakt.

—

### Hope: Een Zelf-modificerende Architectuur met Continuüm Geheugen

Als proof-of-concept gebruiken we Nested Learning om Hope te ontwerpen, een variant van de Titans architectuur die lange-termijn geheugenmodules gebruikt gebaseerd op verrassingswaarde. Titans kent twee niveaus van parameter updates en voert daarmee eerste-orde in-context learning uit.
Hope is een zelf-modificerende recursieve architectuur met onbegrensde niveaus van in-context learning, uitgerust met CMS-blokken voor grotere contextvensters. Het kan zijn eigen geheugen optimaliseren via een zelf-referentieel proces en realiseert zo oneindige, loopende leerlagen.

—

### Experimenten

We voerden experimenten uit om de effectiviteit van onze deep optimizers en de prestaties van Hope op taalmodellering, langetermijnredenering, continual learning en kennisintegratie te evalueren. De volledige resultaten staan in ons [paper](http://abehrouz.github.io/files/NL.pdf).

—

### Resultaten

Onze experimenten bevestigen de kracht van Nested Learning, continuum geheugensystemen, en zelf-modificerende Titans.
Op diverse taalmodelleer- en algemene kennisredeneringstaken laat Hope lagere perplexity en hogere nauwkeurigheid zien dan moderne recurrente modellen en standaard transformers.

Hope toont ook superieur geheugenbeheer aan in lange-context Needle-In-Haystack (NIAH) downstream taken, wat bewijst dat CMS een efficiëntere aanpak biedt voor het verwerken van uitgebreide informatiereeksen.

—

### Conclusie

Het Nested Learning paradigma is een vooruitgang in ons begrip van deep learning. Door architectuur en optimalisatie als één coherent systeem van geneste optimalisatieproblemen te beschouwen, ontsluiten we een nieuwe ontwerpdimensie die meerdere niveaus stapelt. Modellen als Hope tonen dat een principiële integratie leidt tot expressievere, capabelere en efficiëntere leeralgoritmen.

Wij geloven dat Nested Learning een stevig fundament biedt om de kloof tussen het beperkte, vergeetachtige geheugen van huidige LLM’s en de indrukwekkende continue leervermogens van het menselijk brein te dichten. We nodigen de onderzoeksgemeenschap uit deze nieuwe dimensie te verkennen en mee te bouwen aan de volgende generatie zelfverbeterende AI.

—

### Acknowledgements

Deze research is uitgevoerd door Ali Behrouz, Meisam Razaviyayn, Peilin Zhong en Vahab Mirrokni. Dank aan Praneeth Kacham en Corinna Cortes voor hun feedback en waardevolle suggesties. Ook dank aan Yuan Deng, Zeman Li, Mark Simborg en Kimberly Schwede voor hun hulp bij het schrijven van deze blogpost.

—

### Quick links
– [Paper PDF](http://abehrouz.github.io/files/NL.pdf)

—

### Afbeeldingen (Optioneel toevoegen)

– Diagram van vergelijking biologische hersengolven & neuroplasticiteit vs uniforme structuur en multi-frequency updates in Nested Learning modellen.
– Prestaties van Hope vergeleken met Titans, Samba en Transformer op taalmodellering en common-sense redenering.
– Lange-context prestatietaken: Hope en Titans versus TTT en Mamba2.

—

**Labels:** Algorithms & Theory, Generative AI, Machine Intelligence

—

Dit is een volledig tekstuele versie die je eenvoudig kunt plaatsen in WordPress zonder extra opmaakcodes. afbeeldingen kun je als mediabestanden invoegen via WordPress en linken aan de genoemde beschrijvingen.

Leave a Reply Cancel reply