Real-time speech-to-speech translation

Hier is de herschreven en geformatteerde content, zonder HTML-opmaak, geschikt om te plaatsen op WordPress:

**Real-time speech-to-speech translation**

*19 november 2025*
*Karolis Misiunas, Research Engineer, Google DeepMind, en Artsiom Ablavatski, Software Engineer, Google Core ML*

We introduceren een innovatieve end-to-end speech-to-speech vertaalmodel (S2ST) die realtime vertaling mogelijk maakt in de stem van de originele spreker met slechts 2 seconden vertraging. Deze technologie brengt een langverwachte doorbraak dichterbij en maakt communicatie tussen verschillende talen natuurlijker.

### Inleiding

Realtime communicatie is essentieel in ons professionele en persoonlijke leven. Het communiceren met mensen in andere talen is uitdagend, vooral als er alleen gebruik wordt gemaakt van ondertitelingen die geen persoonlijkheid of realtime responsiviteit bieden die belangrijk zijn voor een vloeiend gesprek. De komst van speech-to-speech vertaling (S2ST) overbrugt deze kloof doordat vertaalde audio direct wordt gegenereerd, wat zorgt voor een natuurlijkere communicatie. Huidige S2ST systemen hebben meestal een vertraging van 4-5 seconden, verzamelen fouten en missen personalisatie.

We beschrijven een innovatief end-to-end S2ST model met slechts 2 seconden vertraging, dat realtime vertaling in de stem van de originele spreker mogelijk maakt. Dit is bereikt door een streaming framework en training op tijdgesynchroniseerde data. Ook introduceerden we een schaalbare data-acquisitie pipeline om het systeem uit te breiden naar meerdere talen. Deze technologie is succesvol ingezet in toepassingen die gevoelig zijn voor realtime communicatie.

### Cascaded S2ST

Eerdere realtime speech-to-speech systemen gebruikten een cascade van afzonderlijke stappen:

1. De bron audio wordt omgezet in tekst via automatische spraakherkenning (ASR).
2. De getranscribeerde tekst wordt door automatische vertaalmodellen (AST) omgezet naar de doeltaal.
3. De vertaalde tekst wordt weer omgezet in spraak via text-to-speech (TTS) systemen.

Ondanks de hoge kwaliteit van deze onderdelen is het moeilijk om een vloeiende, realtime ervaring te realiseren vanwege:

– Lange vertragingen van 4-5 seconden die gesprekken beurtelings maken.
– Fouten die zich opstapelen in elke stap.
– Gebrek aan personalisatie door algemene TTS technologie.

### Een nieuw end-to-end, gepersonaliseerd S2ST model

We ontwikkelden een schaalbare data-acquisitie pipeline en een end-to-end model dat realtime vertaling met 2 seconden vertraging mogelijk maakt:

– **Schaalbare data-acquisitie pipeline:** Verzamelt ruwe audio en zet dit om in een gesynchroniseerde dataset. Dit gebeurt met behulp van ASR en TTS technologieën, langs nauwkeurige uitlijningsstappen om de originele en vertaalde audio zo goed mogelijk te matchen. Moeilijke voorbeelden worden gefilterd.

– **Realtime S2ST architectuur:** Een streaming machine learning architectuur gebaseerd op het AudioLM framework en transformer blokken, die continu audiostreams verwerkt en bepaalt wanneer vertalingen worden geproduceerd. De hiërarchische representatie maakt gebruik van SpectroStream codec technologie.

**Video:** Een voorbeeld van persoonlijk S2ST toegepast op Spaans naar Engels. (Deze kunt u toevoegen via een videobestand op uw WordPress site.)

### Schaalbare data-acquisitie pipeline

Voor elke taalcombinatie beginnen we met het verzamelen van ruwe audio, inclusief TTS-gegenereerde data. Deze wordt opgeschoond zodat er één spreker met weinig achtergrondgeluid is. ASR transcription zorgt voor de brontekst, gevolgd door forced alignment voor tijdmapping. Moeilijke segmenten worden verworpen. Daarna wordt de transcriptie vertaald naar de doeltaal en gevalideerd. Vertaalde tekst wordt opnieuw getimed en met een aangepaste TTS engine omgezet in spraak, waarbij de stem van de originele spreker behouden blijft. Een laatste uitlijningsstap vergelijkt vertaalde tekst en gegenereerde spraak.

De gesynchroniseerde data wordt gebruikt als supervisie tijdens training, met verliesfuncties die rekening houden met deze alignment masks.

### Real-time speech-to-speech vertaalarchitectuur

Het model bestaat uit:

– **Streaming encoder:** Vat de bron audio samen op basis van de laatste 10 seconden.
– **Streaming decoder:** Genereert vertaald audio sequentieel op basis van de encoder output en vorige voorspellingen.

Audio wordt gerepresenteerd als sets van RVQ audio tokens die via een ML codec weer omgezet kunnen worden in geluid. 16 tokens per 100 ms segment zijn voldoende voor hoge kwaliteit audio.

Een extra teksttoken wordt ook uitgegeven, wat helpt bij evaluatie (zoals BLEU score) zonder aparte ASR nodig te hebben.

Tijdens training wordt een per-token verlies toegepast, en de vertraging (lookahead) kan worden aangepast. Voor realtime is 2 seconden een goede compromis tussen kwaliteit en snelheid.

### Optimalisaties en prestaties

Naast de 2 seconden interne vertraging draagt de inference tijd ook bij aan de latentie. Voor realtime snelheid zijn optimalisaties doorgevoerd, zoals hybride laag-bits kwantisatie (int8 en int4) en efficiënte precomputaties.

Voorbeelden van vertalingen tussen verschillende talen (Spaans, Engels, Duits, Italiaans, Portugees, Frans) met bijbehorende audiosamples en grondwaarheden worden getoond via audio players (deze kunt u toevoegen middels WordPress audio embeds).

### Toepassingen in de praktijk

De technologie is nu beschikbaar binnen:

– **Google Meet:** Realtime spraakvertaling op serverniveau.
– **Pixel 10 apparaten:** On-device vertaalfunctie die deels gebruikmaakt van cascades voor meer taalondersteuning.

Gebruikers worden vóór elke sessie geïnformeerd dat de vertaling synthetisch is gegenereerd, als misbruikpreventie.

### Toekomst en conclusie

Het huidige model levert robuuste prestaties voor vijf Latijnse taalparen en vertoont veelbelovende resultaten voor andere talen zoals Hindi. Verbeteringen zullen zich richten op meer dynamische vertragingen, zodat ook talen met sterk afwijkende grammatica vloeiend vertaald kunnen worden.

Deze technologie belooft realtime, meertalige communicatie fundamenteel te veranderen en een langverwachte doorbraak te zijn.

### Dankwoord

Wij danken alle betrokken collega’s voor hun onmisbare bijdrage, onder wie Kevin Kilgour, Pen Li, Félix de Chaumont Quitry, Michael Dooley, Jeremy Thorpe, Mihajlo Velimirović, Alex Tudor, Christian Frank, Daniel Johansson, Hanna Silén, Christian Schuldt, Henrik Lundin, Esbjörn Dominique, Marcus Wirebrand, Daniel Kallander, Pablo Barrera González, Huib Kleinhout, Niklas Blum, Fredric Lindstrom, Esha Uboweja, Karthik Raveendran, Frédéric Rechtenstein, Xing Li, Queenie Zhang, Cheng Yang, Jason Fan, Matsvei Zhdanovich, Jianing Wei, en Matthias Grundmann.

**Labels:** Algorithms & Theory

**Andere posts die interessant zijn:**

– **Reducing EV range anxiety: How a simple AI model predicts port availability** (21 november 2025)
– **A new quantum toolkit for optimization** (13 november 2025)
– **Differentially private machine learning at scale with JAX-Privacy** (12 november 2025)

*Indien gewenst kunnen afbeeldingen, video en audio via de mediabibliotheek van WordPress worden toegevoegd om de inhoud visueel en interactief te verrijken.*

Als je wilt, kan ik je ook helpen met het maken van specifieke WordPress shortcodes of blokken voor video- en audiomedia. Laat maar weten!

Cat

Category

VIDEO

Archives

CATEGORIES

Sometimes the simplest things are the hardest to find. So we created a new line for everyday life, All Year Round he simplest things are the hardest to find. So we created a new line for everyday life, All Year Round.

ABOUT ME