Google onthult krachtigere versie van Gemini multimodale model met miljoenen tokens

Google heeft een krachtigere versie van zijn Gemini multimodale model onthuld, genaamd Gemini 1.5 Pro. Deze nieuwe versie van Gemini heeft een verbluffend contextvenster van één miljoen tokens. Volgens Google kan Gemini 1.5 tot één miljoen multimodale tokens verwerken, wat neerkomt op ongeveer 700.000 woorden, één uur video, 11 uur audio of 30.000 regels code. Ter vergelijking, het contextvenster van OpenAI’s GPT 4 Turbo is slechts 128.000.

Gemini 1.5 Pro is het eerste model dat beschikbaar is voor gebruikers. Ontwikkelaars en zakelijke klanten kunnen het uitproberen via AI Studio en Vertex AI in een privévoorbeeld. Google meldt dat Gemini 1.5 Pro net zo krachtig is als het meest krachtige model in de Gemini-familie, namelijk Gemini 1.0 Ultra.

Het gebruik van de één miljoen tokens contextvenster is gratis, maar gebruikers moeten rekening houden met langere latentietijden, omdat het nog steeds een experimentele functie is. Volgens Google CEO Sundar Pichai zal het krachtigere contextvenster van Gemini 1.5 “volledig nieuwe mogelijkheden mogelijk maken en ontwikkelaars helpen om veel nuttigere modellen en toepassingen te bouwen”.

Google heeft de mogelijkheden van Gemini 1.5 Pro gedemonstreerd door informatie te halen uit een 402 pagina’s tellende PDF-transcriptie van de maanlanding van Apollo 11, evenals uit een reeks multimodale prompts. Het model kon nauwkeurige tijdcodes citeren wanneer citaten werden gezegd en relevante citaten selecteren op basis van een prompt van een ruwe tekening.

Gemini 1.5 Pro werd onthuld op de dag nadat Nvidia Google voorbijstreefde als het op twee na meest waardevolle bedrijf in de Verenigde Staten, na Microsoft en Apple. Hoewel Google aandelen 3,3% daalden naar $143,88, is de nieuwe Gemini-versie mogelijk een belangrijke stap voorwaarts in de AI-race.

Het nieuwe model maakt gebruik van een combinatie van Transformer- en Mixture of Experts (MoE) -architectuur, wat betekent dat het bestaat uit een groot neuraal netwerk en een reeks kleinere “expert” neurale netwerken. Deze innovatieve architectuur stelt Gemini 1.5 in staat om complexe taken sneller te leren en de trainingskwaliteit te behouden, terwijl het efficiënter is in training.

Volgens experts is de nieuwe architectuur een voorbode van wat er gaat komen op het gebied van AI-training en inferentie. Het laat zien dat Google blijft innoveren en concurrentie aangaat met bedrijven als OpenAI. De prestaties van Gemini 1.5 moeten echter nog verder worden getest en geëvalueerd.

Met de onthulling van Gemini 1.5 bewijst Google opnieuw dat het een belangrijke speler is in de ontwikkeling van krachtige AI-modellen. De toekomst belooft zeker interessant te worden op het gebied van AI-training en toepassingen.

Veelgestelde vragen over Gemini 1.5 Pro

1. Wat is Gemini 1.5 Pro?
Gemini 1.5 Pro is een krachtige versie van het multimodale model van Google, genaamd Gemini. Het heeft een contextvenster van één miljoen tokens, waardoor het grote hoeveelheden tekst, video, audio of code kan verwerken.

2. Wat is het verschil tussen Gemini 1.5 Pro en eerdere versies van Gemini?
Gemini 1.5 Pro is de eerste versie van Gemini die beschikbaar is voor gebruikers. Het heeft een contextvenster van één miljoen tokens, wat aanzienlijk meer is dan eerdere versies. Het biedt ook een combinatie van Transformer- en Mixture of Experts (MoE) -architectuur, wat efficiënte training en snellere leerresultaten mogelijk maakt.

3. Hoe kan ik Gemini 1.5 Pro uitproberen?
Ontwikkelaars en zakelijke klanten kunnen Gemini 1.5 Pro uitproberen via AI Studio en Vertex AI in een privévoorbeeld.

4. Wat zijn de mogelijkheden van het één miljoen tokens contextvenster?
Het één miljoen tokens contextvenster stelt Gemini 1.5 Pro in staat om grote hoeveelheden tekst, video, audio of code te verwerken. Dit opent nieuwe mogelijkheden voor de ontwikkeling van modellen en toepassingen.

5. Is het gebruik van het één miljoen tokens contextvenster gratis?
Ja, het gebruik van het één miljoen tokens contextvenster is gratis. Houd er echter rekening mee dat langere latentietijden mogelijk zijn, omdat het een experimentele functie is.

6. Hoe presteerde Gemini 1.5 Pro in de demonstraties?
Gemini 1.5 Pro kon nauwkeurige tijdcodes citeren en relevante citaten selecteren op basis van multimodale prompts, zoals een ruwe tekening. Het bleek effectief te zijn in het extraheren van informatie uit een 402 pagina’s tellende PDF-transcriptie van de maanlanding van Apollo 11.

Belangrijke termen en jargon

– Gemini: Een multimodaal model ontwikkeld door Google.
– Multimodaal: Het vermogen om informatie uit verschillende bronnen, zoals tekst, beeld en geluid, te begrijpen en te verwerken.
– Contextvenster: Het bereik van woorden, tokens of informatie waar een model naar kijkt om een tekstuele voorspelling te doen.
– Token: Een enkele eenheid van tekst, zoals een woord of een karakter.
– GPT 4 Turbo: Een krachtig model ontwikkeld door OpenAI dat een contextvenster van 128.000 tokens heeft.
– AI Studio: Een platform van Google voor het ontwikkelen van AI-modellen en toepassingen.
– Vertex AI: Een platform van Google voor het beheren en implementeren van AI-modellen.

Gerelateerde links

Google AI
Nvidia
Microsoft
Apple