
Dans une récente apparition sur Possible, un podcast co-animé par le co-fondateur de LinkedIn, Reid Hoffman, le PDG de Google DeepMind, Demis Hassabis, a déclaré que le géant de la recherche prévoit éventuellement de combiner ses modèles d’IA Gemini avec ses modèles de génération de vidéos Veo pour améliorer la compréhension du monde physique.
« Nous avons toujours construit Gemini, notre modèle fondamental, pour être multimodal dès le départ », a déclaré Hassabis, « Et la raison pour laquelle nous avons fait cela [est parce que] nous avons une vision pour cette idée d’un assistant digital universel, un assistant qui vous aide vraiment dans le monde réel. »
L’industrie de l’IA progresse graduellement vers des modèles « omni », si on préfère – des modèles capables de comprendre et de synthétiser de nombreuses formes de médias. Les nouveaux modèles Gemini de Google peuvent générer de l’audio, des images et du texte, tandis que le modèle standard de OpenAI dans ChatGPT peut désormais créer des images – y compris des œuvres dans le style du Studio Ghibli. Amazon a également annoncé des plans pour lancer un modèle « tout-en-un » plus tard cette année.

Ces modèles omni nécessitent beaucoup de données d’entraînement – images, vidéos, audio, texte, etc. Hassabis a laissé entendre que les données vidéo pour Veo proviennent principalement de YouTube, une plateforme détenue par Google.
« Fondamentalement, en regardant des vidéos YouTube – beaucoup de vidéos YouTube – [Veo 2] peut découvrir, vous savez, la physique du monde », a déclaré Hassabis.
Google avait précédemment déclaré à TechCrunch que ses modèles « peuvent être » entraînés sur « une certaine » quantité de contenu de YouTube conformément à son accord avec les créateurs de contenu de YouTube. Selon les rapports, l’entreprise a élargi ses conditions de service l’année dernière en partie pour accéder à plus de données afin d’entraîner ses modèles d’IA.