
DeepSeek, la société AI virale, a publié un nouvel ensemble de modèles AI multimodaux qui prétend pouvoir surpasser le DALL-E 3 d’OpenAI. Les modèles, disponibles en téléchargement sur la plateforme de développement AI Hugging Face, font partie d’une nouvelle famille de modèles que DeepSeek appelle Janus-Pro. Ils vont de 1 milliard à 7 milliards de paramètres. Les paramètres correspondent approximativement aux compétences de résolution de problèmes d’un modèle, et les modèles avec plus de paramètres ont généralement de meilleures performances que ceux avec moins de paramètres.
Janus-Pro est sous licence MIT, ce qui signifie qu’il peut être utilisé commercialement sans restriction.
Les sorties d’images des modèles Janus Pro de DeepSeek.Image crédits : DeepSeek

Janus-Pro, que DeepSeek décrit comme un « cadre autoregressif novateur », peut à la fois analyser et créer de nouvelles images. Selon la société, sur deux critères d’évaluation de l’IA, GenEval et DPG-Bench, le plus grand modèle Janus-Pro, Janus-Pro-7B, bat le DALL-E 3 ainsi que des modèles tels que PixArt-alpha, Emu3-Gen, et Stable Diffusion XL de Stability AI. Certes, certains de ces modèles sont un peu anciens, et la plupart des modèles Janus-Pro ne peuvent analyser que de petites images avec une résolution allant jusqu’à 384 x 384. Mais les performances de Janus-Pro sont impressionnantes, compte tenu de la compacité des modèles.
« Janus-Pro dépasse les modèles unifiés précédents et égale ou dépasse les performances de modèles spécifiques à des tâches », écrit DeepSeek dans un message sur Hugging Face. « La simplicité, la haute flexibilité, et l’efficacité de Janus-Pro en font un candidat solide pour les modèles multimodaux unifiés de prochaine génération. »
Les nouveaux modèles Janus Pro de DeepSeek comparés à la concurrence.Image crédits : DeepSeek
DeepSeek, un laboratoire d’IA chinois financé en grande partie par la firme de trading quantitative High-Flyer Capital Management, a fait son entrée dans la conscience collective cette semaine après que son application de chatbot ait atteint le sommet des classements de l’App Store d’Apple. Les modèles de langage de DeepSeek, qui ont été formés à l’aide de techniques de calcul efficaces, ont amené de nombreux analystes de Wall Street – et technologues – à se demander si les États-Unis peuvent maintenir leur avance dans la course à l’IA et si la demande pour les puces AI se maintiendra.