
Selon la société, NVLM 1.0 est conçu pour rivaliser avec les modèles d'OpenAI et de Meta. Nvidia a souligné : “Nous présentons NVLM 1.0, une famille de modèles de langage multimodal de grande taille (LLM) de pointe qui obtiennent des résultats à la pointe de la technologie dans des tâches de langage-visuel, rivalisant avec les modèles propriétaires leaders (par exemple, GPT-4) et les modèles open-source (par exemple, Llama 3-V 405B et InternVL 2)”.
Comment est le nouveau modèle d'IA de Nvidia
La nouvelle famille de modèles d'intelligence artificielle de Nvidia, appelée NVLM 1.0, a la capacité d'interpréter des images et de fournir des réponses précises. Un exemple fourni par la société montre comment le modèle répond à une photo de Jensen Huang, son PDG, lorsqu'un utilisateur demande qui est la personne sur l'image.

Le modèle est également capable d'interpréter des images de notes manuscrites. Dans une démonstration, une image d'un texte manuscrit contenant un ensemble de paramètres d'un code a été utilisée, accompagnée de l'instruction : “Écris du code basé sur le pseudocode fourni”.
De plus, il a été montré comment NVLM 1.0 pouvait comprendre des mèmes, comme celui montrant un tigre et un chat, puis l'expliquer à l'utilisateur.
La société explique le cas du mème de la manière suivante :
“Par exemple, notre modèle peut comprendre l'humour derrière le mème “abstrait vs. papier” dans l'exemple (a) en réalisant une reconnaissance optique de caractères (OCR) pour reconnaître les étiquettes de texte pour chaque image et en utilisant le raisonnement pour comprendre pourquoi juxtaposer “l'abstrait” (étiqueté avec un lynx à l'air féroce) et “le papier” (étiqueté avec un chat domestique) est drôle”.

“Le modèle NVLM-1.0-D 72B démontre une bonne capacité à suivre des instructions. Il peut également générer une description détaillée et de très haute qualité de l'image fournie”, précise la société.
Nvidia a souligné que son modèle NVLM 1.0 a été entraîné en utilisant des données sélectionnées avec le plus grand soin. Cela implique que les données utilisées pour son entraînement ont été choisies méticuleusement, afin de garantir qu'elles soient de haute qualité et pertinentes pour une variété de tâches.
De plus, des informations détaillées ont été fournies sur les ensembles de données multimodales (incluant du texte, des images et d'autres types d'informations) utilisés à la fois dans la phase de préentraînement et dans l'ajustement fin supervisé, où les compétences du modèle sont optimisées.
Les résultats de l'équipe de Nvidia indiquent qu'un ensemble de données varié et bien conçu est plus important que la quantité massive de données pour obtenir un modèle de haute qualité.

Selon Nvidia, la qualité et la diversité des données sont un facteur plus déterminant que la quantité (échelle) des données, peu importe le type d'architecture utilisée pour le modèle. Cela suggère que des modèles comme NVLM 1.0 peuvent atteindre une performance supérieure lorsqu'ils sont entraînés avec des données hautement sélectives et variées.
“Notre NVLM-D-1.0-72B démontre des capacités polyvalentes dans diverses tâches multimodales en utilisant conjointement OCR, raisonnement, localisation, bon sens, connaissance du monde et capacité de codage”, indiquent-ils.
Comment accéder à l'IA de Nvidia
Selon Nvidia, dirigée par Jensen Huang, la société prévoit de partager les poids du modèle et d'ouvrir le code de NVLM 1.0 pour la communauté, afin de promouvoir la recherche dans le domaine de l'intelligence artificielle.
Cependant, jusqu'à présent, le code de NVLM 1.0 n'a pas encore été libéré. Sur la page officielle du projet, Nvidia a indiqué que cette ouverture se produira prochainement.