OpenAI met à la disposition d’un public plus large son API multimodale, des recherches récentes mettent en évidence des limitations et des imperfections persistantes au sein du système.
Lors de sa première conférence destinée aux développeurs, OpenAI a dévoilé des informations concernant GPT-4, son modèle phare d’IA pour la génération de texte, qui est désormais capable de comprendre le contexte des images en plus du texte. Cette version, nommée “GPT-4 avec vision,” peut légender et même interpréter des images relativement complexes, telles que l’identification d’un adaptateur Lightning Cable à partir d’une image d’un iPhone connecté.
Initialement, l’accès à GPT-4 avec vision était limité à certains utilisateurs, notamment ceux de Be My Eyes, une application d’aide aux personnes malvoyantes, les abonnés premium du chatbot d’OpenAI, ChatGPT, et les “red teamers” responsables de l’évaluation du modèle. OpenAI avait retardé la diffusion plus large de GPT-4 avec vision par crainte de possibles abus et violations de la vie privée.
Maintenant, OpenAI autorise la communauté des développeurs à intégrer GPT-4 avec vision dans leurs applications, produits et services. Cette version sera accessible via l’API GPT-4 Turbo dans les semaines à venir.
Cependant, des chercheurs ont identifié des lacunes dans les performances de GPT-4 avec vision, notamment des erreurs dans la description d’images et de documents académiques, des inexactitudes dans la reproduction de formules mathématiques, et des difficultés à extraire du texte à partir d’images. Bien que le modèle excelle dans la description de scènes complexes, il reste perfectible et peut parfois introduire des biais et des inexactitudes. Des améliorations sont encore nécessaires pour garantir sa fiabilité et sa précision.
Laisser un commentaire