Imagen 2 : une IA texte-image révolutionnaire
Imagen est un modèle de diffusion texte-image développé par Google, qui présente un niveau de photoréalisme sans précédent et une compréhension profonde du langage. Ce modèle utilise la puissance des grands modèles de langage transformateurs pour comprendre le texte et les modèles de diffusion pour générer des images de haute qualité.
Imagen 2 améliore l’alignement image-texte
Notre principale découverte est que les grands modèles de langage génériques (comme T5), pré-entraînés sur des corpus de texte uniquement, sont étonnamment efficaces pour coder le texte pour la synthèse d’images. Cependant, en augmentant la taille du modèle de langage, nous avons constaté une amélioration de la fidélité de l’échantillon et de l’alignement image-texte.
L’IA de Google bat des records sur le jeu de données COCO
Imagen 2 obtient un nouveau score FID de 7,27 sur le jeu de données COCO, sans jamais s’entraîner sur COCO. Les évaluateurs humains ont également constaté que les échantillons d’Imagen étaient équivalents aux données COCO elles-mêmes en matière d’alignement image-texte. Nous avons également utilisé DrawBench, une référence complète et stimulante pour les modèles texte-image. Pour comparer Imagen 2 à d’autres méthodes récentes et les évaluateurs humains ont préféré l’IA de Google aux autres modèles dans les comparaisons côte à côte.
Essayez Imagen 2 avec Vertex AI
L’une des meilleures choses à propos d’Imagen est que cette intelligence artificielle est déjà accessible via la plateforme Vertex AI. Donc, vous pouvez rapidement générer des images, mais aussi utiliser son API sans difficulté et dans un cadre sécurisé.
Plus d’informations techniques sur Imagen 2 ici.
Visiter Imagen 2 by GoogleTexte écrit par un humain