Google presenta Imagen, un generador de imágenes con fotorrealismo: Google ha sido fundamental en el desarrollo de la inteligencia artificial, habiendo hecho importantes contribuciones en este campo. Esto no es una coincidencia, ya que los algoritmos impulsados por IA ya se utilizan en sus aplicaciones. Las tecnologías de software propias de la empresa son la base de muchas funciones de Android, como los resultados del motor de búsqueda, la navegación en Maps y muchas otras. Uno de los mejores ejemplos de lo útil que puede ser la inteligencia artificial es Google Lens.
Los especialistas de Google también están trabajando en un conversor de texto a imágenes de nueva generación, que ya ha demostrado unos niveles de rendimiento impresionantes. El concepto consiste en que los usuarios introduzcan un texto descriptivo y, a continuación, los algoritmos impulsados por la IA convertirán ese texto en una imagen. Este sistema recibe el nombre de ‘Imagen’ y está siendo desarrollado por el equipo Brain de Google Research.
Según Engadget, Google ha prometido «un grado de fotorrealismo sin precedentes y un profundo nivel de comprensión del lenguaje» basándose en las pruebas realizadas hasta el momento, lo que ha dado lugar a unas expectativas bastante optimistas.
Además, la compañía está trabajando en el desarrollo de una plataforma de referencia para evaluar las capacidades de Imagen en comparación con las de otros modelos informáticos similares. En esta categoría se incluyen modelos como DALL-E 2, VQ GAN+CLIP y Latent Diffusion. DrawBench es el nombre de la plataforma que realiza la evaluación, y lo hace utilizando más de 200 ejemplos distintos de Text-to-Speech. El uso de calificadores humanos a los que se les pide su opinión garantiza el mayor nivel posible de objetividad.
Según los resultados, el equipo especializado tiene preferencia por Imagen frente a otras plataformas de conversión de texto a voz en la mayoría de las categorías, incluyendo la calidad de las muestras y la alineación del contenido de la conversión de texto a voz. En el sitio web oficial de Imagen se ha hecho pública una selección de los modelos más impresionantes de la plataforma para demostrar su funcionamiento
De manera análoga a la de DALL-E, la nueva tecnología de Google no se hará accesible al público en general a corto plazo. Los algoritmos se están aplicando actualmente a una base de datos masiva, pero a largo plazo se incorporarán a la cartera de aplicaciones que mantiene la empresa.