Google anunció el jueves que “pausará” algunas funciones de su generador de imágenes de inteligencia artificial Gemini después de una reacción violenta por su descripción de la diversidad étnica y de género, pero la compañía tiene varios competidores, como OpenAI, Microsoft y Adobe, en este sector de rápido crecimiento.

Google presentó Gemini, el nombre de su asistente de chatbot Bard, a finales de 2023, un modelo que la firma ha entrenado en múltiples modalidades , incluidas imagen, voz y texto (la mayoría de los rivales entrenan modelos para generar o comprender contenido en diferentes formatos, como audio o imagen, por separado) y lanzó una suscripción de paga para mejores capacidades en febrero.

Meta lanzó en diciembre un generador de imágenes de inteligencia artificial independiente llamado Imagine with Meta (se basa en el modelo Emu de la compañía y es de uso gratuito), ampliando el acceso a la herramienta generativa que anteriormente estaba limitada a chatbots dentro de aplicaciones para Facebook, Instagram y WhatsApp.

OpenAI, la empresa respaldada por Microsoft, y responsable de los generadores de texto y video ChatGPT y Sora, lanzó el año pasado la tercera generación de su plataforma visual DALL-E, integrando finalmente la herramienta de imágenes con su chatbot de inteligencia artificial para simplificar el proceso de creación del texto necesario. indicaciones que convierten las ideas de los usuarios en realidad visual.

Midjourney ha sido una herramienta de imágenes de inteligencia artificial popular desde su primer publicación a finales de 2022 (lanzó la versión 6 del modelo Midjourney en diciembre, que ofrece detalles mejorados y mejores respuestas a las indicaciones) y, aunque es relativamente pequeña en tamaño, la empresa sigue siendo uno de los actores más conocidos en el campo.

Lee: Google interrumpe la generación de imágenes con ‘Gemini’ tras detectar fallas

Adobe cuenta con un generador de imágenes de inteligencia artificial “comercialmente seguro”, Firefly, que las empresas pueden utilizar sin temer reclamos de derechos de autor, ya que el modelo ha sido entrenado en imágenes que la compañía tiene licencia o tiene licencia abierta, un punto de venta único en el panorama legal de la inteligencia artificial, que de otro modo sería turbio.

Microsoft ofrece generación de imágenes a través del asistente de inteligencia artificial Copilot, que ha integrado en sus aplicaciones de Office como Word, PowerPoint y Excel, y que utiliza el modelo DALL-E 3 de OpenAI para generar contenido.

Stability AI, líder desde hace mucho tiempo en generación de imágenes de inteligencia artificial y una alternativa más abierta a las herramientas patentadas, lanzó una serie de modelos de generación de imágenes desde 2022 y presentó una vista previa de su Stable Diffusion 3 el jueves, aunque los detalles son escasos y la compañía no dio indicación de cuándo se lanzará (aunque hay una lista de espera en la que la gente puede inscribirse).

¿Cuál es la preocupación por los generadores de imágenes de IA?

Diversidad, autenticidad y propiedad. Las herramientas de inteligencia artificial generativa se entrenan en vastos conjuntos de datos para producir contenido a partir de indicaciones basadas en lo que se ha “aprendido”. 

Como el resultado de un modelo refleja los datos con los que fue entrenado, también refleja los sesgos dentro de esos datos, mostrando una y otra vez sesgos étnicos y de género en sus productos, como borrar identidades indígenas y no binarias, una tendencia a mostrar a hombres de piel clara con trabajos altamente pagados y prisioneros como negros. 

En un esfuerzo por contrarrestar esto, muchos modelos intentan activamente dar cuenta y corregir este sesgo para representar mejor el mundo real, aunque puede resultar contraproducente, como demuestra el reciente furor sobre Géminis, y crear un sesgo en la otra dirección. 

Dado que el contenido se vuelve cada vez más detallado y realista, cada vez es más difícil saber qué es real y qué no, lo que genera temores de que las herramientas puedan ayudar a crear deepfakes, difundir información errónea peligrosa o material dañino. 

Lee: Google presenta Gemini 1.5, una IA que puede procesar textos, videos y audios

Esta es una preocupación clave de las empresas que fabrican inteligencia artificial generativa, especialmente de cara a unas elecciones en EU acaloradas, y muchas están trabajando en herramientas como marcas de agua que permitirían a las personas distinguir lo falso de lo real. 

Los datos que pueden crear sesgos también son polémicos en términos de propiedad (Meta, por ejemplo, utiliza imágenes en publicaciones en redes sociales) y muchos de los principales generadores de imágenes y texto están defendiéndose de importantes demandas de artistas y organizaciones de medios que impugnan los términos y la compensación en torno al uso de su contenido. 

Estas demandas aún no se han resuelto (y es probable que se presenten más en el futuro) y los resultados podrían desempeñar un papel importante en la configuración del panorama futuro de las herramientas de inteligencia artificial generativa.

Gemini de Google fue ampliamente criticado por sus imágenes inexactas y sesgadas cuando se le pidió que mostrara algunos escenarios históricos, y la compañía no ha dado un cronograma sobre cómo “ajustará” su servicio para tener en cuenta el contexto histórico o cuándo restaurará la capacidad de generar imágenes. 

Este artículo se publicó originalmente en Forbes US

Síguenos en Google Noticias para mantenerte siempre informado

 

Siguientes artículos

Aquí se muestra al director ejecutivo de Nvidia, Jensen Huang, sosteniendo una CPU diseñada para centros de datos de IA. Las GPU A100 y H100 de la compañía han tenido una demanda aún mayor entre las empresas de inteligencia artificial. AFP A TRAVÉS DE GETTY IMAGES
Los inversores en IA están cortejando a las empresas emergentes con equipos informáticos masivos
Por

Nat Friedman y Daniel Gross construyeron una supercomputadora de 4,000 chips para que la utilizaran sus nuevas empresas....