ALGORITMO
TECNOLOGÍA
Inteligencia artificial

Google revoluciona la carrera empresarial por la IA y lanza Gemini, un modelo que promete superar a ChatGPT... y a los humanos

Actualizado

Comenta oralmente lo que "ve", identifica objetos, reproduce música y responde a preguntas que requieren un cierto grado de análisis, justificando su "razonamiento"

El CEO de Alphabet, Sundar Pichai, en la presentación de Gemini.
El CEO de Alphabet, Sundar Pichai, en la presentación de Gemini.AP

Google tiene desde hoy una nueva inteligencia artificial. Se llama Gemini y promete superar al modelo de lenguaje GPT4 de OpenAI, el motor que utilizan servicios como ChatGPT para generar las respuestas a las preguntas de los usuarios. Lo consigue en varias pruebas y exámenes concretos, de hecho, incluidos varios enfocados a la programación y la lógica.

"Con una puntuación de 90,0%, es el primer modelo de lenguaje en superar a expertos humanos en MMLU (siglas en inglés comprensión masiva del lenguaje multitarea), una batería de pruebas que utiliza una combinación de 57 asignaturas como matemáticas, física, historia, derecho, medicina y ética para probar tanto el conocimiento mundial como las habilidades de resolución de problemas", explica Demis Hassabis, responsable de Google DeepMind, una de las divisiones de Google que ha trabajado en el desarrollo de Gemini.

Google anunció Gemini el pasado mes de mayo durante la conferencia de desarrolladores Google IO. La intención original era lanzarlo antes de finales de año pero en las últimas semanas varios rumores apuntaban a un posible retraso debido a problemas en la compresión del modelo cuando se usaban idiomas diferentes al inglés en las preguntas.

Finalmente Google ha cumplido con el calendario previsto, pero solo a medias. Desde hoy, una versión de Gemini estará disponible en la inteligencia artificial conversacional Bard y en los teléfonos Pixel 8, pero la empresa prepara para 2024 varios servicios de suscripción con funciones más avanzadas.

Tres versiones

Gemini se ofrecerá inicialmente tres versiones diferentes: Ultra, Pro y Nano. La primera es el modelo más complejo y capaz de ofrecer mejores respuestas. Es la que ha conseguido superar a GPT4 en varias de las pruebas comparativas realizadas, pero no estará lista hasta 2024.

Pro es una versión algo menos capaz pero que requiere de menos potencia de computación para generar las respuestas. Está diseñado como competencia directa de GPT 3.5, que es el modelo de lenguaje que utiliza ChatGPT en su versión gratuita.

Es también el que Google ofrecerá en la versión gratuita de Bard a partir de hoy. La semana que viene estará disponible también para clientes del servicio VertexAI de Google y en los próximos meses se empezará a usar también en otros servicios y herramientas de Google, como las búsquedas. A partir del año que viene, Google tendrá una versión de pago por suscripción a Bard que funcionará con la versión Gemini Ultra.

Finalmente habrá una versión más pequeña de Gemini, Nano, pensada para poder ser ejecutada en teléfonos móviles. Pixel 8, el teléfono más avanzado de Google, será el primero que tendrá acceso a este modelo, aunque Google permitirá a otros fabricantes usarlo. Gracias a este modelo, los teléfonos podrán realizar algunas tareas, como traducción entre varios idiomas o generación de textos o imágenes, sin tener que conectarse a un servidor remoto.

Texto, imágenes y video

Gemini es un modelo "multimodal". Esto quiere decir que puede entender tanto texto, como imágenes o audio en las preguntas. No es el único modelo de lenguaje con esta habilidad, pero en Google aseguran que la han llevado un paso más allá, entrenándolo desde el principio para que realmente pueda razonar sus respuestas usando todos los elementos disponibles.

Google ha mostrado algunos escenarios donde Gemini destaca gracias a esta capacidad. En uno, la inteligencia artificial es capaz de ofrecer ideas para tejer a partir de una foto de dos ovillos de lana, identificando colores y formas que es posible realizar con ellos. En el segundo, a partir de una foto de los ingrediente de una tortilla y una pregunta en voz alta sobre cuáles son los pasos a seguir, la IA es capaz de crear los diferentes pasos de la receta.

Cabeza de carrera

Google se juega mucho con Gemini. De sus laboratorios han salido muchos de los avances que han hecho posible los modernos modelos largos de lenguaje, como GPT4 y Gemini. La empresa, sin embargo, no ha avanzado lo suficientemente rápido en su aprovechamiento para crear con ellos herramientas útiles.

El lanzamiento de ChatGPT, hace un año, ha convertido a su rival, OpenAI, en la empresa que está marcando el ritmo en este nuevo mercado. De ahí la importancia de que Gemini sea capaz de adelantar a GPT4 en tareas específicas.

Estos modelos de lenguaje han resultado sorprendentemente útiles en tareas con una importante aplicación comercial. No sólo son capaces de generar texto o resumir largos documentos, también son hábiles a la hora de generar, por ejemplo, el código necesario para crear una aplicación.

La forma en la que están diseñados, no obstante, puede presentar problemas en tareas complejas. Los datos con los que han sido entrenados, por ejemplo, introducen sesgos en las respuestas y los modelos tienen tendencia a llenar los vacíos de información con datos inventados, conocidos en la industria como "alucinaciones".

Para evitar estos escenarios, Google ha dedicado amplios recursos. "Hemos construidos varios mecanismos de protección y trabajamos en colaboración con gobiernos y expertos para abordar los riesgos que surgen a medida que las inteligencias artificiales se vuelven más capaces", explica Sundar Pichai, presidente ejecutivo de Google.