Google lanza Gemini 2.0

Google anuncia Gemini 2.0, su modelo de inteligencia artificial más potente hasta la fecha, diseñado para la era de los agentes. Gemini 2.0 presenta nuevas capacidades, como la generación nativa de imágenes y audio, y la capacidad de utilizar herramientas como Google Search y Maps.


En palabras del director ejecutivo de Google y Alphabet, Sundar Pichai:

La información es el núcleo del progreso humano. Por eso, durante más de 26 años nos hemos centrado en nuestra misión de organizar la información del mundo y hacerla accesible y útil. Y es por eso que seguimos ampliando las fronteras de la IA para organizar esa información en cada entrada y hacerla accesible a través de cualquier salida, de modo que pueda ser realmente útil para usted.

Esa fue nuestra visión cuando presentamos Gemini 1.0 en diciembre pasado . El primer modelo creado para ser multimodal de forma nativa, Gemini 1.0 y 1.5 impulsó grandes avances con la multimodalidad y el contexto extenso para comprender información en texto, video, imágenes, audio y código, y procesar mucho más.

En la actualidad, millones de desarrolladores desarrollan con Gemini, lo que nos ayuda a reinventar todos nuestros productos (incluidos los 7 que cuentan con 2 mil millones de usuarios) y a crear otros nuevos. NotebookLM es un gran ejemplo de lo que la multimodalidad y el contexto extenso pueden permitir a las personas, y por qué es tan apreciado por tantas personas.

Durante el último año, hemos estado invirtiendo en el desarrollo de modelos más agentes, lo que significa que pueden comprender más sobre el mundo que lo rodea, pensar varios pasos por adelantado y tomar medidas en su nombre, con su supervisión.

Hoy estamos entusiasmados por lanzar nuestra próxima era de modelos diseñados para esta nueva era de agentes: presentamos Gemini 2.0, nuestro modelo más capaz hasta el momento. Con nuevos avances en multimodalidad (como salida de audio e imagen nativa) y uso de herramientas nativas, nos permitirá crear nuevos agentes de IA que nos acerquen a nuestra visión de un asistente universal.

Hoy mismo estamos poniendo la versión 2.0 en manos de desarrolladores y evaluadores de confianza. Y estamos trabajando rápidamente para incorporarla a nuestros productos, comenzando con Gemini y Search. A partir de hoy, nuestro modelo experimental Flash de Gemini 2.0 estará disponible para todos los usuarios de Gemini. También estamos lanzando una nueva función llamada Deep Research , que utiliza capacidades avanzadas de razonamiento y contexto extenso para actuar como asistente de investigación, explorando temas complejos y compilando informes en su nombre. Está disponible en Gemini Advanced hoy.

Ningún producto ha sido transformado más por la IA que la Búsqueda. Nuestras Vistas generales de IA ahora llegan a mil millones de personas, lo que les permite hacer tipos de preguntas completamente nuevos, convirtiéndose rápidamente en una de nuestras funciones de Búsqueda más populares. Como próximo paso, estamos incorporando las capacidades de razonamiento avanzado de Gemini 2.0 a las Vistas generales de IA para abordar temas más complejos y preguntas de varios pasos, incluidas ecuaciones matemáticas avanzadas, consultas multimodales y codificación. Comenzamos con pruebas limitadas esta semana y las implementaremos de manera más amplia a principios del próximo año. Y continuaremos llevando las Vistas generales de IA a más países e idiomas durante el próximo año.

Los avances de Gemini 2.0 están respaldados por inversiones de una década en nuestro enfoque diferenciado de pila completa para la innovación en IA. Está construido sobre hardware personalizado como Trillium, nuestras TPU de sexta generación. Las TPU impulsaron el 100 % del entrenamiento e inferencia de Gemini 2.0, y hoy Trillium está disponible para los clientes de manera general para que también puedan desarrollar con él.

Si Gemini 1.0 se centraba en organizar y comprender la información, Gemini 2.0 se centra en hacerla mucho más útil. No veo la hora de ver qué nos deparará la próxima era.