VIE, 19 / DIC / 2025

Gemini ya permite escuchar tus documentos como si fuesen un podcast

La inteligencia artificial de Google se integra en el procesador de textos para generar versiones de audio. Te contamos cómo funciona esta nueva característica y qué planes tienen acceso a ella.

A menudo, el ritmo de trabajo nos obliga a buscar formas más eficientes de consumir la información. Es habitual recurrir a herramientas externas para gestionar o escuchar un PDF online, buscando esa versatilidad en formatos estáticos, pero la gran incógnita era si esta capacidad llegaría de forma nativa a los documentos que editamos cada día.

La respuesta acaba de llegar: Google ha confirmado que Docs ya es capaz de “hablar” gracias a la integración profunda con Gemini.

Esta nueva funcionalidad no es un simple lector de texto a voz robótico; se trata de una implementación de IA que permite generar versiones de audio fluidas directamente desde el editor. Está pensada tanto para quienes escriben como para quienes necesitan consumir el contenido sin mirar la pantalla.

Convierte texto en audio personalizable

Según la información oficial desplegada por la compañía, esta característica permite a los usuarios transformar el contenido escrito en pistas de audio utilizando la tecnología de Gemini.

Lo interesante para el usuario intensivo es la capacidad de personalización: no estás atado a una única voz monótona.

Google permite ajustar el tipo de voz de la IA y, crucialmente, la velocidad de reproducción. Esto resulta especialmente útil para revisar documentos largos en poco tiempo o para usuarios que prefieren procesar la información de manera auditiva mientras realizan otras tareas.

Dos vías de uso para los usuarios

Analizando la estructura de la herramienta, Google ha diseñado dos flujos de trabajo distintos dentro de Docs:

Para el consumo personal

Si recibes un documento compartido y prefieres escucharlo, puedes acceder al menú Herramientas (Tools), seleccionar Audio y pulsar en “Escuchar esta pestaña”.

Para los creadores

Los autores tienen la potestad de integrar el audio como un elemento más del documento. A través del menú Insertar > Audio, se puede añadir un botón de reproducción personalizable directamente en el cuerpo del texto.

De esta forma, cuando un compañero o cliente abra el archivo, podrá hacer clic y empezar a escuchar la versión narrada sin buscar en los menús.

Del texto al “Podcast” generado por IA

Esta actualización es la materialización de una promesa que Google hizo el pasado mes de abril, cuando anunció sus planes de convertir documentos en algo similar a podcasts de IA.

La tecnología detrás de esto bebe directamente de lo visto en NotebookLM, la herramienta de investigación de Google.

La idea no es solo leer literalmente, sino ofrecer resúmenes de audio o “Audio Overviews” que pueden simular una conversación entre dos presentadores de IA para explicar los puntos clave de un archivo.

Aunque la función actual en Docs se centra en la lectura del texto, el ecosistema de Workspace está evolucionando hacia una comprensión multimodal donde Gemini actúa como centro neurálgico, ayudando incluso a analizar hojas de cálculo complejas o actuando como un editor que sugiere mejoras de estilo (“Help me refine”).

Disponibilidad y requisitos actuales

Como suele ocurrir con los despliegues de Google, hay letra pequeña respecto a quién puede usarlo y dónde:

1. Idioma: de momento, la generación de audio sólo está disponible para documentos en inglés.
2. Dispositivo: la función está limitada por ahora a la versión de escritorio (ordenador), por lo que no la verás todavía en la app del móvil.
3. Planes: no es para todos los usuarios gratuitos. El despliegue está llegando a los suscriptores de Google Workspace con planes Business, Enterprise o Educación, así como a aquellos que pagan por los complementos de Google One AI Premium (AI Pro y Ultra).

Storytelling visual y análisis conectado a la web

Si el audio en Docs busca mejorar cómo consumimos información, la reciente actualización de octubre de Workspace (“October Drop”) se centra en revolucionar cómo la presentamos y analizamos, introduciendo capacidades que complementan perfectamente a la lectura por voz.

De texto a cine: Gemini en Slides y Vids

Google ha integrado su modelo de video más potente, Veo 3.1, directamente en el ecosistema. Mientras Docs se encarga del audio, Google Vids y Slides ahora permiten generar vídeo de alta calidad, con narrativas controladas y audio enriquecido.

La novedad más impactante es la capacidad de transformar presentaciones de diapositivas enteras en videos atractivos de forma automática, facilitando la creación de contenido para quienes no son editores de video profesionales.

Hojas de cálculo con “ojos” en internet

Quizás la novedad más crítica para el mercado empresarial es la actualización de Gemini en Google Sheets. La IA ahora cuenta con “web grounding” (conexión a tierra con la web).

¿Qué significa esto? Que Gemini ya no está limitado a los datos de tu hoja de cálculo; ahora puede buscar en Google para encontrar información actualizada en tiempo real.

Imagina tener una lista de competidores en una columna y pedirle a Gemini que busque las últimas noticias sobre ellos o sus precios actuales. La IA rellenará las celdas con datos frescos extraídos de la web.

Expansión al español

A diferencia de la función de audio en Docs, que tiene un despliegue inicial centrado en el inglés, Google ha confirmado que estas nuevas capacidades de análisis en Sheets llegan con soporte ampliado para el español.

Esto elimina la barrera idiomática para las empresas de España y Latinoamérica que quieran usar la IA para investigaciones de mercado directamente desde sus hojas de cálculo.

Hacia un entorno de trabajo inteligente

Con estas actualizaciones, Google continúa así su carrera por integrar Gemini en cada rincón de su suite ofimática, intentando que el procesador de textos deje de ser una herramienta pasiva para convertirse en un asistente activo.

Este movimiento deja clara la estrategia de la compañía de Mountain View: transformar Workspace en un ecosistema multimodal.

Ya no se trata únicamente de facilitar la escritura, sino de ofrecer nuevas capas de interacción donde el usuario pueda consumir, analizar y refinar la información sin salir de la pestaña del navegador, plantando cara de forma directa a las soluciones de productividad de la competencia.

Comentarios