Capítulo 12: Audio y Speech — Voz e IA
Hasta ahora hemos trabajado con texto. Pero la voz es la interfaz más natural para los humanos. En este capítulo:
- Transcribir audio a texto (Speech-to-Text)
- Generar voz a partir de texto (Text-to-Speech)
- Combinar ambos para asistentes de voz
Transcripción: Audio a Texto
La función transcribe envía el audio a Whisper y devuelve:
text: La transcripción completasegments: Array con timestamps (si los pediste)language: Idioma detectadoduration: Duración del audio
Formatos Soportados
| Formato | Extensión | Notas |
|---|---|---|
| MP3 | .mp3 | Más común |
| WAV | .wav | Sin compresión |
| WebM | .webm | Ideal para navegador |
| M4A | .m4a | Apple |
| FLAC | .flac | Sin pérdida |
Transcripción desde el Navegador
En una app web, el audio viene del micrófono. El endpoint:
En el cliente, usas MediaRecorder para grabar:
Síntesis de Voz: Texto a Audio
El camino inverso:
Voces Disponibles (OpenAI)
| Voz | Descripción | Ideal para |
|---|---|---|
alloy | Neutral, balanceada | Uso general |
echo | Masculina, grave | Narraciones |
fable | Expresiva, cálida | Storytelling |
onyx | Masculina, profunda | Autoridad |
nova | Femenina, amigable | Asistentes |
shimmer | Femenina, suave | Meditación |
Parámetros
API de Voz para el Navegador
En el cliente:
Asistente de Voz: El Flujo Completo
Combinar todo: usuario habla → transcribimos → LLM procesa → respondemos con voz.
El flujo visual:
Detección de Idioma
Whisper detecta automáticamente:
Costos
| Servicio | Modelo | Precio |
|---|---|---|
| Transcripción | whisper-1 | $0.006 / minuto |
| TTS | tts-1 | $15 / 1M caracteres |
| TTS HD | tts-1-hd | $30 / 1M caracteres |
Optimización
Manejo de Errores
Resumen
| Concepto | Qué aprendiste |
|---|---|
transcribe() | Audio a texto con Whisper |
generateSpeech() | Texto a audio con TTS |
| MediaRecorder | Grabar en el navegador |
| Voces | alloy, echo, fable, onyx, nova, shimmer |
| Timestamps | Segmentos con tiempo inicio/fin |
Cuándo Usar Audio
| Transcripción | Síntesis de voz |
|---|---|
| Dictado de texto | Asistentes de voz |
| Notas de voz | Accesibilidad |
| Subtítulos | Notificaciones |
| Búsqueda por voz | IVR telefónico |
Cierre del Libro
Has recorrido el camino completo del AI SDK: desde tu primera inferencia hasta agentes autónomos con RAG y voz.
Lo que aprendiste:
- Fundamentos: Streaming, tokens, context window
- Frontend: useChat, optimización de renders, UI patterns
- Backend: React Router v7, endpoints de chat
- Structured Output: Respuestas tipadas con Zod
- Tools: Darle manos al modelo para ejecutar acciones
- Agentes: Loops autónomos que resuelven tareas complejas
- Imágenes: Generación con DALL-E y otros modelos
- Embeddings y RAG: Búsqueda semántica sobre tus documentos
- Audio: Transcripción y síntesis de voz
El AI SDK abstrae la complejidad de trabajar con múltiples proveedores de IA. Ya sea que uses OpenAI, Anthropic, Google o modelos open source, la API es consistente.
Ahora tienes las herramientas para construir aplicaciones de IA en producción. El siguiente paso es tuyo: elige un proyecto, empieza pequeño, e itera.
¡Buena suerte!
Héctorbliss
¿Ya compraste el libro?
Si compraste el libro y no encuentras tu email de descarga, ingresa tu email y te enviamos un nuevo enlace.
