Inicio

Audio y Speech — Voz e IA

Capítulo 12: Audio y Speech — Voz e IA

Hasta ahora hemos trabajado con texto. Pero la voz es la interfaz más natural para los humanos. En este capítulo:

  • Transcribir audio a texto (Speech-to-Text)
  • Generar voz a partir de texto (Text-to-Speech)
  • Combinar ambos para asistentes de voz

Transcripción: Audio a Texto

La función transcribe envía el audio a Whisper y devuelve:

  • text: La transcripción completa
  • segments: Array con timestamps (si los pediste)
  • language: Idioma detectado
  • duration: Duración del audio

Formatos Soportados

FormatoExtensiónNotas
MP3.mp3Más común
WAV.wavSin compresión
WebM.webmIdeal para navegador
M4A.m4aApple
FLAC.flacSin pérdida

Transcripción desde el Navegador

En una app web, el audio viene del micrófono. El endpoint:

En el cliente, usas MediaRecorder para grabar:

Síntesis de Voz: Texto a Audio

El camino inverso:

Voces Disponibles (OpenAI)

VozDescripciónIdeal para
alloyNeutral, balanceadaUso general
echoMasculina, graveNarraciones
fableExpresiva, cálidaStorytelling
onyxMasculina, profundaAutoridad
novaFemenina, amigableAsistentes
shimmerFemenina, suaveMeditación

Parámetros

API de Voz para el Navegador

En el cliente:

Asistente de Voz: El Flujo Completo

Combinar todo: usuario habla → transcribimos → LLM procesa → respondemos con voz.

El flujo visual:

Detección de Idioma

Whisper detecta automáticamente:

Costos

ServicioModeloPrecio
Transcripciónwhisper-1$0.006 / minuto
TTStts-1$15 / 1M caracteres
TTS HDtts-1-hd$30 / 1M caracteres

Optimización

Manejo de Errores

Resumen

ConceptoQué aprendiste
transcribe()Audio a texto con Whisper
generateSpeech()Texto a audio con TTS
MediaRecorderGrabar en el navegador
Vocesalloy, echo, fable, onyx, nova, shimmer
TimestampsSegmentos con tiempo inicio/fin

Cuándo Usar Audio

TranscripciónSíntesis de voz
Dictado de textoAsistentes de voz
Notas de vozAccesibilidad
SubtítulosNotificaciones
Búsqueda por vozIVR telefónico

Cierre del Libro

Has recorrido el camino completo del AI SDK: desde tu primera inferencia hasta agentes autónomos con RAG y voz.

Lo que aprendiste:

  • Fundamentos: Streaming, tokens, context window
  • Frontend: useChat, optimización de renders, UI patterns
  • Backend: React Router v7, endpoints de chat
  • Structured Output: Respuestas tipadas con Zod
  • Tools: Darle manos al modelo para ejecutar acciones
  • Agentes: Loops autónomos que resuelven tareas complejas
  • Imágenes: Generación con DALL-E y otros modelos
  • Embeddings y RAG: Búsqueda semántica sobre tus documentos
  • Audio: Transcripción y síntesis de voz

El AI SDK abstrae la complejidad de trabajar con múltiples proveedores de IA. Ya sea que uses OpenAI, Anthropic, Google o modelos open source, la API es consistente.

Ahora tienes las herramientas para construir aplicaciones de IA en producción. El siguiente paso es tuyo: elige un proyecto, empieza pequeño, e itera.

¡Buena suerte!


Héctorbliss

¿Ya compraste el libro?

Si compraste el libro y no encuentras tu email de descarga, ingresa tu email y te enviamos un nuevo enlace.