Watson es el sistema informático de procesamiento de lenguaje natural de IBM. Alimenta la famosa supercomputadora de preguntas y respuestas, así como una serie de productos empresariales basados en inteligencia artificial, incluido Watson Speech to Text. En nuestra revisión de voz a texto de Watson, veremos una de las mejores aplicaciones de voz a texto, ideal para cualquier persona que quiera convertir audio a texto a escala.
La plataforma de procesamiento de voz Watson está disponible en IBM Cloud. Es una herramienta versátil y se puede utilizar en muchos contextos, incluidos el dictado y la transcripción de llamadas de conferencia. Además, a diferencia de la mayoría de las otras aplicaciones de voz a texto, está disponible como API, lo que permite a los desarrolladores integrarlo en los sistemas de control de voz, entre otras cosas..
Watson Speech to Text: Planes y precios
Puede usar Watson Speech to Text para procesar hasta 500 minutos de audio gratis por mes. Si desea convertir más que eso, deberá pagar por cada minuto de audio, y la tasa cambia según la duración del audio procesado. Los costos oscilan entre $ 0.01 y $ 0.02 por minuto, y hay un cargo adicional de $ 0.03 por minuto si necesita el modelo de idioma personalizado de IBM. Los planes premium de Watson solo con cotización también están disponibles, y estos otorgan acceso a características mejoradas de privacidad de datos y garantías de tiempo de actividad.
El servicio de voz a texto de Watson tiene un precio basado en el volumen de contenido que necesita transcribir. (Crédito de la imagen: IBM)
También puede acceder al sistema Watson Speech to Text a través de una suscripción a IBM Cloud de uso general. El procesamiento del lenguaje natural es solo una aplicación en una amplia gama de servicios de IA que puede obtener a través de IBM Cloud, por lo que es una buena opción para cualquier organización que necesite acceso a transferencias de datos de alta velocidad, chatbots o herramientas de texto a voz..
Discurso a texto de Watson: características
Gracias a la integración flexible de API y otras herramientas de IBM preconstruidas, el servicio de reconocimiento de voz de Watson va mucho más allá de la transcripción básica. Si desea usarlo en un contexto de servicio al cliente, por ejemplo, el Asistente de Watson puede configurarse para procesar preguntas en lenguaje natural directamente o responder consultas por teléfono.
En Watson, IBM ha creado una plataforma de procesamiento de lenguaje natural rica en funciones. (Crédito de la imagen: IBM)
Watson trabaja con audio en vivo en 11 idiomas y puede importar sonidos en una variedad de formatos pregrabados. Al transmitir, el soporte de diagnóstico en tiempo real significa que Watson puede solicitar a los usuarios que se acerquen a su micrófono o cambien su entorno. También es impresionante el hecho de que Watson puede distinguir entre diferentes altavoces en una conversación compartida gracias a Speaker Diarization, una característica que aún se encuentra en fase beta..
Watson Speech to Text: Configuración
Para usar Watson, lo primero que debe hacer es crear una cuenta de IBM Bluemix. El registro es gratuito e indoloro, y solo requiere una dirección de correo electrónico y una contraseña. Una vez que haya iniciado sesión, debe agregar una disposición en su cuenta para el servicio de voz a texto. En esta etapa se le darán un par de credenciales que debe guardar en sus propios registros..
Es necesario registrarse para obtener una cuenta de IBM Bluemix para obtener acceso al conjunto completo de funciones de Watson. (Crédito de la imagen: IBM)
Después de hacer eso, las cosas se vuelven significativamente más complejas. Para acceder a Watson, deberá agregar esas credenciales a un lote de código del localizador uniforme de recursos del cliente (cURL) y luego ejecutarlo en su máquina. Para saber exactamente qué comando llamar, consulte esta guía práctica. Alternativamente, si solo quiere ver qué tan bien funciona el sistema Watson sin tener que pasar por todos esos obstáculos, puede probarlo en el sitio de demostración de IBM..
Watson Speech to Text: interfaz
A diferencia de las aplicaciones de voz a texto orientadas al consumidor, los servicios de Watson están diseñados para acceder a ellos a través de API y código incrustado en otros sistemas. Por esta razón, no hay un verdadero Watson “interfaz”. En cambio, se puede acceder a Watson a través de tres protocolos de Internet diferentes. Estos son WebSockets, REST API y Watson Developer Cloud.
Watson Speech to Text se puede administrar a través del sistema Watson Developer Cloud. (Crédito de la imagen: IBM)
Para controlar Watson, deberá utilizar una herramienta de línea de comandos que se conecte a la nube de IBM a través de una de esas tres rutas. La interfaz que ve el usuario final que interactúa con Watson deberá ser construida por alguien de su equipo de desarrollo por separado..
Watson Speech to Text: Performance
En general, nos impresionó la forma en que esta plataforma de procesamiento de lenguaje natural manejaba el habla real. Usamos Watson para transcribir clips que grabamos en una variedad de entornos desafiantes, así como fragmentos de discursos famosos en varios de los 11 idiomas compatibles de Watson.
Descubrimos que Watson se desempeñó bien con el habla pregrabada. (Crédito de la imagen: IBM)
Aunque los errores se hicieron más frecuentes para los clips con mucho ruido de fondo, en general, Watson produjo resultados increíblemente precisos. Según nuestras pruebas, estimamos que los errores inesperados ocurrieron solo una vez cada 150 palabras en promedio. Sin embargo, quedó claro por qué la función de Diarización de altavoces de Watson permanece en las pruebas BETA ya que, varias veces durante nuestra evaluación, una voz se etiquetó erróneamente como altavoces separados.
Watson Speech to Text: Soporte
El centro de recursos de IBM ofrece mucha documentación para comprender mejor cómo aplicar Watson a su caso de uso particular. También vale la pena hacer uso de las integraciones de API y SDK creados por la comunidad de desarrolladores de Watson y publicados en GitHub.
La página de Watson API GitHub es una buena fuente de soporte para el servicio de voz a texto de Watson. (Crédito de la imagen: IBM)
Si no encuentra la solución a su problema allí, puede comunicarse con IBM directamente abriendo un ticket de soporte o comunicándose con ellos por teléfono. Siempre que haya optado por uno de los paquetes premium de Watson, su uso de Watson estará protegido por un acuerdo de tiempo de actividad de nivel de servicio.
Discurso al texto de Watson: veredicto final
Si su organización tiene los conocimientos y los recursos para integrar adecuadamente la plataforma IBM Watson Speech to Text en su sistema, se beneficiará de funciones avanzadas como diagnósticos de entorno de sonido en tiempo real y resultados de transcripción provisionales. Sin embargo, las pequeñas empresas y organizaciones lucharán con el desafío técnico de configurar Watson correctamente.
La competencia
El servicio IBM Watson Speech to Text es un competidor directo de los servicios de transcripción masiva Google Cloud Speech-to-Text y Amazon Transcribe. Ambos son significativamente más baratos que Watson, con la transcripción de Google Cloud, por ejemplo, a partir de $ 0.006 por minuto. Los tres servicios comparten funciones similares, como el vocabulario personalizado, pero una característica que falta en IBM Watson pero que está disponible con ambos competidores es el reconocimiento automático de puntuación.
¿Está buscando otra solución de texto a texto? Consulte nuestra mejor guía de software de voz a texto.