Go to Menu

IA ética en ReadSpeaker: buenas prácticas para la industria de la voz

¿Cómo se puede hacer un uso ético de la IA en la industria del texto a voz (TTS) en la actualidad? Descúbralo con el código ético de ReadSpeaker para crear voces con IA.

noviembre 21, 2024 by Gaea Vilage
Una mujer con auriculares mira una pantalla con variaciones de audio.

El debate en torno a la ética de la IA es un tema candente, pero hay cosas que están fuera de toda discusión, ya sea que esté tratando con redes neuronales o con plastilina.

No se debe usar nada ni tomar nada de una persona sin su permiso. No se debe prometer una cosa y luego hacer otra. No se deben crear productos que perjudiquen a las personas.

En ReadSpeaker, hemos estado a la vanguardia de la tecnología de voz con apoyo de la IA desde el principio. Nosotros hemos sopesado las implicaciones éticas de los sistemas de síntesis de voz en todas sus formas y, últimamente, hemos observado que el entusiasmo que se siente en el sector por explotar esta nueva y potente tecnología ha empezado a pesar más que su conciencia.

En este artículo, nos gustaría compartir nuestro enfoque sobre el uso ético de la IA en el sector del texto a voz (TTS).

¿Qué es realmente una voz creada con ayuda de la IA o una voz basada en IA?

Antes que nada, nos gustaría aclarar qué es lo que hace que una voz basada en IA sea una «voz basada en IA» para asegurarnos de que todos partimos del mismo punto. Una definición rápida sería:

Una voz basada en IA es un modelo sintético de voz humana creada con ayuda de redes neuronales profundas.

Una red neuronal profunda (DNN, por sus siglas en inglés) es una arquitectura de aprendizaje automático basada en el modo en que aprende el cerebro humano. Utiliza varias capas de unidades de procesamiento interconectadas —neuronas artificiales— para aprender patrones complejos con los datos con los que se entrena.

Cuando se entrena una DNN adecuada con una voz humana, produce señales de audio que imitan esa voz. El resultado de este proceso es lo que llamamos una voz neuronal o una voz basada en IA, y decimos que se ha desarrollado con apoyo de la IA porque las DNN son un tipo de inteligencia artificial.

La conclusión importante es que detrás de cada voz basada en IA hay una persona. Las voces digitalizadas son una forma de propiedad intelectual muy personal. Pero, por desgracia, la IA ha irrumpido como la fiebre del oro y no todos los proveedores de TTS están respetando este hecho.

Esta desconexión puede conducir a un modelo de negocio habitual en la industria de la voz basada en IA: distribuir en Internet una voz basada en IA de forma pública, tal y como hacen los sistemas de autoservicio de generación de voces basadas en IA, lo que vulnera los derechos de los locutores y de otras partes involucradas en el proceso. Explicaremos este punto más adelante.

Sistemas B2B y B2C de generación de voces basadas en IA y los derechos de los locutores

Los proveedores de voces basadas en IA de autoservicio ofrecen sus servicios al consumidor final (B2C), por lo que venden voces basadas en IA a cualquier persona. En ReadSpeaker solo ofrecemos nuestros servicios y tecnología a clientes institucionales y corporativos (B2B); es decir, que vendemos a otras empresas y no a consumidores particulares.

El modelo B2B nos permite proteger a los locutores, algo que los proveedores B2C no pueden hacer. Los acuerdos contractuales que firmamos con los locutores y los usuarios institucionales y corporativos de las voces basadas en IA garantizan que una semejanza vocal solo aparezca en unos contextos limitados y autorizados. Desarrollamos este concepto en los siguientes párrafos.

Usos no éticos de los sistemas de síntesis de voz basada en IA

Hay dos cosas que determinan que una voz basada en IA sea ética o no: la forma en la que se crea y el uso que se le da. Digamos que son las prácticas anteriores y posteriores las que alimentan el conflicto ético.

Infracciones éticas previas relacionadas con la recopilación de datos

¿Recuerda que hemos explicado que las voces neuronales suenan como las voces de las grabaciones que se usan para entrenarlas? Por eso es muy importante saber de dónde proceden las grabaciones.

Vivimos en la era de los pódcast y los audiolibros, y ahí hay mucha información. Es posible conseguir datos de audio de cualquier fuente y crear una voz basada en IA sin que el orador lo sepa o dé su consentimiento. No cabe duda de que ese uso no es ético. Sin embargo, hay personas que lo están haciendo.

Para saber si un proveedor de TTS está haciendo un uso ético de la IA, hágale una pregunta muy sencilla: ¿De dónde ha sacado los datos?

Pero hay otra forma en la que las empresas de TTS allanan el terreno para recopilar datos con prácticas que incumplen la ética y que incluso son ilegales. Los sistemas de autoservicio B2C de generación de voces basadas en IA o los servicios de clonación de voces permiten a los usuarios crear voces digitales a partir de sus propias grabaciones.

Con estas herramientas cualquiera puede clonar una voz, y a veces tan solo se necesitan unos cuantos segundos de datos de audio. La mayoría de las personas ha publicado audios con su voz en las redes sociales, por lo que hay voces por todas partes. Y, además, se encuentran en una cantidad inabarcable de servidores ubicados por todo el mundo como consecuencia del uso de asistentes virtuales, altavoces inteligentes y aplicaciones asistidas por voz. En otras palabras, con estas herramientas circulando por ahí, todos somos vulnerables al saqueo de nuestras voces para su clonación.

Las voces basadas en IA que puede crear uno mismo rápidamente en casa nunca podrán ser de gran calidad, ya que eso requiere el uso de muchos más datos. Pero sí que son suficientemente buenas para crear deepfakes políticos o personales y suplantar la identidad de cualquiera.

Trataremos estos temas más a fondo en el artículo sobre la ética de la clonación de voces. Por ahora, lo importante es que sepa que crear una voz basada en IA con unos datos para cuyo uso no tenga autorización se considera casi siempre una práctica indebida.

Infracciones éticas posteriores relacionadas con el uso no autorizado de las voces digitales

Para desarrollar una tecnología TTS neuronal, se necesita la intervención de tres partes principales:

  1. El locutor: el orador o profesional de la voz que hay detrás de los datos que se usan para entrenar la voz.
  2. El creador de la voz basada en IA: un proveedor de herramientas TTS como ReadSpeaker.
  3. El usuario de la herramienta TTS: la organización que integra la voz digital para leer su contenido en voz alta a su público.

Las tres partes implicadas en el proceso deben acordar las condiciones para hacer un uso apropiado de la voz basada en IA. Distribuir una voz basada en IA en contextos diferentes a los acordados —lo que denominamos «uso no autorizado»— puede provocar graves perjuicios, los cuales afectan a cada parte de forma diferente.

Daños causados por el uso no autorizado de voces basadas en IA

1. Locutores

Los locutores son los que proporcionan los datos para entrenar la mayoría de las voces TTS comerciales. Si un creador de voces basadas en IA clona la voz de un locutor y no supervisa su implementación de forma estricta, puede hundir el negocio o el modo de vida de ese locutor o actor. Al fin y al cabo, ¿por qué contratar a alguien cuya voz se puede copiar gratis?

«Mi voz es quien soy y es también mi sustento económico», nos explicó un locutor en activo. «Si se la llevan sin más, se llevan también mis ingresos. Si roban mi voz estoy acabado».

Si se la llevan sin más, se llevan también mis ingresos.

Si las voces se implementan sin ningún control, los locutores de la industria TTS también se exponen al riesgo de que se usen sus voces para contenidos que no aprueban, desde vídeos para adultos a discursos de odio, lo que puede acarrear perjuicios morales e incluso legales, además de la pérdida de ingresos. Ahora entenderá por qué los locutores son vulnerables al uso no autorizado de la tecnología TTS.

2. Creadores de las voces basadas en IA

Los creadores de voces que hacen un uso ético de la IA —entre los que se incluye ReadSpeaker— también se ven afectados por la proliferación descontrolada de las voces basadas en IA desarrolladas de manera no ética. Desarrollar voces basadas en IA de forma ética conlleva tiempo, dinero y mucha atención.

Las empresas que no respetan las reglas del juego toman la delantera de forma injusta, perjudican a los locutores y, posiblemente, también a los clientes a los que los actores de voz ofrecen sus servicios.

3. Usuarios de la tecnología TTS

Los usuarios de la tecnología TTS son las empresas que integran la voz digital en su contenido para que los consumidores puedan disponer de ella. Las empresas pueden usar las voces basadas en IA para mejorar la accesibilidad digital, crear contenido de e-learning, informar del retraso de un tren o fomentar el uso de un asistente virtual, por mencionar algunos ejemplos.

No importa cómo decida usarla, la voz basada en IA se convertirá en parte de la identidad de su marca. Imagine el daño que le causaría que una voz exactamente igual a la de su marca se usara para contenidos ilegales o ilícitos. Es posible que incluso se exponga a acciones legales si su proveedor incumplió las normas éticas en las fases previas.

Las denuncias relacionadas con cuestiones éticas, tanto previas como posteriores, no son simples conjeturas. Hay personas que están actuando en ambos lados sin ética alguna.

En ReadSpeaker trabajamos de otra forma. La ética es para nosotros el componente clave de todas las decisiones que tomamos.

Así es como nosotros creamos las voces basadas en IA y protegemos al mismo tiempo a las partes implicadas en el proceso, y es lo que también recomendamos que hagan otras empresas del sector.

El objetivo de ReadSpeaker es proporcionar voces TTS realistas, así como evitar cualquier tipo de abuso o perjuicio que pueda afectar a nuestro trabajo.

Pautas éticas de ReadSpeaker para proveedores de voz de IA.

1. Crear una base de datos propia para entrenar la herramienta

Para entrenar sus propios modelos de voces basadas en IA, no debe utilizar nunca grabaciones de voz sin el consentimiento del orador, de su representante legal o del titular de los derechos de propiedad intelectual. Además, es posible que también necesite la aprobación de otras personas, como los ingenieros de sonido o los entrenadores vocales. Recuerde que no puede conseguir estos datos de cualquier manera ni de cualquier fuente.

Si quiere ofrecer un producto de calidad y ético, lo mejor que puede hacer es crear su propia base de datos con grabaciones de voz originales. Así todas las partes implicadas en el proceso tienen la posibilidad de llegar a un acuerdo sobre los usos permitidos para la voz basada en IA que esté creando. Como veremos más adelante, este paso es fundamental para protegerse en el futuro.

2. Firmar siempre contratos con los locutores

Los contratos sirven para que todas las partes tengan bien claro lo que pueden esperar de la colaboración. Son esenciales para proteger los derechos de los locutores. Sin locutores no hay voces digitales, lo que confiere a esta regla un carácter práctico y ético.

Los contratos relativos a las voces pueden y deben incluir cláusulas de exclusión para los conflictos de intereses. Si, por ejemplo, un locutor trabaja mucho para la radio, es probable que no se quiera usar su voz digital para las cuñas publicitarias. Este contrato previo sirve para garantizar la protección posterior.

3. Firmar siempre contratos con los usuarios de las voces basadas en IA

Los contratos con los locutores estipulan los usos autorizados de una voz basada en IA. Los contratos con los usuarios de las voces basadas en IA —los clientes de los proveedores de herramientas TTS— velan por el cumplimiento de los usos permitidos.

Las empresas que utilizan las voces basadas en IA también necesitan protección, ya que ninguna empresa quiere que un elemento de su marca pueda aparecer en cualquier parte. Este contrato posterior sirve para establecer las normas de forma definitiva y evitar que las partes sufran perjuicios.

Los contratos previos y posteriores sirven para explicar nuestra siguiente pauta.

4. Controlar la implementación de la voz basada en IA

Los proveedores de herramientas TTS deben responsabilizarse de garantizar que las voces basadas en IA solo se usen en los canales autorizados. Su cometido no acaba cuando se crea la voz, ya que también deben controlar los sistemas mediante los que se distribuyen sus voces.

Es la única manera que tienen de cumplir los contratos. Si alguna de sus voces acaba en las manos equivocadas, no podrá impedir que se utilice de forma indebida.

En otras palabras, debe proteger su tecnología. En ReadSpeaker, es tecnológicamente imposible que alguien que no tenga un contrato con nosotros pueda usar nuestras voces.

Recomendamos a todos los proveedores de voces basadas en IA que sigan nuestro ejemplo para proteger a los locutores, a los usuarios de las herramientas TTS y a toda la sociedad.

5. Crear un modelo de negocio basado en la conducta ética y no al revés

Para algunos modelos de negocio de la industria de voces basadas en IA es difícil cumplir las cuatro pautas anteriores. Pero si no puede proteger a sus proveedores ni a sus clientes, es mejor que revise sus herramientas antes de lanzarlas al mercado. Y esto es algo que se puede aplicar a cualquier tipo de empresa.

No basta con indicar las advertencias o las condiciones de uso del servicio ni con pedir a los usuarios que no se extralimiten con los programas generativos de voces basadas en IA. La protección frente al uso abusivo debe integrarse en la propia tecnología. En el caso de las plataformas de voz de autoservicio, se pueden usar marcas de agua digitales, rechazar automáticamente las voces de personas famosas y facilitar canales para informar de las infracciones.

No obstante, lo mejor que se puede hacer en primer lugar es impedir el libre acceso a los sistemas generativos de voces basadas en IA. No existe otra forma de proteger a las partes, incluida la sociedad en su conjunto.

Ética de la IA en ReadSpeaker: cómo se complementan entre sí la seguridad y la calidad

Estas pautas se basan en la metodología de trabajo que tenemos en ReadSpeaker. Somos líderes en la tecnología de síntesis de voz desde hace más de dos décadas, y fuimos de los primeros en ofrecer voces comerciales basadas en IA.

Desde el principio aplicamos procedimientos éticos y firmamos los contratos pertinentes para desarrollar los programas de síntesis de voz basada en IA. Esta forma de trabajar nos convirtió en una empresa de confianza no solo para nuestros clientes, sino también entre la comunidad de locutores.

Estamos orgullosos de que se nos conozca por ser una empresa de tecnología TTS que trata bien a los locutores, ya que esta reputación nos ha permitido trabajar en proyectos fantásticos. Por ejemplo, en 2022 trabajamos con el actor Giancarlo Esposito para crear una voz exclusiva para Sonos Voice Control, el asistente virtual de Sonos.

Este es tan solo un ejemplo de cómo un negocio con buenas prácticas éticas se traduce en un buen negocio con ReadSpeaker.

Nuestro código ético también nos ayuda a desarrollar voces basadas en IA de mayor calidad. Creamos nuestra propia base de datos con la que entrenamos nuestras herramientas para proteger los derechos de las partes, sí, pero también lo hacemos para conseguir un producto mejor.

Todas las voces neuronales TTS de ReadSpeaker empiezan con un proceso complejo de grabación de la voz que incluye:

  • guiones TTS personalizados;
  • a los mejores locutores profesionales;
  • asesoramiento vocal con expertos;
  • estudios profesionales;
  • edición cuidada.

No es un proceso rápido, pero es el que nos ayuda a proteger los derechos de los locutores y a crear las mejores voces basadas en IA. En ReadSpeaker, ética y calidad van de la mano.

Recomendamos a todos los proveedores de herramientas TTS que adopten un código ético como el nuestro para que comprueben por sí mismos los beneficios que puede generar.

Related articles
Comience a usar text-to-speech hoy

Haga sus productos más atractivos con nuestras soluciones de lectura en voz alta.

Contáctenos