LA NOUVELLE IA TEXT-TO-SPEECH DE GOOGLE EST SI BONNE QUE NOUS PARIONS QUE VOUS NE POUVEZ PAS LE DIRE D'UN VRAI HUMAIN

Pouvez-vous faire la différence entre la parole informatique générée par l'IA et un être humain réel ? Peut-être que vous avez toujours pensé que vous pourriez. Peut-être que vous aimez Alexa et Siri, mais pensez que vous ne les confondrez jamais avec une vraie femme.

Les choses sont sur le point de devenir beaucoup plus intéressantes. Les ingénieurs de Google ont travaillé dur pour créer un système de synthèse vocale appelé Tacotron 2 . Selon un papier ils ont publié ce mois-ci, le système crée d'abord un spectrogramme du texte, une représentation visuelle de la façon dont le discours devrait sonner. Cette image est soumise à l'algorithme WaveNet existant de Google, qui utilise l'image pour produire une parole humaine extrêmement naturelle.

alex de la cible est gay

En utilisant cette méthode, les chercheurs rapportent : « Notre modèle atteint un score d'opinion moyen (MOS) de 4,53 comparable à un MOS de 4,58 pour un discours enregistré par des professionnels. (Un score d'opinion moyen est un terme de télécommunications qui mesure à quel point quelque chose sonne réaliste.)

Comme le démontrent les échantillons audio de Google, Tacotron 2 peut détecter à partir du contexte la différence entre le nom « désert » et le verbe « désert », ainsi que le nom « présent » et le verbe « présenter », et modifier sa prononciation en conséquence. Il peut mettre l'accent sur les mots en majuscule et appliquer la bonne inflexion lorsque vous posez une question plutôt que de faire une déclaration.

Et il peut générer un texte qui ressemble tellement à la parole humaine qu'il est difficile, voire impossible, de faire la différence. Si vous voulez voir à quel point c'est difficile, allez sur Google page d'échantillons audio , et faites défiler jusqu'à la dernière série d'échantillons, intitulée « Tacotron 2 or Human ? Vous y trouverez Tacotron 2 et une personne réelle qui prononcent chacun des phrases telles que 'Cette fille a fait une vidéo sur le rouge à lèvres Star Wars'.

ALERTE SPOILER : Pour vous tester, écoutez les échantillons et devinez lequel est lequel avant de lire le reste de cette colonne.

Alors, quels échantillons sont de la synthèse vocale et lesquels sont une vraie voix humaine ? Les ingénieurs de Google ne le disent pas, mais ils ont laissé un très gros indice. Chacun des exemples de fichier .wav a un nom de fichier contenant soit le terme « gen » ou « gt. » D'après l'article, il est hautement probable que « gen » indique la parole générée par Tacotron 2, et « gt » est la vraie parole humaine. (« GT » signifie probablement « vérité sur le terrain », un terme d'apprentissage automatique qui signifie essentiellement « la vraie affaire ».)

En supposant que cela soit correct, voici les réponses au test :