l'IA pour un contenu accessible à tous

Publié le 1 nov. 2024

Le 10 octobre, nous avons eu un contenu remarquable, notamment une table ronde avec des fonctionnaires d'Amérique latine parlant d'innovation municipale. Les intervenants s'exprimaient tous en espagnol. Comment pouvions-nous partager cela avec notre public mondial ?

Nous avons évalué plusieurs produits prometteurs et avons finalement trouvé celui qui fonctionnait bien. Voici les critères que nous avons pris en compte :

  • Quelle est la précision de la traduction ?

  • La voix doublée utilise-t-elle un échantillon de la voix originale de l'orateur pour conserver sa sonorité ?

  • La vidéo est-elle accélérée/ralentie lorsque la traduction est plus longue ou plus courte que les mots originaux ?

  • Le visage est-il modifié pour synchroniser les mouvements des lèvres avec les syllabes et les phonèmes ?

  • Est-ce fait en temps réel ou nécessite-t-il un pré-enregistrement et un traitement ultérieur ?

Rebecca Croll, responsable du contenu, a effectué tous les tests nécessaires sur plusieurs produits. En fin de compte, le traitement en temps réel et l'édition faciale sont encore des technologies "bêta" - mais les autres critères sont facilement atteints.

Nous avons constaté que les résultats étaient incomparablement meilleurs (et moins chers) que la traduction humaine, principalement parce qu'ils conservent la voix et l'intonation de l'orateur, et rythment la vidéo d'une manière qu'un traducteur humain ne peut pas reproduire. Nous sommes navrés de le dire, mais les traducteurs sont désormais comme les allumeurs de réverbères pour le travail qui n'implique pas l'interprétation du langage corporel et des nuances humaines. Vous auriez toujours besoin d'un traducteur pour des situations comme les négociations.

Les traductions automatiques (vers l'anglais) ont ensuite été traduites en français en temps réel (sans la voix de l'orateur original) sur notre plateforme événementielle.

Cette expérience nous a laissé avec des questions importantes :

  • Qu'est-ce que cela signifie pour le travail et la dignité humaine ? 

  • Les résultats sont impossibles à ignorer. De nombreux autres emplois connaîtront cette transformation dans les prochaines années. Cette semaine même, Kevin Weil, directeur des produits d'OpenAI, a déclaré que les produits de son entreprise pouvaient effectuer "8 heures de travail juridique à 1 000 dollars de l'heure" pour 3 dollars en jetons. Une réduction des coûts par 2,666x n'est pas quelque chose que nous pouvons simplement contourner par "la montée en compétences et la reconversion".

  • Nous avons besoin de réponses économiques significatives sur la façon de distribuer les bénéfices des gains de productivité qu'apportera l'IA générative.

  • La traduction avec synchronisation labiale sera le coup de grâce pour la traduction humaine une fois qu'elle fonctionnera bien, car elle facilite grandement le suivi d'un orateur lorsque ses lèvres correspondent aux sons. Il n'est pas encore certain que ce soit suffisamment précis pour les lecteurs sur les lèvres.

  • Certains de ces outils prennent également en charge les fichiers de sous-titres .srt, permettant à un humain de vérifier plus facilement les traductions ligne par ligne (nous l'avons fait).

Pour accéder à cette présentation, connectez-vous à la plateforme, ou inscrivez-vous si ce n'est pas déjà fait, puis choisissez "Replay" dans le menu de gauche.

Session

L'un des aspects que nous apprécions dans l'organisation de FWD50, c'est la possibilité d'expérimenter de nouvelles technologies comme celle-ci. Il y a tellement d'innovations possibles dans le domaine des événements lorsque nous expérimentons avec les technologies émergentes.