Nouvelles Du Monde

EchoSpeech, les lunettes qui ‘lisent’ sur les lèvres

EchoSpeech, les lunettes qui ‘lisent’ sur les lèvres

Le chercheur Ruidong Zhang a construit EchoSpeech, des lunettes améliorées par l’IA qui peuvent traduire les lèvres en texte sur les smartphones

On pourrait croire que Ruidong Zhang parle tout seul, mais en fait le doctorant en sciences de l’information « parle » avec ses lunettes, pour retranscrire un texte sur son smartphone.

Ruidong Zhang, chercheur et inventeur d’EchoSpeech

Le garçon a inventé le soi-disant EchoSpeech qui, comme son nom l’indique, peut écouter le discours du porteur ou d’une personne devant lui, mais à voix basse. Leur utilisation ? Créer une nouvelle interface entre l’homme et la technologie, également pour éliminer les barrières et favoriser l’accessibilité. Sviluppato dallo Laboratoire d’interfaces informatiques intelligentes pour les interactions futures (SciFi) de l’Université Cornell, l’interface portable à faible consommation ne nécessite que quelques minutes de données de formation de l’utilisateur avant de reconnaître les commandes et de pouvoir être exécutée sur un smartphone. Zhang est l’auteur principal de l’étude EchoSpeech : Reconnaissance vocale silencieuse continue sur des lunettes peu gênantes alimentée par la détection acoustiquequi sera présenté plus tard ce mois-ci lors de la conférence de l’Association for Computing Machinery sur les facteurs humains dans les systèmes informatiques (CHI) à Hambourg, en Allemagne.

« Pour les personnes qui ne peuvent pas vocaliser le son, cette technologie de parole silencieuse pourrait être une excellente entrée pour un synthétiseur vocal. Cela pourrait redonner la parole aux patients », a déclaré Zhang.

Dans sa forme actuelle, EchoSpeech pourrait être utilisé pour communiquer avec d’autres via un smartphone dans des endroits où parler est inconfortable ou inapproprié, comme un restaurant bruyant ou une bibliothèque. L’interface vocale silencieuse peut également être associée à un stylet et utilisée avec un logiciel de conception tel que la CAO, éliminant ainsi le besoin d’un clavier et d’une souris.

Lire aussi  Pourquoi les cheveux gris apparaissent-ils ?

Comment fonctionne EchoSpeech

Équipées d’une paire de microphones et de haut-parleurs plus petits que des gommes à crayons, les lunettes EchoSpeech deviennent un système de sonar portable alimenté par l’IA qui envoie et reçoit des ondes sonores sur le visage et détecte les mouvements de la bouche. Un algorithme d’apprentissage en profondeur, également développé par les chercheurs du SciFi Lab, analyse ensuite ces profils d’écho en temps réel, avec une précision d’environ 95 %.

“Nous déplaçons le sonar vers le corps”, a-t-il déclaré Ceng Zhang , professeur adjoint de sciences de l’information au Cornell Ann S. Bowers College of Computing and Information Science et directeur du SciFi Lab. “Nous sommes très enthousiasmés par ce système”, a-t-il déclaré, “car il fait vraiment avancer le domaine en termes de performances et de confidentialité. Il est petit, à faible consommation d’énergie et respectueux de la vie privée, ce qui est important pour la mise en œuvre de nouvelles technologies portables dans le monde réel.”

Le SciFi Lab a développé plusieurs appareils portables qui suivent les mouvements du corps , des mains e du visage en utilisant l’apprentissage automatique et des caméras portables miniatures. Récemment, le laboratoire s’est éloigné des caméras et s’est tourné vers la détection acoustique pour suivre les mouvements du visage et du corps, citant une durée de vie plus longue de la batterie ; une sécurité et une confidentialité accrues ; et un matériel plus petit et plus compact. EchoSpeech est basé sur le dispositif de détection acoustique, déjà développé par le laboratoire, et appelé EarIOun casque portable qui suit vos mouvements faciaux.

Lire aussi  Polestar, concurrent de Tesla, prévoit de lancer un smartphone Android en collaboration avec Meizu

À ce jour, la plupart des technologies de reconnaissance vocale se limitent à un ensemble sélectionné de commandes prédéterminées et obligent l’utilisateur à faire face ou à porter une caméra, ce qui n’est ni pratique ni faisable. Il existe également de gros problèmes de confidentialité entourant les caméras portables, à la fois pour l’utilisateur et pour ceux avec qui l’utilisateur interagit.

La technologie de détection acoustique telle qu’EchoSpeech élimine le besoin de tels appareils, car les données audio sont beaucoup plus petites que les données d’image ou vidéo, nécessitent moins de bande passante de traitement et peuvent être transmises à un smartphone via Bluetooth en temps réel.

“Et parce que les données sont traitées localement sur les smartphones au lieu d’être téléchargées sur le cloud, les informations sensibles ne vous quittent jamais.”

L’autonomie de la batterie s’améliore également de manière exponentielle, dix heures avec détection acoustique contre 30 minutes avec une caméra. L’équipe explore la commercialisation de la technologie derrière EchoSpeech, en partie grâce à Ignite: Cornell Research Lab to Market gap financement.

Lire aussi  Un expert révèle combien de temps dure réellement une pompe à chaleur

Dans les prochains travaux, les chercheurs du SciFi Lab exploreront des applications de verre intelligent pour suivre les mouvements du visage, des yeux et du haut du corps.

“Nous pensons que les lunettes seront une plate-forme informatique personnelle importante pour comprendre les activités humaines dans les environnements quotidiens”, a déclaré Cheng Zhang.

Les autres co-auteurs sont le doctorant en sciences de l’information Ke Li, Yihong Hao, Yufan Wang et Zhengnan Lai.

Reproduction réservée © (Article protégé par le droit d’auteur)

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT