UneDose | Alexa, Comment fonctionne Siri? Contrôle vocal expliqué

Joseph Goodman
0
5132
1298

Nous pouvons parler à presque tous nos gadgets maintenant, mais comment ça marche? Quand tu demandes “Quelle est cette chanson?” ou dire “Appel maman”, un miracle de la technologie moderne se produit. Et même si on a l'impression d'être à la pointe du progrès, cette idée de parler aux appareils remonte à plusieurs décennies - presque aussi loin que les jetpacks dans la science-fiction!

Aujourd’hui, l’essentiel de l’attention accordée à l’informatique vocale s’applique aux smartphones. Apple, Amazon, Microsoft et Google sont au sommet de la chaîne, chacun offrant sa propre façon de parler à l'électronique. Vous savez qui ils sont: Siri, Alexa, Cortana et l'innommable “OK Google” étant. Ce qui soulève une grande question…

Comment un appareil prend-il des mots parlés et les transforme-t-il en commandes qu'il peut comprendre? Essentiellement, il s’agit de rechercher des modèles et de faire des prédictions basées sur ces modèles. Plus spécifiquement, la reconnaissance vocale est une tâche complexe provenant de Modélisation acoustique et Modélisation du langage.

Modélisation acoustique: formes d'onde et téléphones

La modélisation acoustique consiste à prendre une forme d'onde de la parole et à l'analyse à l'aide de modèles statistiques. La méthode la plus commune pour cela est Modélisation cachée de Markov, qui est utilisé dans ce que l'on appelle la modélisation de la prononciation pour décomposer la parole en composants appelés téléphones (à ne pas confondre avec les appareils téléphoniques réels). Microsoft est un chercheur de premier plan dans ce domaine depuis de nombreuses années..

Modélisation de Markov cachée: états de probabilité

La modélisation de Markov cachée est un modèle mathématique prédictif dans lequel l'état actuel est déterminé en analysant la sortie. Wikipedia a un bon exemple en utilisant deux amis.

Imaginez deux amis - un ami local et un ami distant - qui vivent dans des villes différentes. Un ami local veut savoir quel temps il fait là où habite Remote Friend, mais Remote Friend ne veut parler que de ce qu'il a fait ce jour-là: marcher, faire du shopping ou nettoyer. La probabilité de chaque activité en fonction de la météo du jour.

Imaginez que c'est la seule information disponible. Grâce à cela, Local Friend peut trouver des tendances dans l'évolution du temps tous les jours et, en utilisant ces tendances, elle peut commencer à faire des suppositions éclairées sur le temps qu'il fera aujourd'hui en fonction de l'activité de son amie. (Vous pouvez voir un schéma du système ci-dessus.)

Si vous voulez un exemple plus complexe, consultez cet exemple sur Matlab. En reconnaissance vocale, ce modèle compare essentiellement chaque partie de la forme d'onde à ce qui précède et à ce qui vient après, et à un dictionnaire de formes d'onde pour comprendre ce qui se dit..

Essentiellement, si vous faites un “th” son, il va vérifier ce son par rapport aux sons les plus probables qui viennent habituellement avant et après. Peut-être que cela signifie vérifier contre le “e” le son, le “à” son, et ainsi de suite. Lorsque le motif correspond correctement, il a alors votre mot entier. Ceci est une simplification excessive, mais vous pouvez voir l'explication complète de Microsoft ici.

Modélisation linguistique: plus que du son

La modélisation acoustique aide beaucoup votre ordinateur à vous comprendre, mais qu'en est-il des homonymes et des variations régionales de prononciation? C'est là qu'intervient la modélisation du langage. Google a mené de nombreuses recherches dans ce domaine, principalement grâce à l'utilisation de Modélisation N-gramme.

Lorsque Google tente de comprendre votre discours, il le fait sur la base de modèles dérivés de son immense banque de transcriptions Voice Search et YouTube. Toutes ces légendes vidéo hilarement fausses ont en fait aidé Google à faire évoluer ses dictionnaires. Ils ont également utilisé le GOOG-411 (parti) pour rassembler des informations sur la façon dont les gens parlent.

Toute cette collection de langues a créé une vaste gamme de prononciations et de dialectes, ce qui a permis de créer un dictionnaire de mots robuste et de leur sonorité. Cela permet des correspondances dont le taux d'erreur est considérablement réduit par rapport à la corrélation par force brute basée sur des probabilités brutes. Vous pouvez lire un bref article décrivant leurs méthodes ici.

Bien que Google soit un chef de file dans ce domaine, d’autres modèles mathématiques sont en cours de développement, notamment les modèles d’espace continu et les modèles de langage de position, techniques plus avancées nées de la recherche en intelligence artificielle. Ces méthodes sont basées sur la réplication du genre de raisonnement que les humains font lorsqu'ils s'écoutent. Celles-ci sont beaucoup plus avancées à la fois en termes de technologie, mais aussi en mathématiques et en programmation nécessaires pour cartographier ces modèles.

Modélisation N-Gram: La probabilité rencontre la mémoire

La modélisation N-gram fonctionne sur la base de probabilités, mais elle utilise un dictionnaire de mots existant pour créer un arbre de ramifications de possibilités, qui est ensuite lissé pour des raisons d'efficacité. D'une certaine manière, cela signifie que la modélisation par N-gramme élimine en grande partie l'incertitude inhérente à la modélisation de Markov cachée mentionnée plus haut..

Comme indiqué ci-dessus, la force de cette méthode provient d’un grand dictionnaire de mots et usage, pas seulement primitif des sons. Cela donne au programme la capacité de faire la différence entre les homophones, comme “battre” et “betterave”. C'est contextuel, ce qui signifie que lorsque vous parlez des partitions de la nuit dernière, le programme ne fait pas de commentaires sur le bortsch..

Mais ces modèles ne sont en réalité pas les meilleurs pour la langue, principalement en raison de problèmes de probabilité de mots dans des phrases plus longues. Au fur et à mesure que vous ajoutez plus de mots à une phrase, ce modèle s’efface un peu car il est peu probable que vos premiers mots contiennent tout le nécessaire pour votre pensée.

Cependant, il est simple et facile à mettre en œuvre, ce qui en fait un partenaire idéal pour une entreprise telle que Google, qui aime lancer des serveurs pour résoudre des problèmes de calcul. Vous pouvez approfondir la lecture de N-gram Modelieng à l’Université de Washington ou assister à une conférence à Coursera..

Crier sur les nuages: applications et appareils

Toute personne ayant utilisé Siri connaît la frustration d’une connexion réseau lente. En effet, vos commandes à Siri sont envoyées sur le réseau pour être décodées par Apple. Cortana pour Windows Phone nécessite également une connexion réseau pour fonctionner correctement. En revanche, l’écho d’Amazon n’est qu’un haut-parleur Bluetooth sans connexion Internet..

Pourquoi la différence? Parce que Siri et Cortana ont besoin de serveurs très lourds pour décoder votre discours. Pourrait-il être fait sur votre téléphone ou votre tablette? Bien sûr, mais vous perdriez votre performance et la vie de votre batterie en même temps. Il est plus logique de décharger le traitement sur des machines dédiées..

Pensez-y de cette façon: votre commande est une voiture coincée dans la boue. Vous pourriez probablement vous débrouiller avec suffisamment de temps et d'efforts, mais cela vous prendra des heures et vous laissera épuisé. Au lieu de cela, vous appelez l'assistance routière et ils retirent votre voiture en quelques minutes seulement. L'inconvénient est que vous devez faire l'appel et l'attendre, mais c'est toujours plus rapide et moins éprouvant.

Les modèles de bureau tels que Nuance ont tendance à utiliser des ressources locales en raison d'un matériel plus puissant. Après tout, comme le dit Steve Jobs, votre ordinateur de bureau est un camion. (Ce qui rend un peu ridicule le fait qu'OS X utilise des serveurs pour son traitement.) Ainsi, lorsque vous devez traiter le langage et la voix, il est déjà suffisamment équipé pour le gérer tout seul..

D'autre part, Android permet aux développeurs d'inclure la reconnaissance vocale hors ligne dans leurs applications. Google aime avoir une longueur d'avance sur la technologie, et vous pouvez parier que les autres plateformes acquerront cette capacité à mesure que leur matériel devient plus puissant. Personne n'aime ça quand une mauvaise couverture ou une mauvaise réception lobotomise leur appareil.

Commencez à utiliser les commandes vocales maintenant

Maintenant que vous connaissez les concepts fondamentaux, vous devriez jouer avec vos divers appareils. Essayez la nouvelle saisie vocale dans Google Docs. Comment la saisie vocale est la meilleure fonctionnalité de Google Docs. Comment la saisie vocale est la nouvelle fonctionnalité de Google Docs. La reconnaissance vocale a progressé à pas de géant ces dernières années. Plus tôt cette semaine, Google a finalement introduit la saisie vocale dans Google Docs. Mais est-ce correct? Découvrons-le! . Comme si la suite Web Office n'était pas déjà assez puissante, le contrôle vocal vous permet de dicter et de formater complètement vos documents. Cela étend la technologie puissante qu'ils ont déjà conçue pour Chrome et Android.

D'autres idées incluent la configuration de votre Mac pour l'utilisation de commandes vocales. Comment utiliser les commandes vocales sur votre Mac. Comment utiliser les commandes vocales sur votre Mac et la configuration de votre Amazon Echo avec la validation automatisée. Comment Amazon Echo peut faire de votre maison une maison intelligente Comment Amazon Echo peut Faites de votre maison une maison intelligente La technologie de la maison intelligente en est encore à ses débuts, mais un nouveau produit d'Amazon appelé "Echo" pourrait aider à l'intégrer dans le grand public. . Vivez l'avenir et adorez parler à vos gadgets, même si vous ne faites que commander davantage d'essuie-tout. Si vous êtes un passionné de smartphones, nous avons également des tutoriels pour Siri. 8 choses que vous n'avez probablement pas réalisées Siri pourrait faire 8 choses que vous n'avez probablement pas réalisées. Siri pourrait le faire Siri est devenu l'une des caractéristiques déterminantes de l'iPhone. beaucoup de gens, ce n'est pas toujours le plus utile. Cela est dû en partie aux limitations de la reconnaissance vocale, mais il est inhabituel d'utiliser… Cortana 6 choses les plus cool que vous puissiez contrôler avec Cortana dans Windows 10 6 choses les plus cool que vous pouvez contrôler avec Cortana dans Windows 10 Cortana peut vous aider à passer des mains libres sous Windows 10. Vous pouvez lui permettre de rechercher vos fichiers et sur le Web, de faire des calculs ou de consulter les prévisions météorologiques. Nous couvrons ici certaines de ses compétences plus cool. , et Android OK, Google: 20 choses utiles à dire sur votre téléphone Android OK, Google: 20 choses utiles à dire sur votre téléphone Android. L'Assistant Google peut vous aider à faire beaucoup de choses sur votre téléphone. Voici quelques commandes OK mais simples mais utiles à essayer.. .

Quelle est votre utilisation préférée du contrôle vocal? Faites le nous savoir dans les commentaires.

Crédits d'image: T-flex via Shutterstock, Terencehonles via Wikimedia Foundation, État de l'Arizona, Cienpies Design via Shutterstock