L’offensive IA de Google : De la vidéosurveillance domestique à la dictée intelligente

Google accélère drastiquement le déploiement de ses modèles d’intelligence artificielle pour investir notre quotidien. La firme américaine décline son savoir-faire logiciel sur tous les fronts, qu’il s’agisse de sécuriser le domicile avec la nouvelle Nest Cam Indoor de troisième génération ou de repenser la prise de notes sur smartphone via une application de dictée inédite. Néanmoins, cette transition technologique se heurte encore à d’importantes barrières pratiques et géographiques.

Une caméra qui mise tout sur le logiciel La filiale domotique de Google vient de renouveler sa gamme de sécurité avec la Nest Cam Indoor 3 filaire. Plutôt que de surenchérir sur le matériel pur en intégrant un capteur 4K ou une motorisation complexe, le fabricant a fait un choix radical : parier sur Gemini. L’objectif est de transformer un simple objectif en un observateur capable de contextualiser son environnement. Le système ne se limite plus à détecter un mouvement. Il fait la distinction entre les humains et les animaux de compagnie, reconnaît les visages et identifie les véhicules. Sur le papier, les promesses sont fascinantes. L’intelligence artificielle peut notifier l’utilisateur qu’un livreur a déposé un colis à une heure précise, qu’un chat blanc a investi le canapé peu de temps après, ou décrire une personne inconnue portant un t-shirt vert et un pantalon bleu se dirigeant vers la cuisine.

L’appareil conserve un design très compact de 9,8 cm de haut, idéal pour s’intégrer discrètement dans un salon. L’écosystème logiciel reste un atout majeur, offrant une détection performante et un accès aisé aux images depuis l’application Google Home, sur mobile comme sur le Web.

Les lourdes contreparties d’un système cloud Derrière cette vitrine séduisante, la réalité d’usage justifie une évaluation globale plutôt tiède, oscillant autour de 3,2 sur 5. Le premier obstacle est géographique : l’ensemble de ces fonctionnalités avancées brille par son absence en France. Initialement promises pour le début de l’année, elles demeurent indisponibles alors que le mois de février est déjà largement dépassé.

Une telle puissance d’analyse exige de déporter le traitement des données vers les serveurs de l’entreprise, la caméra ne pouvant gérer ces calculs en local. Cette dépendance au cloud a un coût particulièrement élevé. Pour profiter des capacités de Gemini, l’utilisateur est contraint de souscrire à la formule Google Home Premium Advanced, facturée 18 € par mois ou 180 € par an. L’abonnement Standard, à 10 € par mois, est totalement amputé des fonctions d’intelligence artificielle, tandis qu’une utilisation sans abonnement réduit l’appareil au strict minimum. La grille tarifaire s’avère d’ailleurs complexe à déchiffrer pour les consommateurs.

Sur le plan matériel, l’installation manque de flexibilité. Le bras métallique n’est pas articulé, la rotule interne offre un angle d’inclinaison très restreint, et le câble USB-C de trois mètres est inamovible. Le constat est d’autant plus amer que l’appareil souffre d’une identification des bruits inopérante. Pire encore, l’absence cruelle d’un volet mécanique de confidentialité et l’impossibilité d’enregistrer sur une carte microSD imposent une confiance absolue envers le cloud de Google.

L’intelligence artificielle au service de la voix L’intégration de l’IA par Mountain View ne s’arrête évidemment pas à la maison connectée. L’entreprise a discrètement lancé Google AI Edge Eloquent, une application de dictée hors ligne disponible sur iOS. Positionnée face à des solutions comme Wispr Flow ou SuperWhisper, cette application gratuite s’appuie sur les modèles de reconnaissance vocale Gemma, directement téléchargeables sur le téléphone. L’idée est de combler le fossé entre la parole spontanée et la rédaction professionnelle.

Lors d’une prise de notes vocale, l’outil filtre automatiquement les hésitations, les tics de langage et les corrections de milieu de phrase. Une fois la dictée mise en pause, l’utilisateur obtient une prose claire et structurée. L’interface propose d’ailleurs un suivi en direct et permet d’appliquer différents formats au texte généré : points clés, style formel, résumé court ou version longue.

Un écosystème mobile en pleine structuration Les utilisateurs soucieux de la confidentialité peuvent désactiver le mode cloud pour conserver un traitement exclusivement local. À l’inverse, l’activation du cloud sollicite les modèles Gemini pour affiner davantage le nettoyage du texte. L’application se veut extrêmement personnalisable, offrant la possibilité d’importer des contacts ou du jargon spécifique depuis un compte Gmail, tout en compilant des statistiques détaillées sur la vitesse d’élocution et le volume de mots dictés.

Bien que la description initiale sur l’App Store mentionnait une intégration poussée pour Android, Google a récemment mis à jour sa fiche pour retirer ces références, annonçant plutôt l’arrivée imminente d’un clavier dédié pour iOS. Cette application expérimentale démontre la volonté de la firme de fluidifier les interactions homme-machine. Si ces outils de transcription s’imposent, ils pourraient redéfinir notre manière de communiquer sur mobile, tout comme les caméras intelligentes tentent actuellement de transformer notre rapport à la sécurité domestique.