Project Astra : un assistant plus qu’une nouvelle IA génératrice
Project Astra représente la prochaine étape de l’intelligence artificielle chez Google. Contrairement à Siri et Alexa qui n’ont jamais réussi à être des assistants vraiment utiles, Google et d’autres entreprises sont convaincus que la nouvelle génération de robots sera efficace. De nombreux articles compare le Project Astra au IA génératrice comme ChatGPT, cependant à mes yeux il s’agit d’une nouvelle couche IA, dont l’objectif est d’obtenir une interface plus humaine avec l’IA.
C’est à dire qu’elle utilise des IA comme Gemini, mais agit plus comme un orchestrateur entre les différents éléments (image, vidéo, audio …) et les IA génératrice. A mes yeux, il ne s’agit pas d’un concurrent à ChatGPT, comme on peut le lire, mais d’une nouvelle utilisation plus humaine de l’IA. Cela n’empêche pas OpenAI de s’intéresser également à ce sujet, on parle d’IA multimodale.
Demis Hassabis, à la tête de Google DeepMind et leader des efforts en IA chez Google, a longtemps nourri cette vision. Il imagine un assistant universel, multimodal, toujours présent pour répondre à nos besoins. Il a été présenté récemment lors des différences annonces de la conférence Google I/O 2024.
Project Astra est une première version d’un assistant d’un nouveau genre. Il s’agit d’un assistant IA en temps réel, capable de percevoir le monde, d’identifier des objets et de répondre à diverses requêtes de manière conversationnelle.
A lire : Google repense son moteur de recherche pour intégrer l’IA
Project Astra est un assistant plus qu’une nouvelle IA génératrice
Project Astra n’est qu’une des nombreuses annonces faites lors l’événement Google I/O 2024 du 14 mai. Parmi les autres nouveautés, on trouve Gemini 1.5 Flash, plus rapide pour certaines tâches courantes, et Veo, capable de générer des vidéos à partir de textes. Google progresse rapidement dans le développement de ces modèles et dans leur mise à disposition pour les utilisateurs.
Hassabis estime que l’avenir de l’IA réside dans ce que ces modèles peuvent accomplir pour nous. Il envisage des agents numériques capables non seulement de communiquer, mais aussi d’accomplir des tâches à notre place, qu’ils soient simples outils ou véritables collaborateurs.
Pour Hassabis, Project Astra représente une avancée significative vers la réalisation de cet objectif. En effet, lorsque la dernière version de Gemini Pro a été finalisée, il a été convaincu que la technologie sous-jacente était prête pour un tel produit. Toutefois, il souligne que le modèle seul ne suffit pas ; il a fallu également optimiser l’ensemble de l’infrastructure pour garantir une utilisation fluide à grande échelle, une tâche dans laquelle Google excelle.
L’objectif, une utilisation plus humaine d’utiliser l’IA avec le Project Astra
De nombreuses annonces concernant l’intelligence artificielle de Google lors de la conférence I/O visent à offrir davantage de fonctionnalités et des moyens plus simples d’utiliser Gemini. Par exemple, Gemini Live est un nouvel assistant vocal qui permet des échanges fluides avec le modèle, tandis qu’une nouvelle fonctionnalité dans Google Lens autorise la recherche web via des vidéos. Ces avancées sont rendues possibles par la grande capacité de contexte de Gemini, essentielle pour une interaction naturelle avec votre assistant.
À propos de cela, OpenAI partage cet avis, comme en témoigne son produit similaire à Gemini Live présenté peu après notre conversation avec Hassabis. Les deux sociétés rivalisent de plus en plus sur le même terrain, partageant une vision sur le potentiel de l’IA pour transformer nos vies.
Quant à la manière dont ces assistants fonctionneront concrètement et comment nous les utiliserons, cela reste encore incertain. Actuellement, Google se concentre sur la planification de voyages, avec un outil utilisant Gemini pour créer des itinéraires que vous pouvez ajuster avec l’aide de votre assistant.
Les demonstrations du prototype Project Astra
Lors de la conférence Google I/O 2024, une démonstration des capacités du Project Astra a été faite. Une personne filme avec son téléphone et pose en même temps des questions à Astra sur son environnement.
Project Astra répond avec succès à différentes questions sur les objets filmés et leur utilité. La personne s’arrête devant un écran avec du code et demande une explication sur le code affiché, Astra explique l’objectif du code et les technologies utilisées. La personne filme également l’extérieur et demande à l’IA ce qu’est la bâtiment voisin, Project Astra répond qu’il s’agit de la gare de train de Londres.
Tout au long de l’échange avec Astra, la caméra a enregistré l’environnement. La personne pose alors la question « Te souviens-tu où se trouve mes lunettes ? » alors qu’elle ne sont pas présentes sur l’image en cours. Là aussi, le Project Astra répond et se souvient avoir vu des lunettes au début l’enregistrement vidéo. Il indique alors où se trouve les lunettes. Ce qui illustre la capacité de mémoire. Bien sûr tout ceci reste une démonstration, mais il illustre assez bien l’avenir de tel assistant.
Le Project Astra offre une perspective sur la convergence des assistants et de l’IA
Il y aura certainement d’autres fonctionnalités à venir. Hassabis envisage les téléphones et les lunettes comme des dispositifs clés pour ces assistants, mais il souligne également la possibilité d’explorer de nouvelles formes de dispositifs.
Project Astra, encore au stade de prototype précoce, ne représente qu’une approche parmi d’autres pour interagir avec un système comme Gemini. L’équipe de DeepMind explore toujours les meilleures façons d’intégrer des modèles multimodaux et de trouver l’équilibre entre des modèles généraux de grande envergure et des modèles plus spécialisés.
Nous sommes actuellement dans une phase où chaque avancée compte dans le domaine de l’IA, mais selon Hassabis, nous nous rapprochons rapidement d’une période où les questions posées évolueront. Des questions plus pertinentes sur ce que ces assistants peuvent accomplir, comment ils le font, et comment ils peuvent réellement améliorer notre quotidien. Bien que la technologie ne soit pas encore parfaite, elle progresse à pas de géant.
Source : Google Keynote
Si vous appréciez nos articles, ne manquez les prochains en vous abonnant à Cosmo Games sur Google News, vous pouvez également nous suivre sur X (ex Twitter). N'hésitez pas à partager vos réactions, commentaires ou remarques dans les commentaires, afin d'enrichir le contenu, de mieux vous comprendre et intégrer les différents points de vue.