Villes et espaces intelligents

Linker Vision utilise la vision par l'IA pour optimiser les opérations urbaines

Objectif

Linker Vision fournit des solutions de vision par ordinateur centrées sur les données et optimisées pour le déploiement rapide et l'évolutivité efficace des applications de vision par l'IA, du Cloud à l'Edge. Kaoshiung, l'une des plus grandes villes de Taïwan, est l'un des clients finaux majeurs de Linker Vision. Ils ont mis en œuvre des solutions avancées de villes intelligentes à l'aide de NVIDIA Metropolis pour résoudre un problème urbain critique posé par la compartimentation des services publics. Ces infrastructures gouvernementales fragmentées rendent extrêmement difficile le partage rapide et efficace d'informations essentielles, ce qui empêche des réponses coordonnées aux problèmes qui touchent toute la ville. Linker Vision s'appuie sur la stratégie à trois ordinateurs de NVIDIA pour aider les villes à mieux comprendre les situations et à prendre des décisions proactives basées sur des données. Cette stratégie consiste à simuler des jumeaux numériques avec NVIDIA Omniverse™, à entrainer des modèles d'IA avec NVIDIA NeMo™ Curator et à déployer des agents d'IA avec les modèles d'IA de NVIDIA pour la recherche et la synthèse vidéo (VSS). Cette approche contribue également à éliminer les silos organisationnels et à jeter les bases d'une ville véritablement intelligente.

Client

Ville de Kaohsiung

Partenaire

Linker Vision

Cas d'utilisation

Vision par ordinateur / Analyse vidéo
Simulation / Modélisation / Conception

Produits

NVIDIA Metropolis
Modèle d'IA de NVIDIA pour la recherche et la synthèse vidéo
NVIDIA Omniverse Enterprise

Réduction des efforts de développement de 85 % grâce au modèle VSS pour développer des agents d'IA visuelle.

Réduction des délais de réponse de 80 %, de sorte que les services d'urgence atteignent les sites plus rapidement.

Possibilité de créer facilement des rapports d'incidents à l'aide de VLM avec plus de détails pour évaluer les risques.
Création d'une plateforme unifiée à l'aide de VLM et d'un modèle VSS pour éliminer les barrières à l'information et maximiser l'efficacité tout en minimisant le coût.

Améliorer la connaissance des situations en milieux urbains grâce aux modèles de langage visuel

La nature hautement variable et imprévisible des évènements anormaux en ville est l'une des difficultés principales à l'application de la vision par l'IA dans le domaine. Les systèmes de vision par ordinateur traditionnels sont entraînés pour détecter des objets standard tels que des voitures, des bâtiments ou des personnes. En revanche, ils ont souvent du mal à interpréter la situation dans son ensemble ou à comprendre des événements critiques, tels qu'un accident de la route, une inondation ou la chute d'un arbre.

Pour résoudre ce problème, Linker Vision utilise des VLM basés sur l'IA générative pour aller au-delà de la simple détection d'objets en interprétant les relations entre les éléments visuels et en générant des récits descriptifs de la scène. En invitant le VLM à décrire ce qui se passe, Linker Vision permet au système de fournir des explications intelligentes de scénarios complexes et aide ainsi les services d'urgence et les décideurs municipaux à mieux comprendre la situation en temps réel. Cette approche améliore considérablement la connaissance de la situation et l'efficacité de la réponse, en particulier dans les environnements urbains dynamiques et imprévisibles.

"Grâce aux innovations en matière d'IA générative et de VLM, nous visons à démontrer l'immense potentiel de la vision par l'IA dans le développement de villes intelligentes. L'intégration des technologies NVIDIA rend nos solutions plus efficaces et utiles. Cette collaboration montre comment les technologies intelligentes peuvent s'aligner sur les besoins urbains pour entrainer des changements significatifs."

Willy Kuo
, directeur de la technologie et cofondateur de Linker Vision

Comment l'analyse vidéo entraine des infrastructures urbaines plus intelligentes et connectées

Les villes sont confrontées à un problème de taille : la compartimentation des services publics. Historiquement, les différents services municipaux (service de l'eau potable, service transport et mobilité, etc.) fonctionnaient sur des systèmes isolés développés par différents intégrateurs de systèmes et fournisseurs. Cela rend extrêmement difficile la coordination de réponses rapides aux problèmes. Prenons l'exemple d'une inondation détectée par le service en charge de surveiller les crues. Ces données soient vitales pour le service des transports, car les inondations peuvent gravement perturber la circulation et la sécurité publique. Cependant, l'absence de système unifié empêchait le partage automatique et rapide de ces informations. Les différents services se retrouvaient ainsi souvent à travailler chacun de leur côté et à manquer des opportunités de réagir de façon à atténuer l'impact sur les citoyens et les infrastructures.

Pour combler cette lacune, Linker Vision a développé et déployé une plateforme intégrée de vision par IA. Celle-ci s'appuie sur le modèle d'IA de NVIDIA pour la recherche et la synthèse vidéo (VSS) pour développer des agents d'IA d'analyse vidéo capables de traiter des milliers de flux de données en direct issus de caméras dans la ville et de fournir des informations plus approfondies sur les incidents de circulation. Ces informations aident les services d'urgence à réagir rapidement et à améliorer les opérations en ville. Prenons un exemple : les agents d'IA détectent les inondations sur une artère majeure et alertent automatiquement les services municipaux appropriés ainsi que les citoyens concernés en leur fournissant des informations essentielles sur l'emplacement, l'heure de l'évènement et les mesures à prendre. La plateforme d'IA sert de base unifiée aux données en temps réel, ce qui permet d'améliorer la collaboration entre les différents services, la connaissance de la situation et la prise de décision dans l'ensemble de la ville.

La stratégie à trois ordinateurs de NVIDIA en action chez Linker Vision

Linker Vision structure sa solution de vision par l'IA pour les villes autour de la stratégie à trois ordinateurs de NVIDIA pour les étapes de simulation, d'entraînement et d'exécution.

Tout d'abord, Linker Vision convertit les images satellites et aériennes en scènes OpenUSD et crée un jumeau numérique de la ville à l'aide de NVIDIA Omniverse, exécuté sur des serveurs NVIDIA OVX™. L'entreprise utilise ensuite NVIDIA Cosmos™ pour générer diverses données vidéo synthétiques pour des scénarios complexes tels que les dommages aux infrastructures ou les inondations, afin de couvrir les cas particuliers difficiles à observer dans le monde réel.

Pour entraîner ses modèles d'IA, Linker Vision s'appuie sur NeMo Curator et nv-grounding-dino pour organiser, annoter et étiqueter les données réelles. Ces jeux de données réels et synthétiques sont utilisés pour affiner les VLM afin d'augmenter leur précision et d'obtenir de meilleures informations sur les activités urbaines complexes.

Pour le déploiement, Linker Vision fait appel au modèle VSS, qui combine les pipelines de vision de NVIDIA Metropolis à des modèles d'IA générative, notamment des VLM basés sur l'architecture NVIDIA VILA sur des serveurs NVIDIA DGX™. Les agents d'IA peuvent ainsi détecter, comprendre et réagir aux événements du monde réel en fournissant des informations pertinentes et opportunes et ainsi permettre des opérations de villes intelligentes.

Enfin, Linker Vision connecte son pipeline de vision par l'IA à un environnement de jumeau numérique en temps réel basé sur Omniverse. En intégrant les résultats de son pipeline d'analyse de vision, la société crée un centre de commande interactif au sein duquel les responsables municipaux peuvent facilement surveiller et réagir aux événements dans la ville.

Faire progresser l'IA dans le domaine des opérations urbaines

Linker Vision contribue activement au développement d'écosystèmes d'IA, en particulier dans les milieux de la gouvernance des villes intelligentes, des infrastructures basées sur l'IA et de la prise de décision autonome. À Kaohsiung, Linker Vision intègre 30 000 flux de données issus de diverses caméras, gérés sur une plateforme de jumeau numérique 3D à l'échelle de la ville. Le système est entraîné pour comprendre plus de dix domaines urbains et d'entreprise, notamment le transport, la gestion de l'eau, les soins de santé et la logistique, ainsi que plus de 300 scénarios tels que les accidents de la route, la réponse aux catastrophes, la sécurité publique et la gestion des infrastructures.

Les solutions de vision reposant sur l'IA améliorent la qualité de vie dans les villes et réduisent jusqu'à 80 % les délais de réponse aux incidents. Le travail de Linker Vision, mis en avant lors d'une récente présentation à la GTC intitulée "L'IA à l'échelle urbaine avec les jumeaux numériques", montre comment l'entreprise intègre les technologies d'IA de NVIDIA pour le traitement de l'IA en temps réel, l'entraînement de modèles à grande échelle et les applications d'IA dans plusieurs domaines dans le contexte des villes intelligentes, de l'automatisation industrielle et des écosystèmes d'IA.

Exploitez la puissance des VLM et commencez à développer grâce aux modèles d'IA de NVIDIA.

Découvrez le modèle VSS