Computer Vision | Adaly

Choisissez l’excellence pour votre modèle de Computer Vision

Nous développons et entrainons des modèles de vision par ordinateur sur mesure pour votre produit ou votre besoin métier, à partir de modèles à l’état de l’art de la recherche scientifique.
Démarrer la discussion

Notre expertise Computer Vision au service de votre projet

Les ingénieurs IA d’Adaly développent, entraînent et déploient des modèles de deep learning issus des avancées les plus récentes de la recherche en Computer Vision. Grâce à une solide formation académique et à des compétences variées en mathématiques, en deep learning ou en informatique, ils peuvent mener une phase de recherche scientifique complexe et mettre au point une architecture sur mesure pour votre besoin.
Les meilleures performances en Computer Vision sont aujourd'hui obtenues grâce à des modèles de deep learning pré-entraînés, comme les classificateurs ResNet, le modèle de détection YOLO ou le modèle de segmentation SAM. Nous sélectionnons le modèle le plus adapté à votre produit ou à votre besoin métier, nous adaptons son architecture à vos contraintes, et nous le ré-entrainons sur vos données par fine-tuning afin d’atteindre les plus hauts niveaux de performance.
Votre modèle de vision doit être intégré à l’une de vos applications métier ? Il doit pouvoir être appelé régulièrement par des centaines ou des milliers d’utilisateurs, avec des coûts d’hébergement optimisés ? Il doit être redimensionné et intégré à un système embarqué dont la puissance de calcul est limitée ? Adaly vous accompagne sur toute la chaîne de votre projet, grâce à des ingénieurs logiciels full-stack habitués aux challenges de l’intégration ou du déploiement d’un modèle d’IA.

Qu’est-ce que la Computer Vision ?
Quelles applications ?

L’expression Vision par ordinateur - ou Computer Vision - désigne un ensemble de programmes informatiques, appelés « modèles de vision », conçus pour effectuer des tâches d’analyse et d’interprétation de données visuelles telles que des images ou des vidéos. Un modèle de vision est conçu et entraîné pour effectuer une tâche spécifique. Quelques exemples de tâches, dans le domaine spécifique de l’analyse d’images :
undefined
La détection d'objets consiste à identifier et à localiser automatiquement un objet dans une image. La détection donne une information souvent plus précise que la classification : elle permet de générer un cadre englobant - une bounding box - autour de l’objet détecté. Cette information positionnelle a une importance dans certaines applications, comme la surveillance vidéo ou le tracking de produits en magasin.
La segmentation sémantique consiste à attribuer automatiquement une catégorie de zone - ou masque - à chaque pixel d'une image, et ainsi d’en délimiter très précisément les différentes régions. Un modèle de segmentation est particulièrement utile pour certaines applications comme la cartographie détaillée dans les systèmes de navigation ou la distinction fine entre différents tissus dans les applications médicales.
undefined
L’Image Captioning est une tâche qui consiste à générer automatiquement une description textuelle d’une image, ce qui nécessite de combiner la vision par ordinateur avec le traitement du langage naturel. Un modèle d’Image Captioning entraîné peut non seulement identifier les éléments visuels présents dans une image, mais aussi les décrire de manière cohérente et contextuellement appropriée.
undefined
Le Visual Question Answering est une tâche qui consiste répondre automatiquement à une question posée sur une image, ce qui nécessite là encore de combiner la vision par ordinateur avec le traitement du langage naturel. Un modèle de Visual Question Answering peut permettre, dans certains contextes et grâce à des questions ciblées, d’extraire des informations plus précises que celles que l’on obtiendrait avec un modèle d’Image Captioning.

Histoire de client

Des modèles de vision sur mesure pour le robot YOMY
Besoin produit
La société YOMY a contacté Adaly afin de concevoir l’IA embarquée du robot YOMY, un distributeur connecté de croquettes et de pâté pour chats. Equipé d’une caméra embarquée, ce robot devait être capable de détecter la présence d’un chat dans son flux vidéo, mais aussi de différencier plusieurs chats d’un même foyer, afin de rendre possible une alimentation différenciée et suivie par l’utilisateur depuis une application mobile, élément essentiel de la proposition de valeur de notre client.
Recherche et développement
Adaly a conçu et développé des modèles de vision adaptés au besoin, après une phase approfondie de recherche scientifique et de préparation des données. Sur la base d’architectures à la pointe de la recherche scientifique et en combinant plusieurs approches telles que les réseaux siamois, les chaînes de modèles ou le fine-tuning, nous avons développé un modèle capable de différencier plusieurs chats d’un même foyer avec un taux de précision dépassant les attentes de YOMY.
Enjeux de déploiement
Afin de tenir compte des contraintes du matériel embarqué dans le robot - microprocesseur et mémoire en particulier -, nous avons collaboré étroitement avec le prestataire de YOMY en charge de sa fabrication, afin de dimensionner nos modèles et d’optimiser leur précision et leur temps d’inférence en embarqué.
16 MB
C’est la taille du modèle après quantization (minimisée pour l’embarquement).
96 %
C’est la précision du modèle en embarqué (maximisée).
350 ms
C’est le temps d’inférence du modèle en embarqué (minimisé).

Nos technologies

TensorFlow
TensorFlow
PyTorch
PyTorch
OpenCV
OpenCV
Tesseract OCR
Tesseract OCR
Segment Anything
Segment Anything
GPT-4
GPT-4

Nos experts Computer Vision

Benjamin Drighès
Benjamin Drighès
École polytechnique
Alexis Bouley
Alexis Bouley
École polytechnique
Guillaume Faugeras
Guillaume Faugeras
Centrale Lille
Louis Rose
Louis Rose
Télécom Paris, ENSTA
Voir toute l'équipe

Discutons de votre projet

Vous avez un projet ? Nous serions ravis de discuter de vos besoins et de vous aider à le concrétiser.
Démarrer la discussion