← Retour aux études
POC No. 02/MM-RAG multimodal

MM-RAG : recommandation de tenues par image, avec prix et liens.

StyleAnalyzer MM-RAG

Le challenge

Construire un système d'analyse stylistique + un MM-RAG qui recommande des tenues similaires à une image uploadée, avec prix et liens marchands.

  • Mettre à jour facilement le jeu de données, sans relancer un entraînement de modèle.
  • Modèle de vision dédié au RAG, précis pour recommander des tenues.
  • Second modèle vision dédié à l'analyse stylistique, type Pixtral de Mistral.

Résultats & évaluation

  • Pas besoin de reranker — 100 % de précision dans la reconnaissance des vêtements (dataset des tenues de Taylor Swift) grâce à ConvNeXt-Tiny (2022). Les modèles plus anciens en étaient incapables.
  • Analyse stylistique poussée, reconnaissance des matières et des formes des tenues grâce à Pixtral Large de Mistral.
  • Mise à jour facile des données, car pas d'entraînement requis. Il suffit d'ajouter une tenue dans le jeu de données.
  • Latence correcte (10–15 secondes) pour la recherche MM-RAG combinée à l'analyse stylistique Pixtral.
Monitoring LangSmith
Monitoring dans LangSmith
Restons en contact/LinkedIn

Un projet multimodal ? On en parle sur LinkedIn.

13K+ abonnés
in / julien-lucas-jl

3 à 4 posts par semaine. Tout ce que j'apprends, pendant que je l'apprends.

Recaps de papiers récents en français, techniques RAG / agents / fine-tuning que je teste sur mes produits, et coulisses de Whatsapp IA et LeadFlow en prod. Si l'IA appliquée t'intéresse, c'est l'endroit.

Recaps de papiersRAGAgents IAFine-tuningCoulisses produits
Voir mon LinkedIn

Tu préfères m'écrire ? julienlucas84@gmail.com