Logo   Information, Signal, Images et ViSion C.N.R.S.   GdR   M.E.S.R.

 / Accueil / Intranet 
Calendrier des Réunions[ Liste | Calendrier ] [ Proposer une Réunion ]
26 novembre 2009 de 9H à 18H
ISIS: Thème B - Image et Vision
ISIS: - Indexation et Recherche d’Information Multimédia
organise
B : « Indexation scalable et cross-media » Journée GDR-ISIS avec un tutoriel invité EURASIP
Telecom Paris-Tech - C130
Compte-Rendu : http://bib.gdr-isis.org/secure/00005734/01/CompteRendu.pdf
Organisateurs
QUENOT GeorgesBENOIS-PINEAU JennyCORD Matthieu
Annonce

Journée organisée avec le soutien de l’EURASIP et du GdR-ISIS

Indexation scalable et cross-media
Date : 26 novembre 2009 / 9 h 45
Lieu : Telecom Paris-Tech - 46 rue Barrault - 75013 Paris / Salle C130
Organisateurs : Georges QUENOT, Jenny BENOIS-PINEAU, Matthieu CORD, Hervé BREDIN
Tutoriel invité sponsorisé par EURASIP

10h00 : Introduction

10h15-11h00 : Tutoriel invité EURASIP

Pr. Riccardo Leonardi (Université de Brescia, Italie) / Le Message Audio-Visuel: Structure et Emotion / The Audio-Visual Message: Structure and Emotion
11h00-11h15 : Pause

11h15-12h30 : Indexation scalable (1ère partie)

Antoine Bordes (LIP6) / Apprentissage stochastique de Machines à Vecteurs Supports pour grandes masses de données / Efficient Learning of Linear SVMs with Stochastic Gradient Descent
David Gorisse (ETIS), Frédéric Precioso (ETIS), Matthieu Cord (LIP6) / Optimisation d’une stratégie d’apprentissage interactif basée SVM pour la recherche d’images.
Joaquin Zepeda, Ewa Kijak, Christine Guillemot (IRISA) / Description locale des images utilisant les représentations parcimonieuses
12h30-14h00 : Déjeuner

14h00-15h40 : Indexation scalable (2ème partie)

Benoit Huet (Eurecom) / Réflexions de la communauté indexation multimédia sur le passage à l’échelle
Claire Morand, Jenny Benois-Pineau, Jean-Philippe Domenger (LABRI UMR 5800 Université Bordeaux1/Bordeaux2/CNRS/ENSEIRB) / Indexation scalable et basée objet des vidéos HD encodées en JPEG2000
Imane Daoudi, Khalid Idrissi (Université de Lyon, CNRS, INSA-Lyon, LIRIS, UMR5205) / Passage à l’échelle dans l’indexation et la recherche des images basées sur le contenu
Wafa Bel Haj Ali (Equipe Creative, laboratoire I3S) / Indexation video “scalable” spatio-temporelle utilisant les SMP.
15h40 - 15h55 : Pause

15h55-16h45 : Indexation cross-media

Meriem Bendris (Orange Labs, Télécom ParisTech) / Problématiques de l’indexation de personnes dans un contexte d’émission de télévision
Georges Quenot (LIG) / IRIM à TRECVID : Détection de concepts dans les plans vidéo
Résumés des exposés
Le Message Audio-Visuel: Structure et Emotion / The Audio-Visual Message: Structure and Emotion
Tutoriel soutenu par EURASIP

Professor Riccardo Leonardi (University de Brescia, Italie)

Résumé en français
Les mots-clés, les livres ou le code source contiennent des messages sémantiques précis qui transmettent la connaissance et gouvernent notre société. Les informations musicales ou vidéo sont quant à elles de bons vecteurs d’émotion. Lors de la création d’un contenu audio-visuel, le but est souvent de transmettre un fort message émotionnel. L’essence est de diriger les sensations du spectateur ou de l’auditeur dans le monde imaginaire ou la vision de la réalité du compositeur. Le mélange entre message oral et cohérence temporelle du contenu audio-visuel permet de nouvelles formes d’interactions et d’échanges d’informations.

Cette présentation décrira les composantes qui peuvent être utilisées pour modéliser les valeurs d’émotion et d’information du contenu audio-visuel. Une fois préservées, elles peuvent être réarrangées de façon optimale pour suivre instantanément les préférences de l’utilisateur pour différentes tâches comme la génération de transition ou la classification par genre.

Résumé en anglais
Keywords, books, source code convey precise semantic messages that are spreading knowledge and governing our society. Music and video information are instead good support to peoples’ emotions. In creating an audio-visual content, a goal is often to provide a strong emotional message. The essence is to steer the viewer or the listener’s sensation in the composer’s imaginary world or in his/her shaping of the reality. The mixture between the oral message and the temporal coherence of the audio-visual content enables new forms of information exchange and interaction.

This presentation will describe the components that can be used to model the emotional and information value of audio-visual content. Once preserved, these can be optimally rearranged to match instantaneous users’ preferences for diverse tasks such as skim generation or genre classification.

Apprentissage stochastique de Machines à Vecteurs Supports pour grandes masses de données / Efficient Learning of Linear SVMs with Stochastic Gradient Descent
Antoine Bordes (LIP6)

Résumé en français
L’apprentissage par descente de gradient stochastique présente des propriétés très intéressantes, en particulier quand les quantités de données à étudier sont très importantes. Dans cette présentation, nous décrivons celles-ci pour le cas de l’apprentissage de Machines à Vecteurs Supports linéaires. Nous introduisons ensuite SGDQN, un nouvel algorithme dérivé de la descente de gradient stochastique qui a gagné le PASCAL Large Scale Learning Challenge en 2008 (http://largescale.first.fraunhofer.de).

Résumé en anglais
Nowadays, a growing interest concerns efficient machine learning methods able to learn with millions of training instances and enjoy the huge and diverse available data sources.

When large scale training sets are involved, Stochastic Gradient Descent (SGD) algorithms are one of the best ways to take advantage of all the data. Indeed, when the bottleneck are the computing time and the memory usage, Bottou et al., (2008) recently established that SGD often yields the best generalization performances, in spite of being poor optimizers.

In this talk, we will first detail and discuss SGD algorithms for learning linear Support Vector Machines. Then we will detail SGD-QN (Bordes et al. 2009), a novel SGD algorithm that makes careful use of second-order information. Thanks to its design, SGD-QN iterates nearly as fast as a standard SGD but requires less iterations to achieve the same accuracy. SGD-QN won the “Wild Track” of the PASCAL Large Scale Learning Challenge (Sonnenburg et al. 2008).

Références
(Bordes et al. 2009) A. Bordes, L. Bottou, and P. Gallinari. SGD-QN: Careful quasi-Newton stochastic gradient descent. Journal of Machine Learning Research, 10:1737-1754, 2009.
(Bottou et al., 2008) L. Bottou and O. Bousquet. The tradeoffs of large scale learning. In Advances in Neural Information Processing Systems, volume 20. 2008.
(Sonnenburg et al. 2008) S. Sonnenburg, V. Franc, E. Yom-Tov, and M. Sebag. PASCAL large scale learning challenge. ICML*08 Workshop. http://largescale.first.fraunhofer.de. 2008.
Optimisation d’une stratégie d’apprentissage intéractif basée SVM pour la recherche d’images
David Gorisse (ETIS), Frédéric Precioso (ETIS), Matthieu Cord (LIP6)

On s’intéresse dans cet exposé aux systèmes interactifs de recherche d’images par le contenu (CBIR). En apprentissage statistique, l’amélioration de la recherche passe par la construction interactive de l’ensemble d’apprentissage. Cela s’inscrit dans le cadre de l’apprentissage actif. Comme cet apprentissage se fait en ligne, avec l’aide de l’utilisateur, le temps de réponse du système est une contrainte importante.

Le passage à l’échelle des méthodes de recherche d’images par similarité (détection de copies, near duplicate) a connu un formidable essor ces dernières années où de nombreuses solutions ont été proposées pour que la complexité algorithmique de la recherche soit sous linéaire par rapport à la taille de la base.

Nous proposons dans cet exposé une méthode de recherche interactive qui exploite des stratégies de recherche par similarité rapides de type LSH [Gorisse ICIP09]. Notre méthode est en mesure de réaliser très rapidement la tâche d’apprentissage actif sur de grandes bases. Nos premières expériences menées sur VOC2006 ont montré que notre approche obtenait des résultats comparables aux systèmes classiques d’apprentissage interactif tout en étant beaucoup plus rapide.

Références
[Gorisse ICIP09] Optimization on active learning strategy for object category retrieval, D. Gorisse, M. Cord, F. Precioso, http://perso-etis.ensea.fr/~davigori/publi/fastActive.pdf
Description locale des images utilisant les représentations parcimonieuses
Joaquin Zepeda, Ewa Kijak, Christine Guillemot (IRISA)

Ce travail se situe dans le contexte de recherche d’images dans de grandes bases de données, et en particulier dans le cadre des requêtes locales. Nous proposons une représentation des descripteurs SIFT permettant de bénéficier à la fois de l’efficacité de ces descripteurs locaux tout en bénéficiant d’une plus faible complexité de recherche.

Une façon de traiter ce problème a été introduite par J. Sivic et A. Zisserman et consiste à utiliser une représentation des vecteurs SIFT appelée “bag-of-features”. Dans cette approche, les vecteurs SIFT sont quantifiés, puis l’ensemble des vecteurs quantifiés est agrégé en un histogramme d’occurrence des représentants utilisés. Tous les descripteurs SIFT d’une image sont donc représentés par un unique vecteur de la dimension du nombre de représentants. Si le nombre de représentants utilisé est suffisamment grand, le vecteur résultant est creux. Cela permet de diminuer significativement la complexité de la recherche dans de grandes bases de données d’images, par le biais d’un calcul efficace du produit scalaire entre les vecteurs, en contrepartie d’une recherche approximative.

Cependant dans le cadre de requêtes locales, l’agrégation des descripteurs locaux en un histogramme unique diminue le pouvoir de discernement du système lors de la recherche.

Pour pallier ce problème, nous proposons une nouvelle approche basée sur une représentation parcimonieuse des descripteurs SIFT. Cette représentation permet de bénéficier des avantages d’une réduction de la complexité, liée à la parcimonie, tout en conservant les propriétés de description locale des descripteurs SIFT.

Réflexions de la communauté indexation multimédia sur le passage à l’échelle
Benoit Huet (Eurecom)

La croissance exponentielle de la quantité de données multimédias sur les réseaux et stockages crée de nouveaux challenges et opportunités pour les chercheurs de la communauté indexation et recherche par le contenu. De nouvelles approches doivent être développées afin de permettre d’aborder et de traiter de telles quantités d’informations. Cette thématique a été abordée lors du 1er Atelier sur l’indexation et la recherche d’information par le contenu dans de très grandes base de document multimédia organisé conjointement avec la conférence ACM Multimédia 2009 (http://wsmc09.eurecom.fr). Dans cette présentation, les principales conclusions seront exposées.

Indexation scalable et basée objet des vidéos HD encodées en JPEG2000
Claire MORAND, Jenny BENOIS-PINEAU, Jean-Philippe DOMENGER (LABRI UMR 5800 Université Bordeaux1/Bordeaux2/CNRS/ENSEIRB)

L’indexation et la recherche des contenus vidéos par objets reste un domaine difficile car l’extraction des objets d’intérêt de contenus vidéos variés, quand ni les connaissances a priori sur la nature des objets ni des données d’apprentissages ne sont pas disponibles, est un problème mal posé. Cependant, l’utilisation des objets apporte des informations sémantiques de niveau élevé qu’il est intéressant d’exploiter dans les tâches d’indexation et de recherche. Dans nos travaux, nous proposons dans un premier temps des méthodes d’extraction scalable spatio-temporelles des objets en mouvement utilisant directement les informations du flux compressé JPEG2000. Les objets peuvent être extraits aux différents niveaux de résolutions disponibles dans le flux vidéo. Dans une deuxième partie nous définissons un descripteur statistique scalable sur ces objets. Afin de mesurer les performances de nos outils, nous définissons des scenarii de requêtes scalables dans le cadre de recherches dans des bases de données. Nous comparons les résultats obtenus avec une description locale des objets utilisant les points SIFT.

Passage à l’échelle dans l’indexation et la recherche des images basées sur le contenu
Imane DAOUDI, Khalid IDRISSI (Université de Lyon, CNRS, INSA-Lyon, LIRIS, UMR5205, F-69621, France)

Les techniques d’indexation multidimensionnelles ainsi que la recherche des images fixes par le contenu font l’objet aujourd’hui de nombreux travaux de recherche. Les principales applications visées sont les moteurs de recherche basée sur le contenu. Au-delà des exigences liées à la qualité des résultats, le potentiel applicatif de ces méthodes dépend largement de leur capacité à passer à l’échelle. Les aspects du passage à l’échelle dans le contexte de la recherche d’image basée sur le contenu concernent, entre autre, la capacité de ces méthodes à traiter un grand nombre de descripteurs d’images avec, éventuellement, un grand nombre de caractéristiques (une grande dimension). Dans cet exposé, nous présentons une nouvelle méthode d’indexation multidimensionnelle basée sur l’approche approximation pour la recherche par le contenu d’images fixes. Contrairement à la plupart des index multidimensionnels, cette technique a été proposée en prenant explicitement en compte la nature des descripteurs utilisés pour représenter les images (hétérogénéité, grande dimension et grand volume). Cette méthode réduit la dimension des descripteurs à travers une méthode non linéaire, structure la base en exploitant l’approximation des régions [1],[2] pour réduire le temps d’accès, et finalement mesure la similarité à l’aide des fonctions noyaux adaptées à la nature des données.

Références
[1] I.DAOUDI et al, ‘an efficient high-dimensional indexing method for content-based image retrieval in large image databases’ In signal processing: Image Communication, volume 24, Issue10, November 2009, Pages 775-790
[2] T. Chen, M. Nakazato and T.S. Huang, Speeding up the similarity search in multimedia database, Proc. IEEE ICME (2002).
Indexation video “scalable” spatio-temporelle utilisant les SMP
Wafa Bel Haj Ali (Equipe Creative, laboratoire I3S)

Nous allons présenter une méthode de comparaison de segments video en haute définition à l’aide de descriptions statistiques multiéchelles parcimonieuses. Cette description du contenu video est à la fois spatiale et temporelle et s’appuie sur les éléments suivants : 1) une description multiéchelle et parcimonieuse du contenu par “frame” ; 2) des “patchs” locaux (SMP) obtenus en groupant spatialement et temporellement des informations cohérentes ; 3) les multiples occurrences de patchs similaires dans la video. D’après ces éléments, la description statistique globale du contenu video que nous proposons s’avère relativement robuste a des transformations géométriques et radiométriques usuelles. La comparaison de ces descriptions est réalisée de manière statistique. La dissimilitude globale proposée est une combinaison linéaire de divergences de Kullback-Leibler entre les densités de probabilité des différents types de patchs. Elle est estimée de manière non paramétrique dans le contexte des estimateurs par k plus proches voisins, autorisant ainsi la manipulation des données de haute dimension extraites. Cette méthode est destinée à comparer des segments videos courts (typiquement des groupes de 8 “frames”), étant entendu que la comparaison de segments plus longs peut-etre effectuée en combinant les dissimilitudes sur les segments constituants plus courts.

Problématiques de l’indexation de personnes dans un contexte d’émission de télévision
Meriem Bendris (Orange Labs, Télécom ParisTech)

L’indexation automatique des personnes dans un contexte d’émissions de télévision populaires a pour objectif de permettre aux utilisateurs de localiser les interventions d’une certaine personnalité dans une vidéo.

Les systèmes de reconnaissance audio-visuels de personnes visent à exploiter les deux informations complémentaires (audio et visage) afin d’améliorer les taux de bonnes reconnaissance. Plusieurs travaux existent pour la reconnaissance de visages parlant. Ces méthodes supposent qu’il n’y a qu’un seul visage parlants dans la séquence traitée.

Au passage à un contexte d’émission de télévision, plusieurs difficultés sont introduites dues au fait que les plans visuels ne sont pas synchronisés avec les séquences audio, la parole est spontanée, les interventions parfois très courtes et les visages apparaissent avec des variations de pose et d’expressions faciales … L’objectif de cet exposé est de présenter, en premier lieu les problématiques introduites par le passage au contexte de télévision pour la reconnaissance des visages parlants. En suite, dans le but de résoudre une de ces ambigüités, nous présenterons une méthode de détection de l’activité de la bouche afin de s’assurer que l’on fusionne bien la séquence de parole avec le visage parlant correspondant. Cette méthode est basée sur la détection de mouvement des lèvres en utilisant le flux optique.

IRIM à TRECVID : Détection de concepts dans les plans vidéo
Georges Quenot (LIG)

Le groupe IRIM est un consortium d’équipes françaises travaillant sur l’indexation multimédia et de recherche. Cette présentation décrit notre participation à l’édition 2009 de la tâche de détection de concepts à TRECVID. Nous avons évalué un grand nombre de descripteurs différents (sur les données de TRECVID 2008) et nous avons essayé différentes stratégies de fusion, en particulier la fusion hiérarchique et de la fusion par algorithme génétique. La meilleure soumission d’IRIM a une précision moyenne inférée de 0,1220, ce qui est nettement supérieur à la performance médiane des soumissions à cette tâche. Nous avons constaté que la fusion des scores de classification de différents types de classifieurs améliore les performances et que, même avec une faible performance individuelle, les descripteurs audio peuvent aider.

Journée organisée avec le soutien de l’EURASIP et du GdR-ISIS


Programme

I. Indexation scalable des contenus multimédis
I.1 Conférence EURASIP invitée
I.2 Exposés

II. Indexation cross-média et outils collaboratifs
II.1 Exposés

Participants (40 prévus dont 35 inscrits) :
ANGELLA Franck IW / SI / IS
BADR MehdiUMR 8051Equipes Traitement de l'Information et Systèmes
BANNOUR Hichem
BEL HAJ ALI Wafa Thème Images
BENDRIS Meriem
BENOIS-PINEAU JennyUMR 5800LABRI
BREDIN Hervé Structuration, Analyse, Modélisation de documents Vidéo et Audio
CHARBUILLET  Christophe Equipe Analyse/Synthese
CHEHATA NesrineEA 2957Image
CHETOUANI AladineEA 3043Labo de Traitement et Transport de l'Information
CHOLLET GérardUMR 5141Groupes Statistiques, Audio et Multimédia
CORD Matthieu
DE CHILLAZ Antoine
EL KHOURY Elie Structuration, Analyse, Modélisation de documents Vidéo et Audio
ESSID SlimUMR 5141Groupes Statistiques, Audio et Multimédia
Frisson Christian
GORISSE DavidUMR 8051Equipes Traitement de l'Information et Systèmes
GOSSELIN Philippe-henriUMR 8051Equipes Traitement de l'Information et Systèmes
GRAVIER Guillaume Projet METISS
HAUGEARD Jean-emmanuelUMR 8051Equipes Traitement de l'Information et Systèmes
HUET Benoit Département de Communications Multimédia
IMANE DaoudiUMR 5205Labo d'InfoRmatique en Images et Systèmes d'information
ISTRATE Dan ANASON
LAMBERT PatrickEA 3703 Labo d'Informatique, Systèmes, Traitement de l'Information et de la Connaissance
LE BONHOMME Benoît Département ARTEMIS
LECHERVY AlexisUMR 8051Equipes Traitement de l'Information et Systèmes
MORAND ClaireUMR 5800LABRI
PICARD David
QUENOT GeorgesUMR 5217Labo d'Informatique de Grenoble
SENAC Christine Structuration, Analyse, Modélisation de documents Vidéo et Audio
SMACH Fethi LE2I
THOME Nicolas
WEBER JonathanUMR 7005Labo des Sciences de l'Image, de l'Informatique et de la Télédétection
ZHAO ShujiUMR 8051Equipes Traitement de l'Information et Systèmes
ZNAIDIA Amel

© GdR ISIS - Contact