Mercredi 9 octobre
Amphi IRD – Rue du carbone — Université d’Orléans
=============== Programme ===============
9h30 -10h15 : Explainable Artificial Intelligence approaches for Image Captioning
Sofiane Elguendouze (LIFO/ Université d’Orléans, PRISME/INSA CVL)
10h30 – 11h15 : Deep neural Network for quantification of mineral phases in material samples from X-ray diffraction patterns
Titouan Simonnet (IDP/Université d’Orléans, BRGM)
11h15 – 12h00 : Features Leverage in Graph Models for Mineral Prospectivity Mapping
Thi-Hai-Yen Vu (LIFO/Université d’Orléans, BRGM)
13h30 – 14h15 : An efficient sampling method for Bayesian image restoration with explicit score function-based priors
Elhadji C. Faye (IDP/Université d’Orléans, INP-ENSEEIHT, Université de Toulouse)
14h15 – 15h00 : Concept Reasoning Models
Franck-Anaël Mbiaya (LIFO, PRISME/Université d’Orléans
15h00 – 15h15 : D-SSE : a Dynamic regularization strategy for mitigating modality imbalance in multimodal learning
Badreddine Farah (LIFO, PRISME/Université d’Orléans et INSA CVL, BRGM)
=============== Résumés ===============
– Sofiane Elguendouze (LIFO/ Université d’Orléans, PRISME/INSA CVL)
– Titre : Explainable Artificial Intelligence approaches for Image Captioning
– Résumé : The rapid advancement of image captioning models, driven by the integration of deep learning techniques that combine image and text modalities, has resulted in increasingly complex systems. However, these models often operate as black boxes, lacking the ability to provide transparent explanations for their decisions. This thesis addresses the explainability of image captioning systems based on Encoder-Attention-Decoder architectures, through four aspects. First, it explores the concept of the latent space, marking a departure from traditional approaches relying on the original representation space. Second, it introduces the notion of decisiveness, leading to the formulation of a new definition for the concept of component influence/decisiveness in the context of explainable image captioning, as well as a perturbation-based approach to capturing decisiveness. The third aspect aims to elucidate the factors influencing explanation quality, in particular the scope of explanation methods. Accordingly, latent-based variants of well-established explanation methods such as LRP and LIME have been developed, along with the introduction of a latent-centered evaluation approach called Latent Ablation. The fourth aspect of this work involves investigating what we call saliency and the representation of certain visual concepts, such as object quantity, at different levels of the captioning architecture.
– Titouan Simonnet (IDP/Université d’Orléans, BRGM)
– Titre : Deep neural Network for quantification of mineral phases in material samples from X-ray diffraction patterns
– Résumé: Mineral identification and quantification are key to the understanding and, hence, the capacity to predict material properties. The method of choice for mineral quantification is powder X-ray diffraction, generally using a Rietveld refinement approach. However, a successful Rietveld refinement requires preliminary identification of the phases that make up the sample. This is generally carried out manually, and this task becomes extremely long or virtually impossible in the case of very large datasets such as those from synchrotron X-ray diffraction computed tomography. To circumvent this issue, we propose a novel neural network method for automating phase identification and quantification. An XRD pattern calculation code was used to generate large datasets of synthetic data that are used to train the NN. This approach offers significant advantages, including the ability to construct databases with a substantial number of XRD patterns and the introduction of extensive variability into these patterns. To enhance the performance of the NN, a specifically designed loss function for proportion inference was employed during the training process, offering improved efficiency and stability compared with traditional functions. The NN, trained exclusively with synthetic data, proved its ability to identify and quantify mineral phases on synthetic and real XRD patterns.
– Thi-Hai-Yen Vu (LIFO/Université d’Orléans, BRGM)
– Titre : Features Leverage in Graph Models for Mineral Prospectivity Mapping
– Résumé : Mineral Prospectivity Mapping (MPM), the process of identifying areas with high potential for mineral deposits, has recently gained a lot of improvements with the advancements of machine learning (ML) methods. MPM techniques can be divided into 2 main categories: knowledge-driven and data-driven. Knowledge-driven techniques rely on expert opinion on geological data, while data-driven techniques employ ML models to predict the probabilities of mineral occurrences based on known geological datasets. Among the data-driven techniques, recently proposed graph-based approaches overcome disadvantages of previously used approaches (pixel-wise, image-based) and have demonstrated better performances. However, current graph construction method in these approaches is based on only spatial distances between the pixels, regardless of their geological attributes. In this paper, we introduce a novel graph construction approach which takes advantages of expert-knowledge by combining spatial distances with other geological attribute distances. Our experiments show that this combination outperforms traditional graphs constructed by spatial distances only, and can be considered as a promising approach to integrate knowledge into data-driven models in MPM.
– Elhadji C. Faye (IDP/Université d’Orléans, INP-ENSEEIHT, Université de Toulouse)
– Titre : An efficient sampling method for Bayesian image restoration with explicit score function-based priors
– Résumé : Image restoration is a challenging inverse problem that seeks to reconstruct an image from its degraded and noisy observations. Numerous methods have been developed to tackle this issue, including optimization-based algorithms. While these methods are computationally efficient and provide accurate point estimates, they lack the ability to quantify the uncertainty associated with the estimates. Bayesian approaches offer a compelling alternative by introducing a prior distribution on the unknown image and exploring the corresponding posterior distribution. However, Bayesian inference often necessitates the use of MCMC sampling techniques, which need to be highly efficient, especially in high-dimensional settings. We propose a new MCMC algorithm applicable to any Bayesian restoration task with an explicitly defined score function (i.e., the gradient of the log-prior). The proposed algorithm is tested on various image restoration problems, incorporating different deep learning-based priors, and demonstrates its robustness and effectiveness.
– Franck-Anaël Mbiaya (LIFO, PRISME/Université d’Orléans)
– Titre : Concept Reasoning Models
– Résumé : Deep learning has made significant strides in supervised image classification, yet a persistent challenge in this domain is the need for greater explainability. This aspect is crucial as it builds trust, facilitates troubleshooting, and ensures regulatory compliance, ultimately leading to more responsible and effective AI applications. To address this challenge, we have developed a deep learning framework based on concepts, a recent method aimed at enhancing explainability, though traditionally with less emphasis on image classification performance. Our innovation lies in the integration of a specific knowledge graph acting as a reasoning tool. This approach leverages the interdependence between concepts and classes to improve the performance of the concept-based model, thus achieving a balance between explainability and efficiency. Additionally, our model support human test-time intervention to update its final prediction after incorporating new expert feedback, and our experimentation show significantly boosted both classification and concept efficiencies.
– Badreddine Farah (LIFO, PRISME/Université d’Orléans et INSA CVL, BRGM)
– Titre : D-SSE : a Dynamic regularization strategy for mitigating modality imbalance in multimodal learning
– Résumé: In this work we introduce a novel data-driven strategy D-SSE, based on the Stochastic Shared Embeddings (SSE) method, which aims to alleviate the imbalance between modalities by dynamically transitioning between representations during training, D-SSE regulates the learning dynamics of multimodal models. It aims to slow the learning of the dominant modality while maintaining the final performance, allowing the subordinate modality to catch up. The experiments carried out demonstrate the effectiveness of the proposed approach in mitigating modality imbalance and enhancing the overall performance of multimodal learning systems. It also shows that D-SSE is compatible with various fusion techniques and can be applied in different imbalance setups.
Mardi 4 avril 2023
Amphi IRD – Rue du carbone — Université d’Orléans
=============== Programme ===============
9h-9h40 : Approches basées sur l’espace latent pour l’explicabilité des modèles de sous-titrage d’images.
Sofiane Elguendouze (travaux présentés par Anaïs Lefeuvre-Halftermeyer) – Université d’Orléans (LIFO, PRISME)
9h40-10h10 : Image-text crisis tweet categorization: a caption-based approach.
Badreddine Farah – Université d’Orléans (LIFO-PRISME) – BRGM
10h40-11h10 : Identification de proportions : modélisation de Dirichlet pour les réseaux de neurones
Titouan Simmonet – Université d’Orléans (IDP – PRISME) – BRGM
11h10-11h40 : Intégration de graphe de connaissances pour la classification d’images
Franck Anaël Mbiaya – Université d’Orléans (LIFO – PRISME)
11h40-12h: Inversion bayésienne utilisant des lois a priori basées sur l’apprentissage profond – Application à des problèmes d’imagerie spectrale
Elhadji Cisse Faye – Université d’Orléans (IDP -PRISME) – Université de Toulouse
=============== Résumés ===============
Approches basées sur l’espace latent pour l’explicabilité des modèles de sous-titrage d’images
Sofiane Elguendouze – Université d’Orléans (LIFO, PRISME)
Le sous-titrage d’images est la tâche qui vise à générer des descriptions textuelles à partir de représentations d’images. Cette tâche nécessite l’utilisation de modèles composés basés sur l’apprentissage profond (DL), tels que CNN+LSTM ou des architectures basées sur des transformeurs. La grande complexité de ces modèles conduit souvent à considérer leur fonctionnement interne comme des boîtes noires, empêchant l’utilisateur de comprendre leur processus de décision. Malgré le large éventail de leurs domaines d’application, les systèmes de sous-titrage d’images souffrent toujours d’un manque d’interprétabilité, la plupart des travaux récents se concentrant principalement sur la génération de cartes à chaleur montrant l’importance au niveau du pixel, mais négligeant l’étude des composants de l’architecture elle-même. L’espace de représentation est un élément clé des modèles DL, la compréhension de cet espace et de la façon dont l’information est codée constitue une approche intéressante pour le DL interprétable, ce qui permet d’isoler et d’identifier l’importance de chaque composant de l’architecture impliquée dans le pipeline de sous-titrage (au moyen de perturbations gaussiennes). Les résultats de notre approche montrent que la partie visuelle, principalement composée de l’encodage visuel et du mécanisme d’attention, est plus déterminante que la partie linguistique, ce qui pourrait conduire à des explications plus subtiles. Ce travail est ensuite suivi par un protocole d’explication approfondi en concevant et en comparant deux méthodes d’explication avec des portées différentes (basée sur la substitution et basée sur la rétropropagation), au niveau de l’espace latent de la composante visuelle. Les résultats montrent que les deux méthodes obtiennent des résultats comparables et que leur portée n’a pas d’impact explicite sur la qualité des explications.
Image-text crisis tweet categorization: a caption-based approach
Badreddine Farah- Université d’Orléans (LIFO-PRISME) – BRGM
The rapid growth of social media usage this last decade has made available a massive and valuable volume of multimedia data. However, the lack of large annotated datasets and the inherent noise in this type of data have made it difficult to use machine learning methods. In this study, we propose the method CMB (Caption-based Multimodal Bert) that leverages multimodal information from both images and texts to classify social media crisis related post. Our approach uses an early modality fusion strategy, whose success relies on the prior translation of the image modality into a text compatible representation space. Given a text/image tweet, CMB first translates the tweet’s image into a (textual)caption, which is then combined with the tweet’s text to serve as an input for fine-tuning a transformer-based language model. Experiments show that the new CMB method achieves competitive results on text/image tweet categorization tasks. Furthermore, additional experiments reveal the robustness of CMB, which can be trained efficiently in both unimodal (text-only tweets) and multimodal settings. This simple approach is effective at merging the semantic information from texts and visual information from images.In some cases, CMB has the potential to supersede large, expensive hand crafted multi-modal models.
Identification de proportions: modélisation de Dirichlet pour les réseaux de neurones
Titouan Simmonet – Université d’Orléans (IDP – PRISME) – BRGM
Dans divers domaines, par exemple en cristallographie, un des enjeux majeurs est de pouvoir effectuer un “démélange” des données. C’est-à-dire pour une donnée (image ou signal), être capable d’identifier et de quantifier ses composants.
La méthode présentée effectue ce “démélange” en associant à chaque donnée un vecteur de proportion qui donne sa composition.
A l’aide de la distribution de Dirichlet, une modélisation adaptée de la fonction de perte d’un réseau de neurones permettra de traiter ce problème.
Exemple d’application sur des signaux, notamment les diffractogrammes issus de l’analyse par diffraction de rayons X pour les cristaux.
Intégration de graphe de connaissances pour la classification d’images
Franck Anaël MBIAYA – Université d’Orléans (LIFO – PRIME)
Au cours de cette présentation, Nous introduirons une méthode d’apprentissage profond pour la classification supervisée d’images, intégrant des connaissances sous forme de graphe. Nous introduirons une fonction de coût combinant à la fois une mesure traditionnellement utilisée en apprentissage profond (entropie croisée) et une mesure originale qui prend en compte la représentation des nœuds après plongement du graphe de connaissances. Les connaissances ne sont utilisées que pendant la phase d’apprentissage et ne sont pas nécessaires pour l’évaluation d’un exemple en mode test. Nous présenterons les résultats obtenus sur des données réputés difficiles, utilisés pour le problème de classification à grains fins.
Inversion bayésienne utilisant des lois a priori basées sur l’apprentissage profond – Application à des problèmes d’imagerie spectrale
Elhadji Cisse Faye – Université d’Orléans (IDP -PRISME) – Université de Toulouse
Les problèmes inverses sont rencontrés de nombreuses applications telles que l’optique, le radar, la spectroscopie, la géophysique, la radioastronomie et l’imagerie en général. La résolution de ces problèmes inverses peut être formulée dans le cadre statistique bayésien, en munissant les inconnues de lois a priori. L’approche bayésienne permet de régulariser le problème inverse et fournit en plus une évaluation de l’incertitude associée. Le choix de la distribution a priori peut toutefois avoir un impact considérable sur la solution. L’objectif dans cette thèse est d’utiliser des lois a priori implicites, obtenues par des méthodes de deep-learning.
Dans cette présentation, on montrera d’abord comment l’approche Pluy-and-Play utilisant des réseaux de neurones comme débruiteur peut être utilisée pour résoudre certains problèmes inverses (débruitage, déflouage etc.) Puis on verra quelques algorithmes d’échantillonnage pour la résolution de problèmes inverses en imagerie.