Automatic pixel-level semantic scene understanding is a relevant problem in computer vision and a requirement for many practical applications such as autonomous vehicles, robotic navigation systems, video surveillance and medical tasks. Semantic segmentation is typically tackled via deep learning architectures. Unfortunately, deep neural networks on practical benchmark often lack of generalization capabilities to accommodate changes in the input domain distribution and, therefore, are inherently limited by the restricted visual and semantic information contained in the original training set. In this thesis, we argue the importance of versatility of deep neural architectures and we explore it from various perspectives. In the first part, we address the ability of deep models to recognize novel semantic concepts without forgetting previously learned ones. First, we define the continual learning problem in semantic segmentation and we propose to retain previous capabilities by distilling knowledge from the previous model at either the feature or output levels of the architecture. Second, we explore how deep model training can be regularized at the latent level (via contrastive learning, matching prototypical representations and sparsity) in order to alleviate catastrophic forgetting of previous concepts while promoting learning of the new ones. Then, we show how we can replace samples of previous categories by using generative networks or web-crawled images. In the second part, we propose novel coarse-to-fine learning tasks where a generic model trained to recognize a coarse set of concepts is progressively updated to recognize finer-grained concepts. In the third part, we investigate deep model generalization to unseen visual domains with no ground truth annotations available. We start with a rigorous definition of the unsupervised domain adaptation task in semantic segmentation and we carefully organize the current literature on the topic. Then, we propose multiple solutions to enable model generalization on a combination of input, feature and output levels. We investigate input-level adaptation via cyclic consistency. Output-level adaptation is enforced by means of adversarial learning schemes relying on a confidence score estimated by the discriminator network. Then, we explore feature-level adaptation via latent regularization enforcing clustering, orthogonality, sparsity and norm alignment among the features. In the last part, we discuss the recent federated learning paradigm in order to train deep architectures in a distributed setting exploiting only data available at decentralized clients and not shared with a central server. We start by defining the general federated learning setup and we analyze its poor robustness to high non-i.i.d. distribution of samples among clients. To mitigate this problem, we propose a naïve federated optimizer which is fair from the users perspective. Then, we introduce a new prototype-guided federated optimizer which has also been evaluated on federated semantic segmentation benchmarks.

Il riconoscimento automatico e semantico della scena a livello di pixel è un problema importante in visione computazionale ed un requisito per molte applicazioni pratiche come i veicoli autonomi, i sistemi di navigazione robotica, la videosorveglianza e le applicazioni mediche. Segmentazione semantica è generalmente affrontata con architetture di deep learning. Tuttavia, deep neural networks su dataset di riferimento pratici spesso mancano di capacità di generalizzazione nell’accomodare cambiamenti nel dominio in ingresso e, pertanto, sono inerentemente limitate dalle ristrette informazioni visive e semantiche contenute nel dataset di allenamento originale. In questa tesi, si sostiene l’importanza della versatilità delle reti neurali e la si esplora da diverse prospettive. Nella prima parte, si affronta l’abilità di deep models nel riconoscere nuovi concetti semantici senza dimenticare quelli appresi in precedenza. Dapprima, si definisce il problema di apprendimento continuo in segmentazione semantica e si propone di mantenere le capacità precedenti tramite trasferimento di conoscenza dal modello precedente agendo sul livello latente o su quello dell’output dell’architettura. In secondo luogo, si esplora come l’apprendimento di modelli profondi può essere regolarizzato al livello latente (tramite apprendimento contrastivo, corrispondenza di rappresentazioni prototipiche e sparsità) al fine di alleviare la dimenticanza catastrofica dei concetti precedenti mentre si incentiva l’apprendimento di quelli nuovi. Poi, si mostra come è possibile rimpiazzare i campioni delle categorie precedenti usando reti generative o immagini acquisite dal Web. Nella seconda parte, si propone nuove applicazioni di apprendimento coarse-to-fine, dove un generico modello allenato a riconoscere un insieme di concetti grossolani è progressivamente aggiornato per riconoscere concetti più raffinati. Nella terza parte, si indaga la generalizzazione di deep models verso domini visivi mai visti senza disponibilità di annotazioni veritiere. Si inizia con una definizione rigorosa dell’adattamento di dominio non supervisionato in segmentazione semantica e si organizza scrupolosamente la corrente letteratura sull’argomento. Poi, si propongono molteplici soluzioni per abilitare la generalizzazione del modello su una combinazione di livelli: ingresso, intermedio e uscita. Si studia l’adattamento al livello di ingresso tramite consistenza ciclica. L’adattamento al livello di uscita è ottenuto tramite schemi di apprendimento avversario basati sul livello di confidenza stimato dalla rete discriminativa. Infine, si esplora l’adattamento sullo spazio latente intermedio tramite regolarizzazione forzando il raggruppamento, l’ortogonalità, la sparsità e l’ allineamento delle norme delle features. Nell’ultima parte, si discute il recente paradigma dell’apprendimento federato in modo da allenare deep models in modo distribuito sfruttando solamente dati disponibili presso gli utenti decentralizzati e non condivisi con un server centrale. Si inizia definendo lo scenario generale di apprendimento federato e si analizza la sua scarsa robustezza alle distribuzioni di campioni tra i clients fortemente non-i.i.d. Per mitigare questo problema, si propone un semplice ottimizzatore federato che è imparziale dal punto di vista degli utenti. Poi si introduce un nuovo ottimizzatore federato guidato dai prototipi, il quale è stato anche valutato su alcuni dataset di riferimento per segmentazione semantica federata.

Visione Computazionale con Modelli di Apprendimento Incrementali, Generalizzabili e Distribuiti / Michieli, Umberto. - (2022 Mar 10).

Visione Computazionale con Modelli di Apprendimento Incrementali, Generalizzabili e Distribuiti

MICHIELI, UMBERTO
2022

Abstract

Automatic pixel-level semantic scene understanding is a relevant problem in computer vision and a requirement for many practical applications such as autonomous vehicles, robotic navigation systems, video surveillance and medical tasks. Semantic segmentation is typically tackled via deep learning architectures. Unfortunately, deep neural networks on practical benchmark often lack of generalization capabilities to accommodate changes in the input domain distribution and, therefore, are inherently limited by the restricted visual and semantic information contained in the original training set. In this thesis, we argue the importance of versatility of deep neural architectures and we explore it from various perspectives. In the first part, we address the ability of deep models to recognize novel semantic concepts without forgetting previously learned ones. First, we define the continual learning problem in semantic segmentation and we propose to retain previous capabilities by distilling knowledge from the previous model at either the feature or output levels of the architecture. Second, we explore how deep model training can be regularized at the latent level (via contrastive learning, matching prototypical representations and sparsity) in order to alleviate catastrophic forgetting of previous concepts while promoting learning of the new ones. Then, we show how we can replace samples of previous categories by using generative networks or web-crawled images. In the second part, we propose novel coarse-to-fine learning tasks where a generic model trained to recognize a coarse set of concepts is progressively updated to recognize finer-grained concepts. In the third part, we investigate deep model generalization to unseen visual domains with no ground truth annotations available. We start with a rigorous definition of the unsupervised domain adaptation task in semantic segmentation and we carefully organize the current literature on the topic. Then, we propose multiple solutions to enable model generalization on a combination of input, feature and output levels. We investigate input-level adaptation via cyclic consistency. Output-level adaptation is enforced by means of adversarial learning schemes relying on a confidence score estimated by the discriminator network. Then, we explore feature-level adaptation via latent regularization enforcing clustering, orthogonality, sparsity and norm alignment among the features. In the last part, we discuss the recent federated learning paradigm in order to train deep architectures in a distributed setting exploiting only data available at decentralized clients and not shared with a central server. We start by defining the general federated learning setup and we analyze its poor robustness to high non-i.i.d. distribution of samples among clients. To mitigate this problem, we propose a naïve federated optimizer which is fair from the users perspective. Then, we introduce a new prototype-guided federated optimizer which has also been evaluated on federated semantic segmentation benchmarks.
Visual Understanding across Multiple Semantic Groups, Domains and Devices
10-mar-2022
Il riconoscimento automatico e semantico della scena a livello di pixel è un problema importante in visione computazionale ed un requisito per molte applicazioni pratiche come i veicoli autonomi, i sistemi di navigazione robotica, la videosorveglianza e le applicazioni mediche. Segmentazione semantica è generalmente affrontata con architetture di deep learning. Tuttavia, deep neural networks su dataset di riferimento pratici spesso mancano di capacità di generalizzazione nell’accomodare cambiamenti nel dominio in ingresso e, pertanto, sono inerentemente limitate dalle ristrette informazioni visive e semantiche contenute nel dataset di allenamento originale. In questa tesi, si sostiene l’importanza della versatilità delle reti neurali e la si esplora da diverse prospettive. Nella prima parte, si affronta l’abilità di deep models nel riconoscere nuovi concetti semantici senza dimenticare quelli appresi in precedenza. Dapprima, si definisce il problema di apprendimento continuo in segmentazione semantica e si propone di mantenere le capacità precedenti tramite trasferimento di conoscenza dal modello precedente agendo sul livello latente o su quello dell’output dell’architettura. In secondo luogo, si esplora come l’apprendimento di modelli profondi può essere regolarizzato al livello latente (tramite apprendimento contrastivo, corrispondenza di rappresentazioni prototipiche e sparsità) al fine di alleviare la dimenticanza catastrofica dei concetti precedenti mentre si incentiva l’apprendimento di quelli nuovi. Poi, si mostra come è possibile rimpiazzare i campioni delle categorie precedenti usando reti generative o immagini acquisite dal Web. Nella seconda parte, si propone nuove applicazioni di apprendimento coarse-to-fine, dove un generico modello allenato a riconoscere un insieme di concetti grossolani è progressivamente aggiornato per riconoscere concetti più raffinati. Nella terza parte, si indaga la generalizzazione di deep models verso domini visivi mai visti senza disponibilità di annotazioni veritiere. Si inizia con una definizione rigorosa dell’adattamento di dominio non supervisionato in segmentazione semantica e si organizza scrupolosamente la corrente letteratura sull’argomento. Poi, si propongono molteplici soluzioni per abilitare la generalizzazione del modello su una combinazione di livelli: ingresso, intermedio e uscita. Si studia l’adattamento al livello di ingresso tramite consistenza ciclica. L’adattamento al livello di uscita è ottenuto tramite schemi di apprendimento avversario basati sul livello di confidenza stimato dalla rete discriminativa. Infine, si esplora l’adattamento sullo spazio latente intermedio tramite regolarizzazione forzando il raggruppamento, l’ortogonalità, la sparsità e l’ allineamento delle norme delle features. Nell’ultima parte, si discute il recente paradigma dell’apprendimento federato in modo da allenare deep models in modo distribuito sfruttando solamente dati disponibili presso gli utenti decentralizzati e non condivisi con un server centrale. Si inizia definendo lo scenario generale di apprendimento federato e si analizza la sua scarsa robustezza alle distribuzioni di campioni tra i clients fortemente non-i.i.d. Per mitigare questo problema, si propone un semplice ottimizzatore federato che è imparziale dal punto di vista degli utenti. Poi si introduce un nuovo ottimizzatore federato guidato dai prototipi, il quale è stato anche valutato su alcuni dataset di riferimento per segmentazione semantica federata.
Visione Computazionale con Modelli di Apprendimento Incrementali, Generalizzabili e Distribuiti / Michieli, Umberto. - (2022 Mar 10).
File in questo prodotto:
File Dimensione Formato  
tesi_Umberto_Michieli.pdf

Open Access dal 10/09/2023

Descrizione: Tesi_Umberto_Michieli
Tipologia: Tesi di dottorato
Dimensione 29.97 MB
Formato Adobe PDF
29.97 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11577/3442090
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
  • OpenAlex ND
social impact