The last few years have witnessed the rise of Deep Neural Networks. Since the introduction of AlexNet in 2012, the community of researchers and industries employing Deep Learning has exploded. This surge in attention led to the development of State of The Art algorithms in many different fields such as Computer Vision, Natural Language Processing and Time Series modeling. The empirical success of Deep Learning posed new methodological challenges for academia and allowed industry to deploy world-wide large scale web services unthinkable ten years ago. Despite such incontrovertible success, Deep Learning does not come free of issues: model design is highly costly, model interpretability is not easy, deployment often requires very specialized experts and, not least, any Deep Neural Network requires a large amount of data for training. Moreover, from a theoretical standpoint many important guarantees on optimization convergence and generalization are still lacking. In this thesis we address trainability and generalization of Deep Neural Network models: we analyze the optimization trajectories and the generalization of typical over-parametrized models; moreover, we design a specialized inductive bias and regularization scheme to foster interpretability and generalization of Deep Neural Networks. The starting point in our analysis is a recently proposed tool: the Neural Tangent Kernel for over-parametrized models. Building on this fundamental result, we investigate the number of optimization steps that a pre-trained Deep Neural Network needs to converge to a given value of the loss function ("Training Time"). Moreover, we exploit the Neural Tangent Kernel theory to solve the problem of choosing the best pre-trained Deep Neural Network within a "model zoo" when only the target dataset is known and without training any model ("Model Selection"). Our analysis started to unblock the adoption of real-world Computer Vision AutoML systems: Users fine-tune models selected from a large "model zoo" testing hundreds of combinations of different architectures, pre-training sets and hyper-parameters, but are reluctant to do so without an estimate of the expected training cost. Our results are a step towards better understanding of transfer learning through a novel study on the interplay between generalization and highly over-parametrized Deep Neural Networks. We then build a specialized Deep architecture equipped with a strong inductive bias and explicit regularization, that are designed both to constrain the representational power of our architecture and to allow Bayesian automatic complexity selection. Then, we show our novel method can be successfully applied both for non-linear System Identification and for Anomaly Detection of large scale Time Series.
Negli ultimi anni abbiamo assistito all'ascesa delle Reti Neurali Profonde. Sin dall'introduzione di AlexNet, nel 2012, la comunità di ricercatori e industrie che sfruttano l'Apprendimento Profondo è cresciuta a dismisura. Tale aumento di visibilità ha portato all'avanzamento dello stato dell'arte in diversi campi: visione artificiale, elaborazione del linguaggio naturale e modellazione di serie temporali. Il successo dell'apprendimento profondo ha posto nuove sfide metodologiche per l'accademia e al tempo stesso ha reso possibile all'industria il dispiego di servizi web su larga scala impensabili pochi anni fa. Nonostante tale indiscutibile successo, l'apprendimento automatico non è privo di limiti: sviluppare nuovi modelli è costoso, la loro interpretabilità è scarsa, il loro impiego richiede esperti altamente specializzati e, non per ultimo, ogni rete neurale profonda richiede un grande quantitativo di dati per essere allenata. In più, in letteratura mancano ancora risultati teorici fondamentali a garantire la convergenza dell'ottimizzazione e la generalizzazione dei modelli profondi. In questa tesi studiamo l'addestrabilità e la capacità di generalizzazione delle reti neurali profonde: in particolare, analizziamo le traiettorie di ottimizzazione e di generalizzazione di modelli sovra parametrizzati; in più, proponiamo un bias induttivo specializzato e una regolarizzazione che favoriscono sia l'interpretabilità che la generalizzazione delle reti neurali profonde. Il punto di partenza della nostra analisi è un risultato recentemente proposto in letteratura: il “Neural Tangent Kernel” per modelli sovra parametrizzati. Basandoci su questo strumento, studiamo il numero di passi di ottimizzazione necessari ad una rete neurale profonda pre-allenata per convergere ad un dato valore della funzione di costo (“Tempo di Allenamento”). In più, sfruttando la teoria sul “Neural Tangent Kernel”, risolviamo il problema di scegliere il miglior modello pre-allenato all'interno di un “model zoo” quando solamente i dati su cui allenare la rete neurale sono noti e senza ottimizzare alcun modello. La nostra analisi è spinta dalla necessità di sbloccare l'adozione di sistemi per la visione artificiale su larga scala: in cui gli utenti allenano modelli selezionandoli all'interno di un “model zoo” ottenuto combinando svariate architetture pre-allenate ed iper-parametri, ma sono riluttanti a farlo senza una stima del costo. I nostri risultati, basati su una nuova analisi dell'interazione tra generalizzazione e sovra-parametrizzazione, sono un passo avanti nello studio della capacità di adattamento delle reti neurali profonde. Sfruttando questi risultati proponiamo quindi una nuova architettura profonda basata su un forte bias induttivo e regolarizzazione esplicita, entrambi sono pensati ed usati per limitare la capacità espressiva dell'architettura e permettono di applicare tecniche Bayesiane di selezione automatica della complessità. Per concludere, applichiamo con successo il nostro metodo per l’identificazione di sistemi non-lineari e per l’individuazione di anomalie su serie temporali di grandi dimensioni.
Sull'addestrabilità e generalizzazione delle Reti Neurali Profonde / Zancato, Luca. - (2022 Feb 14).
Sull'addestrabilità e generalizzazione delle Reti Neurali Profonde
ZANCATO, LUCA
2022
Abstract
The last few years have witnessed the rise of Deep Neural Networks. Since the introduction of AlexNet in 2012, the community of researchers and industries employing Deep Learning has exploded. This surge in attention led to the development of State of The Art algorithms in many different fields such as Computer Vision, Natural Language Processing and Time Series modeling. The empirical success of Deep Learning posed new methodological challenges for academia and allowed industry to deploy world-wide large scale web services unthinkable ten years ago. Despite such incontrovertible success, Deep Learning does not come free of issues: model design is highly costly, model interpretability is not easy, deployment often requires very specialized experts and, not least, any Deep Neural Network requires a large amount of data for training. Moreover, from a theoretical standpoint many important guarantees on optimization convergence and generalization are still lacking. In this thesis we address trainability and generalization of Deep Neural Network models: we analyze the optimization trajectories and the generalization of typical over-parametrized models; moreover, we design a specialized inductive bias and regularization scheme to foster interpretability and generalization of Deep Neural Networks. The starting point in our analysis is a recently proposed tool: the Neural Tangent Kernel for over-parametrized models. Building on this fundamental result, we investigate the number of optimization steps that a pre-trained Deep Neural Network needs to converge to a given value of the loss function ("Training Time"). Moreover, we exploit the Neural Tangent Kernel theory to solve the problem of choosing the best pre-trained Deep Neural Network within a "model zoo" when only the target dataset is known and without training any model ("Model Selection"). Our analysis started to unblock the adoption of real-world Computer Vision AutoML systems: Users fine-tune models selected from a large "model zoo" testing hundreds of combinations of different architectures, pre-training sets and hyper-parameters, but are reluctant to do so without an estimate of the expected training cost. Our results are a step towards better understanding of transfer learning through a novel study on the interplay between generalization and highly over-parametrized Deep Neural Networks. We then build a specialized Deep architecture equipped with a strong inductive bias and explicit regularization, that are designed both to constrain the representational power of our architecture and to allow Bayesian automatic complexity selection. Then, we show our novel method can be successfully applied both for non-linear System Identification and for Anomaly Detection of large scale Time Series.File | Dimensione | Formato | |
---|---|---|---|
tesi_definitiva_Luca_Zancato.pdf
accesso aperto
Descrizione: tesi_definitiva_Luca_Zancato
Tipologia:
Tesi di dottorato
Dimensione
16.44 MB
Formato
Adobe PDF
|
16.44 MB | Adobe PDF | Visualizza/Apri |
Pubblicazioni consigliate
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.