Περίληψη
Η ευρεία διαθεσιμότητα δεδομένων έχει αποτελέσει καταλύτη για την ανάπτυξη της βαθιάς μάθησης. Οι εξελίξεις αυτές περιλαμβάνουν την ταξινόμηση εικόνων, την αναγνώριση ομιλίας και την επεξεργασία φυσικής γλώσσας. Ωστόσο, η πρόοδος που βασίζεται στα δεδομένα συχνά παρεμποδίζεται από περιορισμούς ιδιωτικότητας, οι οποίοι εμποδίζουν τη δημόσια διάθεση ορισμένων συνόλων δεδομένων. Για παράδειγμα, κάποια σύνολα δεδομένων υπολογιστικής όρασης δεν μπορούν να δημοσιοποιηθούν λόγω κανονισμών απορρήτου, ιδίως όταν περιέχουν εικόνες με ευαίσθητο ή ενοχλητικό περιεχόμενο. Την ίδια στιγμή, είναι αναγκαίο τα μοντέλα βαθιάς μάθησης –και ειδικά τα Βαθιά Νευρωνικά Δίκτυα (Deep Neural Networks, DNNs)– να υλοποιούνται με τρόπο αποδοτικό ως προς τους υπολογιστικούς πόρους. Στην παρούσα διατριβή, εστιάζουμε στην αποδοτική χρήση των DNNs μέσω μεθόδων που μειώνουν το υπολογιστικό τους κόστος. Αρχικά, εξετάζουμε τις προκλήσεις που αφορούν την προστασία της ιδιωτικότητας στη βαθιά μάθηση. Προτείνουμε μια νέα με ...
Η ευρεία διαθεσιμότητα δεδομένων έχει αποτελέσει καταλύτη για την ανάπτυξη της βαθιάς μάθησης. Οι εξελίξεις αυτές περιλαμβάνουν την ταξινόμηση εικόνων, την αναγνώριση ομιλίας και την επεξεργασία φυσικής γλώσσας. Ωστόσο, η πρόοδος που βασίζεται στα δεδομένα συχνά παρεμποδίζεται από περιορισμούς ιδιωτικότητας, οι οποίοι εμποδίζουν τη δημόσια διάθεση ορισμένων συνόλων δεδομένων. Για παράδειγμα, κάποια σύνολα δεδομένων υπολογιστικής όρασης δεν μπορούν να δημοσιοποιηθούν λόγω κανονισμών απορρήτου, ιδίως όταν περιέχουν εικόνες με ευαίσθητο ή ενοχλητικό περιεχόμενο. Την ίδια στιγμή, είναι αναγκαίο τα μοντέλα βαθιάς μάθησης –και ειδικά τα Βαθιά Νευρωνικά Δίκτυα (Deep Neural Networks, DNNs)– να υλοποιούνται με τρόπο αποδοτικό ως προς τους υπολογιστικούς πόρους. Στην παρούσα διατριβή, εστιάζουμε στην αποδοτική χρήση των DNNs μέσω μεθόδων που μειώνουν το υπολογιστικό τους κόστος. Αρχικά, εξετάζουμε τις προκλήσεις που αφορούν την προστασία της ιδιωτικότητας στη βαθιά μάθηση. Προτείνουμε μια νέα μεθοδολογία σύνθεσης και διάθεσης συνθετικών δεδομένων, ως εναλλακτική στη χρήση ευαίσθητων ιδιωτικών δεδομένων. Συγκεκριμένα, παρουσιάζουμε τη μέθοδο DP-ImgSyn (Differentially Private Image Synthesis) για τη δημιουργία συνθετικών εικόνων που προορίζονται για εργασίες ταξινόμησης. Οι εικόνες αυτές πληρούν τρεις βασικές προϋποθέσεις: (1) παρέχουν εγγυήσεις Διαφορικής Ιδιωτικότητας (Differential Privacy), (2) διατηρούν τη χρησιμότητα των αρχικών ιδιωτικών εικόνων, ώστε τα μοντέλα που εκπαιδεύονται σε αυτές να επιτυγχάνουν αντίστοιχη ακρίβεια, και (3) είναι οπτικά διαφορετικές από τις εικόνες του αρχικού ιδιωτικού συνόλου. Το σύστημα DP-ImgSyn αποτελείται από τα εξής στάδια: αρχικά, ένα δίκτυο-διδάσκων (teacher network) εκπαιδεύεται με ιδιωτικές εικόνες μέσω αλγορίθμου εκπαίδευσης με DP. Στη συνέχεια, δημόσιες εικόνες χρησιμοποιούνται για την αρχικοποίηση των συνθετικών εικόνων, οι οποίες βελτιστοποιούνται ώστε να ευθυγραμμίζονται με τη στατιστική κατανομή του ιδιωτικού δικτύου. Η βελτιστοποίηση γίνεται μέσω των στατιστικών των επιπέδων batch normalization (μέσοι όροι και τυπικές αποκλίσεις) του δικτύου-διδάσκοντος, επιτρέποντας τη μεταφορά πληροφορίας στις συνθετικές εικόνες. Τέλος, οι συνθετικές εικόνες, συνοδευόμενες από τις πιθανότητες κατηγοριοποίησης που προβλέπει το μοντέλο-διδάσκων (soft labels), δημοσιεύονται και μπορούν να χρησιμοποιηθούν για την εκπαίδευση δικτύων ταξινόμησης. Επιπλέον, η διατριβή επικεντρώνεται στην αποδοτικότητα των νευρωνικών δικτύων. Η ευρεία χρήση τους σε σύνθετα προβλήματα έχει οδηγήσει στην ανάπτυξη μοντέλων με μεγάλο αριθμό παραμέτρων, κάτι που αυξάνει σημαντικά το κόστος υλοποίησης. Για την αντιμετώπιση αυτής της πρόκλησης, μελετούμε την ποσοτικοποίηση (quantization) των βαρών και των ενεργοποιήσεων (activations) των DNNs. Ειδικότερα, προτείνουμε μία μέθοδο συμπίεσης μέσω ποσοτικοποίησης μεταβλητής ακρίβειας ανά επίπεδο (layer-wise mixed-precision quantization). Ο προσδιορισμός του κατάλληλου πλήθους bits για κάθε επίπεδο είναι υπολογιστικά απαιτητικός, λόγω του εκθετικού μεγέθους του χώρου αναζήτησης. Για τον σκοπό αυτό, χρησιμοποιούμε ένα Multi-Layer Perceptron (MLP), εκπαιδευμένο να προβλέπει τη βέλτιστη ακρίβεια για κάθε επίπεδο. Ως μέτρο αξιολόγησης της ποιότητας της ποσοτικοποίησης χρησιμοποιείται η απόκλιση Kullback-Leibler (KL) μεταξύ των εξόδων softmax των πλήρους και ποσοτικοποιημένης ακρίβειας μοντέλων. Μέσα από πειραματική μελέτη διαπιστώνεται ότι όσο πιο επιθετική είναι η ποσοτικοποίηση, τόσο μεγαλύτερη η απόκλιση και συνεπώς η πιθανότητα απώλειας ακρίβειας. Το MLP εκπαιδεύεται με τα αντίστοιχα ζεύγη επιπέδου–απόκλισης, τα οποία προκύπτουν μέσω δειγματοληψίας τύπου Monte Carlo στον χώρο αναζήτησης. Η μέθοδος στοχεύει στη μείωση του κόστους ανάπτυξης των DNNs, διατηρώντας υψηλή απόδοση στην ταξινόμηση. Στη συνέχεια, η διατριβή εξετάζει την αποδοτική αναγνώριση δράσεων σε συμπιεσμένα βίντεο. Σε αντίθεση με τις προσεγγίσεις που απαιτούν αποσυμπίεση των βίντεο, προτείνουμε αναγνώριση απευθείας πάνω στα δεδομένα του συμπιεσμένου σήματος. Εκμεταλλευόμαστε τις τρεις βασικές μορφές πληροφορίας των συμπιεσμένων βίντεο: motion vectors, residuals και intra-frames, τις οποίες επεξεργαζόμαστε με ξεχωριστά νευρωνικά δίκτυα. Παρατηρούμε μια ιεραρχία ως προς τη σύγκλιση των δικτύων: το δίκτυο των intra-frames καταλήγει σε πιο επίπεδο ελάχιστο, ακολουθούμενο από το δίκτυο των residuals και τέλος των motion vectors. Αυτή η παρατήρηση μάς οδηγεί στην ανάπτυξη της Προοδευτικής Απόσταξης Γνώσης (Progressive Knowledge Distillation, PKD), μιας τεχνικής μεταφοράς γνώσης μεταξύ των δικτύων, με στόχο τη βελτίωση της γενίκευσης. Η PKD υλοποιείται με την εισαγωγή εσωτερικών ταξινομητών (Internal Classifiers, ICs) σε κάθε δίκτυο και τη σταδιακή απόσταξη γνώσης ξεκινώντας από τα motion vectors προς τα intra-frames. Επιπλέον, παρουσιάζουμε τη μέθοδο WISE (Weighted Inference with Scaled Ensemble), η οποία συνδυάζει τις προβλέψεις των ICs με εκμάθηση βαρών για την ενίσχυση της ακρίβειας κατά το στάδιο της πρόβλεψης. Ο συνδυασμός PKD και WISE αποδεικνύεται ιδιαίτερα αποτελεσματικός για την ακριβή και αποδοτική αναγνώριση δράσεων σε συμπιεσμένα βίντεο. Συνοψίζοντας, η διατριβή αυτή συμβάλλει στην πρόοδο της αποδοτικής και με σεβασμό στην ιδιωτικότητα μηχανικής μάθησης. Οι προτεινόμενες προσεγγίσεις προσφέρουν καινοτόμες λύσεις για την ασφαλή και αποδοτική ανάπτυξη συστημάτων τεχνητής νοημοσύνης σε πραγματικές εφαρμογές. Μέσα από την παραγωγή συνθετικών εικόνων, τη συμπίεση νευρωνικών δικτύων και την αναγνώριση δράσεων σε συμπιεσμένο βίντεο, ενισχύεται η κατεύθυνση προς πιο ευέλικτα, ασφαλή και αποδοτικά μοντέλα μηχανικής μάθησης για την υπολογιστική όραση.
περισσότερα
Περίληψη σε άλλη γλώσσα
Extensive data availability has catalyzed the expansion of deep learning. Such advancements include image classification, speech, and natural language processing. However, this data-driven progress is often hindered by privacy restrictions preventing the public release of specific datasets. For example, some vision datasets cannot be shared due to privacy regulations, particularly those containing images depicting visually sensitive or disturbing content. At the same time, it is imperative to deploy deep learning efficiently, specifically Deep Neural Networks (DNNs), which are the core of deep learning. In this dissertation, we focus on achieving efficiency by reducing the computational cost of DNNs in multiple ways. This thesis first tackles the privacy concerns arising from deep learning. It introduces a novel methodology that synthesizes and releases synthetic data, instead of private data. Specifically, we propose Differentially Private Image Synthesis (DP-ImgSyn) for generating an ...
Extensive data availability has catalyzed the expansion of deep learning. Such advancements include image classification, speech, and natural language processing. However, this data-driven progress is often hindered by privacy restrictions preventing the public release of specific datasets. For example, some vision datasets cannot be shared due to privacy regulations, particularly those containing images depicting visually sensitive or disturbing content. At the same time, it is imperative to deploy deep learning efficiently, specifically Deep Neural Networks (DNNs), which are the core of deep learning. In this dissertation, we focus on achieving efficiency by reducing the computational cost of DNNs in multiple ways. This thesis first tackles the privacy concerns arising from deep learning. It introduces a novel methodology that synthesizes and releases synthetic data, instead of private data. Specifically, we propose Differentially Private Image Synthesis (DP-ImgSyn) for generating and releasing synthetic images used for image classification tasks. These synthetic images satisfy the following three properties: (1) they have DP guarantees, (2) they preserve the utility of private images, ensuring that models trained using synthetic images result in comparable accuracy to those trained on private data, and (3) they are visually dissimilar from private images. The DP-ImgSyn framework consists of the following steps: firstly, a teacher model is trained on private images using a DP training algorithm. Subsequently, public images are used for initializing synthetic images, which are optimized in order to be aligned with the private dataset. This optimization leverages the teacher network’s batch normalization layer statistics (mean, standard deviation) to inject information from the private dataset into the synthetic images. Third, the synthetic images and their soft labels obtained from the teacher model are released and can be employed for neural network training in image classification tasks. As a second direction, this thesis delves into achieving efficiency in deep learning. With neural networks widely deployed for tackling diverse and complex problems, the resulting models often become parameter-heavy, demanding substantial computational resources for deployment. To address this challenge, we focus on quantizing the weights and the activations of DNNs. In more detail, we propose a method for compressing neural networks through layer-wise mixed-precision quantization. Determining the optimal bit widths for each layer is a non-trivial task, given the fact that the search space is exponential. Thus, we employ a Multi-Layer Perceptron (MLP) trained to determine the suitable bit-width for each layer. The Kullback-Leibler (KL) divergence of softmax outputs between the quantized and full precision networks is the metric used to gauge quantization quality. We experimentally investigate the relationship between KL divergence and network size, noting that more aggressive quantization correlates with higher divergence and vice versa. The MLP is trained using the layer-wise bit widths as labels and their corresponding KL divergence as inputs. To generate the training set, pairs of layer-wise bit widths and their respective KL divergence values are obtained through Monte Carlo sampling of the search space. This approach aims to reduce the computational cost of DNN deployment, while maintaining high classification accuracy. Additionally, we aim to enhance efficiency in machine learning by introducing a computationally efficient method for action recognition on compressed videos. Rather than decompressing videos for action recognition tasks, our approach performs action recognition directly on the compressed videos. This is achieved by leveraging the modalities within the compressed video format, specifically motion vectors, residuals, and intra-frames. To process each modality, we deploy three neural networks. Our observations indicate a hierarchy in convergence behavior: the network processing intra-frames tend to converge to a flatter minimum than the network processing residuals, which, in turn, converge to a flatter minimum than the motion vector network. This hierarchy motivates our strategy for knowledge transfer among modalities to achieve flatter minima, generally associated with better generalization. Based on this insight, we propose Progressive Knowledge Distillation (PKD), a technique that incrementally transfers knowledge across modalities. This method involves attaching early exits, known as Internal Classifiers (ICs), to the three networks. PKD begins by distilling knowledge from the motion vector network, then the residual network, and finally the intra-frame network, sequentially improving the accuracy of the ICs. Moreover, we introduce Weighted Inference with Scaled Ensemble (WISE), which combines outputs from the ICs using learned weights, thereby boosting accuracy during inference. The combination of PKD and WISE demonstrates significant improvements in efficiency and accuracy for action recognition on compressed videos. In summary, this dissertation contributes to advancing privacy preserving and efficient machine learning algorithms. The proposed methodologies offer practical solutions for deploying machine learning systems in real-world scenarios by addressing data privacy and computational efficiency. Through innovative approaches to image synthesis, neural network compression, and action recognition, this work aims to foster the development of robust and scalable machine learning frameworks for diverse computer vision applications.
περισσότερα