Περίληψη
Οι πρόσφατες εξελίξεις στον τομέα της Βαθιάς Μάθησης έχουν οδηγήσει σε εξαιρετικά αποτελέσματα για την αντιμετώπιση προβλημάτων ανάλυσης ψηφιακών μέσων, όπως είναι η κατηγοριοποίηση και η ανάκτηση εικόνων. Ωστόσο, οι μέθοδοι Βαθιάς Μάθησης, παρόλο που είναι ικανές να αντιμετωπίσουν αποτελεσματικά τα παραπάνω προβλήματα, παρουσιάζουν υψηλή υπολογιστική πολυπλοκότητα. Αυτό καθίσταται σημαντικό εμπόδιο στην εφαρμογή τους σε συσκευές με περιορισμένη υπολογιστική ισχύ. Στην παρούσα διδακτορική διατριβή μελετήθηκαν μέθοδοι Βαθιάς Μάθησης για την αντιμετώπιση των προβλημάτων της ανάκτησης εικόνων με βάση το σημασιολογικό τους περιεχόμενο, της κατηγοριοποίησης εικόνων, όπως επίσης και της αυτόματης περιγραφής βίντεο με λέξεις. Οι κύριες στοχεύσεις της παρούσας διδακτορικής διατριβής συνοψίζονται στην ανάπτυξη μεθόδων μάθησης αναπαραστάσεων προσαρμοσμένων στα συγκεκριμένα προβλήματα ανάλυσης ψηφιακών μέσων, όπως επίσης και στην ανάπτυξη ελαφρών μεθόδων Βαθιάς Μάθησης που θα επιτρέπουν την εφαρμ ...
Οι πρόσφατες εξελίξεις στον τομέα της Βαθιάς Μάθησης έχουν οδηγήσει σε εξαιρετικά αποτελέσματα για την αντιμετώπιση προβλημάτων ανάλυσης ψηφιακών μέσων, όπως είναι η κατηγοριοποίηση και η ανάκτηση εικόνων. Ωστόσο, οι μέθοδοι Βαθιάς Μάθησης, παρόλο που είναι ικανές να αντιμετωπίσουν αποτελεσματικά τα παραπάνω προβλήματα, παρουσιάζουν υψηλή υπολογιστική πολυπλοκότητα. Αυτό καθίσταται σημαντικό εμπόδιο στην εφαρμογή τους σε συσκευές με περιορισμένη υπολογιστική ισχύ. Στην παρούσα διδακτορική διατριβή μελετήθηκαν μέθοδοι Βαθιάς Μάθησης για την αντιμετώπιση των προβλημάτων της ανάκτησης εικόνων με βάση το σημασιολογικό τους περιεχόμενο, της κατηγοριοποίησης εικόνων, όπως επίσης και της αυτόματης περιγραφής βίντεο με λέξεις. Οι κύριες στοχεύσεις της παρούσας διδακτορικής διατριβής συνοψίζονται στην ανάπτυξη μεθόδων μάθησης αναπαραστάσεων προσαρμοσμένων στα συγκεκριμένα προβλήματα ανάλυσης ψηφιακών μέσων, όπως επίσης και στην ανάπτυξη ελαφρών μεθόδων Βαθιάς Μάθησης που θα επιτρέπουν την εφαρμογή τους σε συσκευές με περιορισμένους υπολογιστικούς πόρους. Για τον σκοπό αυτό, αρχικά αναπτύχθηκε γενική μέθοδος για την εκμάθηση αποτελεσματικών αναπαραστάσεων προσαρμοσμένων στο πρόβλημα της ανάκτησης εικόνων με βάση το σημασιολογικό τους περιεχόμενο. Η μέθοδος, στη συνέχεια, προσαρμόστηκε με σκοπό την εκμάθηση αναπαραστάσεων που βελτιώνουν παράλληλα με την ακρίβεια ανάκτησης, τις απαιτήσεις μνήμης και την ταχύτητα ανάκτησης. Στη συνέχεια, αναπτύχθηκαν ελαφρά μοντέλα Βαθιάς Μάθησης ικανά να εφαρμοστούν ακόμη και σε πραγματικό χρόνο για δεδομένα υψηλής ανάλυσης σε συσκευές με περιορισμένη υπολογιστική ισχύ, για την αντιμετώπιση γενικών προβλημάτων κατηγοριοποίησης εικόνων. Παράλληλα, αναπτύχθηκαν διάφορες τεχνικές κανονικοποίησης βασισμένες στην έννοια της μάθησης πολλαπλών εργασιών (π.χ. κανονικοποίηση βασισμένη στους αλγορίθμους ένθεσης γράφων, κανονικοποίηση βασισμένη στο κριτήριο της τετραγωνικής αμοιβαίας πληροφορίας), που επέτρεψαν την βελτίωση της ικανότητας γενίκευσης των προτεινόμενων ελαφρών μοντέλων. Εν συνεχεία, προτάθηκαν δύο μέθοδοι απευθείας απόσταξης γνώσης από το ίδιο το μοντέλο στον εαυτό του. Οι προτεινόμενες μέθοδοι επέτρεψαν την εκπαίδευση αποτελεσματικών ελαφρών μοντέλων σε προβλήματα κατηγοριοποίησης. Τέλος, προτάθηκε μέθοδος αυτόματης περιγραφής βίντεο με λέξεις, ικανή να συλλέξει διαφορετικούς τύπους πληροφορίας, παρέχοντας βελτιωμένα αποτελέσματα.
περισσότερα
Περίληψη σε άλλη γλώσσα
Recent advances in deep learning (DL) provided significant performance increase on various digital media analysis tasks, such as image classification and retrieval. However, despite their effectiveness, DL models suffer from high complexity. This constitutes a major impediment on applying these models on devices with restricted computational power. In this Ph.D thesis, we deal with three different digital media analysis problems, that is content based image retrieval, image classification, and video captioning, utilizing DL techniques. The principal goals of this thesis can be summarized in developing deep representation learning methods oriented to the specific digital media analysis tasks, and in developing lightweight DL methods that allow for deploying them on devices with restricted computational power. To this end, firstly a deep representation learning method for producing efficient retrieval oriented representations was proposed. Subsequently, the proposed method was properly a ...
Recent advances in deep learning (DL) provided significant performance increase on various digital media analysis tasks, such as image classification and retrieval. However, despite their effectiveness, DL models suffer from high complexity. This constitutes a major impediment on applying these models on devices with restricted computational power. In this Ph.D thesis, we deal with three different digital media analysis problems, that is content based image retrieval, image classification, and video captioning, utilizing DL techniques. The principal goals of this thesis can be summarized in developing deep representation learning methods oriented to the specific digital media analysis tasks, and in developing lightweight DL methods that allow for deploying them on devices with restricted computational power. To this end, firstly a deep representation learning method for producing efficient retrieval oriented representations was proposed. Subsequently, the proposed method was properly adapted in order to learn more efficient representations considering both the retrieval performance, and the memory requirements and the retrieval speed. Next, lightweight DL models capable of operating even in real-time for high resolution input, on devices with limited computation power were proposed, for addressing generic problems of image classification. In addition, various regularization techniques based on the concept of multitask learning were proposed (e.g., graph embedding based regularization, regularization based on the criterion of quadratic mutual information), improving the generalization ability of the proposed lightweight models. Furthermore, two online self distillation methods were proposed, allowing for training efficient lightweight models in generic classification problems. Finally, a video captioning method was proposed. The proposed method was capable of capturing different kinds of information, producing improved performance in the video captioning task.
περισσότερα