Περίληψη
Τα τελευταία χρόνια παρατηρείται μια ραγδαία ανάπτυξη στον τομέα της Τεχνητής Νοημοσύνης, ο οποίος έχει κεντρίσει το ενδιαφέρον οχι μόνο της επιστημονικής κοινότητας αλλά και ολόληρού του κόσμου. Η αλματώδης ανάπτυξη οφείλεται κυρίως στον ολοένα και αυξονόμενο όγκο διαθέσιμων δεδομένων αλλά και στην εξέλιξη του υλικού των υπολογιστών όπως οι κάρτες γραφικών και οι επεξεργαστές ώστε να είναι ικανοί να διαχειριστούν αποτελεσματικά αυτόν τον όγκο. Ήδη από το 2012, όπου o Alex Krizhevsky παρουσίασε την αρχιτεκτονική AlexNet δείχνοντας πως τα νευρωνικά δίκτυα μπορούν να εκπαιδευθούν εξαιρετικά γρήγορα με την χρήση κάρτας γραφικών, ξεκινούσε μια καινούρια εποχή στον τομέα της Τεχνητής Νοημοσύνης. Το έναυσμα αυτό έδωσε χώρο να αναπτυχθούν χιλιάδες τεχνικές που βασίζονται σε διάφορες αρχιτεκτονικές όπως τα Πλήρως Συνδεδεμένα Δίκτυα (FNN), τα Συνελικτικά Νευρωνικά δίκτυα (CNN), τα Δίκτυα Μακράς Βραχύχρονης Μνήμης (LSTM) αλλά και τα προσφάτως ανεπτυγμένα δίκτυα Μετασχηματιστών (Transformers) και ...
Τα τελευταία χρόνια παρατηρείται μια ραγδαία ανάπτυξη στον τομέα της Τεχνητής Νοημοσύνης, ο οποίος έχει κεντρίσει το ενδιαφέρον οχι μόνο της επιστημονικής κοινότητας αλλά και ολόληρού του κόσμου. Η αλματώδης ανάπτυξη οφείλεται κυρίως στον ολοένα και αυξονόμενο όγκο διαθέσιμων δεδομένων αλλά και στην εξέλιξη του υλικού των υπολογιστών όπως οι κάρτες γραφικών και οι επεξεργαστές ώστε να είναι ικανοί να διαχειριστούν αποτελεσματικά αυτόν τον όγκο. Ήδη από το 2012, όπου o Alex Krizhevsky παρουσίασε την αρχιτεκτονική AlexNet δείχνοντας πως τα νευρωνικά δίκτυα μπορούν να εκπαιδευθούν εξαιρετικά γρήγορα με την χρήση κάρτας γραφικών, ξεκινούσε μια καινούρια εποχή στον τομέα της Τεχνητής Νοημοσύνης. Το έναυσμα αυτό έδωσε χώρο να αναπτυχθούν χιλιάδες τεχνικές που βασίζονται σε διάφορες αρχιτεκτονικές όπως τα Πλήρως Συνδεδεμένα Δίκτυα (FNN), τα Συνελικτικά Νευρωνικά δίκτυα (CNN), τα Δίκτυα Μακράς Βραχύχρονης Μνήμης (LSTM) αλλά και τα προσφάτως ανεπτυγμένα δίκτυα Μετασχηματιστών (Transformers) και Οπτικών μετασχηματιστών (Vision Transformers). Ιδιαίτερα στον τομέα της μηχανικής όρασης το πεδίο έχει αλλάξει εντελώς τα τελευταία δέκα χρόνια. Η επιστημονική κοινότητα έχει στραφεί σχεδόν αποκλειστικά σε τεχνικές Τεχνητής Νοημοσύνης για κάθε πιθανή εφαρμογή, ενώ η χρήση των κλασικών μεθόδων ολοένα και μειώνεται. Πλέον, χάρη στην ανάπτυξη και την διάθεση ανοικτού κώδικα και προ-εκπαιδευμένων δικτύων, οποιοσδήποτε χρήστης μπορεί να εκμεταλλευθεί την πληθώρα αρχιτεκτονικών που έχουν εκπαιδευθεί σε τεράστιες βάσεις δεδομένων. Αν και η πρόοδος όλων αυτών των τεχνικών είναι αξιοσημείωτη, υπάρχουν ακόμα σημαντικά ζητήματα που αφορούν την ικανότητα γενίκευσης και καθολικότητας της πληροφορίας που μπορεί να εξαχθεί απο αυτές. Τα ζητήματα αυτά αφορούν κυρίως την μετάδοση γνώσης (transfer learning), μια δημοφιλή και πολύ ισχυρή μέθοδο κατά την όποια πραγματοποιείται εκπαίδευση ενός δικτύου σε μια βάση και στην συνέχεια εφαρμόζεται σε κάποια άλλη βάση ή εφαρμογή που μπορεί να διαθέτει παρόμοια ή διαφορετικά δεδομένα. Πειραματικά, τα δίκτυα αποδίδουν εξαιρετικά όταν η κατανομή των δεδομένων ή το πεδίο των δεδομένων είναι παρόμοιο. Όμως, όσο περισσότερο διαφοροποιούνται τα δεδομένα ή η εφαρμογή τόσο η απόδοση των δικτύων αρχίζει να αποκλίνει από τα επιθυμητά αποτελέσματα. Στόχος της διδακτορικής έρευνας κατά την έναρξη της το 2020, ήταν η ανάπτυξη ενός πολυ ισχυρού δικτύου, που θα είχε την δυνατότητα εξαγωγής χαρακτηριστικών υψηλής ποιότητας και γενίκευσης απο οποιαδήποτε εικόνα. Βάση για το συγκεκριμένο εγχείρημα αποτέλεσε η χρήση ήδη προ-εκπαιδευμένων δικτύων σε πολύ μεγάλες συλλογές δεδομένων, καθώς η ανάπτυξη τόσο πολυσύνθετων μοντέλων από την αρχή περιορίζεται εξαιτίας των τεράστιων υπολογιστικών απαιτήσεων. Η έρευνα που διενεργήθηκε διακρίνεται σε δύο κύρια και αλληλένδετα μέρη. Το πρώτο μέρος περιλαμβάνει την αξιολόγηση/ανάπτυξη τεχνικών βαθιάς μάθησης για την εξαγωγή χαρακτηριστικών εικόνας. Ως κριτήριο για την αξιολόγηση των εξαγόμενων χαρακτηριστικών χρησιμοποιείται η διεργασία της Ανάκτησης Εικόνας απο συγκεκριμένες Βάσεις αξιολόγησης (benchmark databases). Η διεργασία αυτή προσπαθεί να προσεγγίσει την ανθρώπινη οπτική κατανόηση όσον αφορά την ομοιότητα των εικόνων. Όσο πιο λεπτομερή και ουσιώδη τα χαρακτηριστικά που εξάγει το δίκτυο τόσο πιο πλούσιος σε πληροφορία θα είναι ο περιγραφέας κάθε εικόνας. Αρχικά στο πρώτο μέρος, πραγματοποιήθηκε μια εκτενής εξερεύνηση και μελέτη όσον αφορά τις τεχνικές βαθιάς μάθησης στην εξαγωγή χαρακτηριστικών. Αξιοποιήθηκαν οι πιο σύγχρονες αρχιτεκτονικές τόσο για τα Συνελικτικά Νευρωνικά Δίκτυα όσο και για τα δίκτυα Οπτικών Μετασχηματιστών που είχαν εκπαιδευθεί στην βάση δεδομένων Imagenet. Και στις δυο περιπτώσεις προτάθηκαν δύο συστήματα Ανάκτησης Εικόνων Βάσει Περιεχομένου (Content based Image Retrieval). Η πρώτη προσέγγιση χρησιμοποιούσε όλη την εικόνα απο το προεκπαιδευμένο δίκτυο για να εξάγει ένα καθολικό περιγραφέα, ενώ η δεύτερη έδινε διάφορα κομμάτια της εικόνας για να εξάγει πολλούς τοπικούς περιγραφείς. Παράλληλα δοκιμάστηκε ένα πλήθος υπερπαραμέτρων όπως η κανονικοποίηση των περιγραφέων, το μέγεθος της εικόνας όταν εισέρχεται στο δίκτυο και διάφορες μετρικές απόστασης/ομοιότητας. Κατά την ολοκλήρωση του πρώτου μέρους, ο στόχος επεκτάθηκε στην δημιουργία ενός καθολικού κωδικοποιητή ανεξάρτητου πεδίου. Με λίγα λόγια, το δίκτυο θα πρέπει να εξάγει ισχυρά χαρακτηριστικά ανεξάρτητα του περιεχομένου της εικόνας, ακόμα και αν οι εικόνες αυτές δεν σχετίζονται με τις εικόνες που παρουσιάστηκαν στο σετ των δεδομένων εκπαίδευσης. Σε αυτήν την περίπτωση υιοθετήθηκε η αρχιτεκτονική CLIP, προεκπαιδευμένη σε μια βάση πολύ μεγαλύτερη από την Imagenet. Το δίκτυο επανεκπαιδεύθηκε με μια νέα προσέγγιση, η οποία έλαβε την 6η θέση στο διαγωνισμό της Google "Universal Image Embedding". Η προσέγγιση αυτή, συνδυάζει διάφορες τεχνικές μάθησης και μια πληθώρα δεδομένων από διαφορετικά πεδία ώστε να προσεγγίσει την καθολικότητα των εξαγόμενων χαρακτηριστικών. Το δεύτερος μέρος της διατριβής αφορά την εφαρμογή των μοντέλων βαθιάς μάθησης σε πραγματικά προβλήματα και πως η ικανότητα γενίκευσης που παρουσιάζουν τα καθίστα την πρώτη επιλογή για εφαρμογές όρασης. Η πρώτη εφαρμογή συνδυάζει το πρωτόκολλο μετάδοσης πακέτων LoRa με τα CNNs με στόχο την αναγνώριση ασθενειών αμπέλου από εικόνες σε συνθήκες περιορισμένου εύρους-ζώνης (απώλεια σημαντικού ποσοστού πακέτων/εικονοστοιχείων). Η δεύτερη χρησιμοποίησε CNNs ως συστήματα CBIR για την αυτοματοποίηση της διαδικασίας ομοιότητας με βάση το GESTALT για εκπαιδευτικούς σκοπούς, αλληλοεπιδρώντας με ένα ανθρωποειδές ρομπότ NAO. Ο στόχος ήταν η αύξηση της προσοχής και της δημιουργικότητας των συμμετεχόντων.
περισσότερα
Περίληψη σε άλλη γλώσσα
In recent years, there has been a rapid growth in the field of Artificial Intelligence, capturing the attention not only of the scientific community but also the entire world. This surge is primarily attributed to the increasing volume of available data and the advancement of computer hardware, such as graphics cards and processors, enabling effective handling of this data. Since 2012, with the introduction of AlexNet by Alex Krizhevsky, demonstrating that neural networks could be trained exceptionally fast using graphics cards, a new era began in the field of Artificial Intelligence. This milestone paved the way for the development of thousands of techniques based on various architectures such as Fully Connected Networks (FNNs), Convolutional Neural Networks (CNNs), Long Short-Term Memory Networks (LSTMs), and recently developed Transformers and Vision Transformers. Particularly in the field of computer vision, the landscape has completely transformed in the last decade. The scientifi ...
In recent years, there has been a rapid growth in the field of Artificial Intelligence, capturing the attention not only of the scientific community but also the entire world. This surge is primarily attributed to the increasing volume of available data and the advancement of computer hardware, such as graphics cards and processors, enabling effective handling of this data. Since 2012, with the introduction of AlexNet by Alex Krizhevsky, demonstrating that neural networks could be trained exceptionally fast using graphics cards, a new era began in the field of Artificial Intelligence. This milestone paved the way for the development of thousands of techniques based on various architectures such as Fully Connected Networks (FNNs), Convolutional Neural Networks (CNNs), Long Short-Term Memory Networks (LSTMs), and recently developed Transformers and Vision Transformers. Particularly in the field of computer vision, the landscape has completely transformed in the last decade. The scientific community has predominantly turned to AI techniques for various applications, diminishing the use of classical methods. With the availability of open-source code and pre-trained networks, users can leverage a plethora of architectures trained on massive databases. While the progress of these techniques is remarkable, there are still significant challenges regarding the generalization and universality of the information extracted from them. These challenges mainly revolve around knowledge transfer, a popular and powerful method where a network trained on one dataset is applied to another dataset or application with similar or different data. Experimentally, networks perform exceptionally well when the data distribution or domain is similar. However, as the data or application diverges, the network's performance deviates from desired results. The goal of the doctoral research initiated in 2020 was to develop a powerful network capable of extracting high-quality and generalized features from any image. The foundation for this project was the use of pre-trained networks on much larger databases than ImageNet, as training from scratch was prohibitive due to computational resource constraints. The research conducted can be divided into two main parts that are interconnected. The first part involves the evaluation and development of deep learning techniques for image feature extraction. The evaluation of the extracted features utilized the Image Retrieval process from specific benchmark databases. This process aims to approximate human visual understanding concerning the similarity of images. The finer and more essential the features extracted by the network, the richer the information descriptor for each image. Initially, an extensive exploration and study were conducted on deep learning techniques for feature extraction, employing the most modern architectures for both CNNs and Vision Transformers pre-trained on the ImageNet database. In both cases, two Content-based Image Retrieval approaches were proposed. The first approach used the entire image from the pre-trained network to extract a global descriptor, while the second provided various parts of the image to extract multiple local descriptors. Additionally, various hyperparameters were tested, such as descriptor normalization, image size when entering the network, and various distance/similarity metrics. At the end of the first part, the system takes a step further. The objective is to create a universal encoder independent of the domain. In other words, the network should extract robust features regardless of the content of the image, even if those images have no relation to the images presented in the training dataset. In this case, the CLIP architecture was adopted, pre-trained on a much larger database than ImageNet. The network was retrained using a new approach that achieved the 6th position in Google's "Universal Image Embedding" competition. This approach combines various learning techniques and a plethora of data from different fields to approach the universality of extracted features. The second part of the thesis involves the application of deep learning models to real-world problems and how their generalization capabilities make them the preferred choice for vision applications. The first application combines LoRa packet transmission protocol with CNNs to identify vine diseases from images under conditions of limited bandwidth (significant packet/image loss). The second utilized CNNs as CBIR systems for automating the similarity process based on GESTALT for educational purposes, interacting with a humanoid robot NAO. The goal was to increase participants' attention and creativity through interaction.
περισσότερα