Περίληψη
Η βαθιά μάθηση και η μηχανική μάθηση έχουν μεταμορφώσει ριζικά τον τομέα της ταξινόμησης και ανάλυσης εικόνων, προσφέροντας σημαντικές προόδους στην ιατρική διάγνωση, την περιβαλλοντική και βιομηχανική παρακολούθηση, την αναγνώριση αντικειμένων σε πραγματικό χρόνο και την επεξεργασία φυσικής γλώσσας. Συνελικτικές νευρωνικές δομές (CNN), δίκτυα μακροπρόθεσμης μνήμης (LSTM), μηχανισμοί προσοχής και υβριδικές αρχιτεκτονικές αποδεικνύονται εξαιρετικά ικανά να εξάγουν ουσιώδη χαρακτηριστικά από δεδομένα υψηλής διάστασης και ποικίλων μορφών. Παρά την ταχεία πρόοδο, εξακολουθούν να υφίστανται προκλήσεις που αφορούν τη βελτιστοποίηση της ακρίβειας, την ισχυρή γενίκευση, την ερμηνευσιμότητα και την αποδοτική υπολογιστική λειτουργία, αναδεικνύοντας την ανάγκη για ολοκληρωμένη και διεπιστημονική έρευνα. Η παρούσα διατριβή συνοψίζει και επεκτείνει τα ευρήματα δημοσιευμένων εργασιών, προτείνοντας, υλοποιώντας και αξιολογώντας νέες τεχνικές βαθιάς και μηχανικής μάθησης για ποικίλες εφαρμογές εικόνας ...
Η βαθιά μάθηση και η μηχανική μάθηση έχουν μεταμορφώσει ριζικά τον τομέα της ταξινόμησης και ανάλυσης εικόνων, προσφέροντας σημαντικές προόδους στην ιατρική διάγνωση, την περιβαλλοντική και βιομηχανική παρακολούθηση, την αναγνώριση αντικειμένων σε πραγματικό χρόνο και την επεξεργασία φυσικής γλώσσας. Συνελικτικές νευρωνικές δομές (CNN), δίκτυα μακροπρόθεσμης μνήμης (LSTM), μηχανισμοί προσοχής και υβριδικές αρχιτεκτονικές αποδεικνύονται εξαιρετικά ικανά να εξάγουν ουσιώδη χαρακτηριστικά από δεδομένα υψηλής διάστασης και ποικίλων μορφών. Παρά την ταχεία πρόοδο, εξακολουθούν να υφίστανται προκλήσεις που αφορούν τη βελτιστοποίηση της ακρίβειας, την ισχυρή γενίκευση, την ερμηνευσιμότητα και την αποδοτική υπολογιστική λειτουργία, αναδεικνύοντας την ανάγκη για ολοκληρωμένη και διεπιστημονική έρευνα. Η παρούσα διατριβή συνοψίζει και επεκτείνει τα ευρήματα δημοσιευμένων εργασιών, προτείνοντας, υλοποιώντας και αξιολογώντας νέες τεχνικές βαθιάς και μηχανικής μάθησης για ποικίλες εφαρμογές εικόνας και συνδυασμού κειμένου–εικόνας. Στόχος της είναι: (ι) ο σχεδιασμός και η βελτιστοποίηση μοντέλων CNN και υβριδικών αρχιτεκτονικών με LSTM, μηχανισμούς προσοχής και στοιχεία transformer, (ιι) η διασφάλιση ανθεκτικότητας και κλιμακωσιμότητας μέσω στρατηγικών όπως η μεταφορά μάθησης, οι προηγμένες τεχνικές αύξησης δεδομένων και η προσαρμογή τομέα, και (ιιι) η ενσωμάτωση ερμηνευσιμότητας και διαφάνειας ώστε τα συστήματα τεχνητής νοημοσύνης να είναι αξιόπιστα και αποδεκτά από επαγγελματίες και φορείς λήψης αποφάσεων. Πραγματοποιήθηκαν εκτεταμένα πειράματα σε πραγματικά σύνολα δεδομένων που καλύπτουν ένα ευρύ φάσμα εφαρμογών. Στην ιατρική απεικόνιση, εξετάζονται ιστοπαθολογικές εικόνες για καρκίνο μαστού, μικροσκοπικές εικόνες λευκών αιμοσφαιρίων, ακτινογραφίες θώρακα για πνευ- μονία και COVID-19, μαγνητικές τομογραφίες εγκεφάλου για ανίχνευση όγκων και νόσου Αλτσχάιμερ, υπερηχογραφήματα θυρεοειδικών όζων και μικροσκοπικές εικόνες ελονοσίας. Στην περιβ- αλλοντική και βιομηχανική παρακολούθηση, η έρευνα περιλαμβάνει δορυφορική ταξινόμηση τοπίων, ανίχνευση απορριμμάτων σε έξυπνες πόλεις, αναγνώριση μετεωρολογικών εικόνων και υποστήριξη περιστατικών πετρελαιοκηλίδων. Στην αναγνώριση αντικειμένων και γενικής εικόνας, καλύπτονται η αναγνώριση κομματιών σκακιού, η αναγνώριση νοηματικής γλώσσας, η ταξινόμηση αθλητικών και φυσικών σκηνών, καθώς και η ανίχνευση μάσκας προσώπου σε πραγματικό χρόνο. Τέλος, μελέτες σε επεξεργασία φυσικής γλώσσας επεκτείνουν τη μεθοδολογία στην ανάλυση συναισθήματος και συναισθηματικής διάθεσης, συμπεριλαμβανομένων πολυτροπικών συστημάτων που συνδυάζουν κείμενο και εικόνα. Σε όλα τα πεδία εφαρμογής, οι προτεινόμενες μέθοδοι υπερέβησαν τα βασικά και πολλά σύγχρονα πρότυπα. Η αυστηρή αξιολόγηση με δείκτες όπως ακρίβεια, θετική προγνωστική τιμή (precision), ανάκληση, F1-score, AUC και, όπου απαιτείται, συντελεστή συσχέτισης Matthews, ανέδειξε όχι μόνο υψηλή προβλεπτική ικανότητα αλλά και ισχυρή γενίκευση σε μη οικείες συνθήκες, με περιορισμένο υπολογιστικό κόστος. Συστηματικές μελέτες αφαίρεσης (ablation) και παραμετρικής ρύθμισης εδραίωσαν τα ευρήματα και ενίσχυσαν την αναπαραγωγιμότητα. Μια ουσιαστική συμβολή της διατριβής είναι η ανάδειξη ενιαίων αρχιτεκτονικών και μεθοδολογικών αρχών που διατρέχουν όλες τις εφαρμογές. Βαθιές αλλά κατάλληλα κανονικοποιημένες CNN δομές, εμπλουτισμένες όπου χρειάζεται με προσοχή ή επαναληπτικές/τρανσφορμερ υπομονάδες, αποτελούν συνεκτικό σχεδιαστικό υπόβαθρο. Στρατηγικές που εστιάζουν στα δεδομένα—όπως εκτεταμένη αύξηση δείγματος, μεταφορά μάθησης και προσαρμογή τομέα—αποδεικνύονται καθοριστικές για ανθεκτικότητα σε θόρυβο, μικρά σύνολα και μεταβολές κατανομής. Η ερμηνευσιμότητα θεωρείται θεμελιώδης απαίτηση: θερμοχάρτες Grad-CAM, χαρτογραφήσεις προσοχής και εργαλεία SHAP/LIME αναδεικνύουν τα οπτικά ή γλωσσικά χαρακτηριστικά που καθοδηγούν κάθε απόφαση, επιτρέποντας ουσιαστική επιβεβαίωση από ειδικούς.Πέρα από την τεχνική καινοτομία, η διατριβή εξετάζει ηθικές και κοινωνικές διαστάσεις της τεχνητής νοημοσύνης, όπως η διαφάνεια, η δικαιοσύνη και η βιωσιμότητα, σε συμφωνία με τις ευρωπαϊκές και διεθνείς κατευθυντήριες οδηγίες. Αποδεικνύεται ότι η υψηλή ακρίβεια μπορεί να συνδυαστεί με ερμηνευσιμότητα, αποδοτική χρήση πόρων και υπεύθυνη διαχείριση δεδομένων, ενισχύοντας την εμπιστοσύνη και τη δυνατότητα πρακτικής εφαρμογής. Η διατριβή οργανώνεται σε τέσσερα μέρη. Το πρώτο εισάγει το ερευνητικό πρόβλημα, θέτει τους στόχους και εξετάζει κριτικά τη βιβλιογραφία, αναδεικνύοντας τα κενά που οδήγησαν στη συγκεκριμένη έρευνα. Το δεύτερο μέρος περιγράφει το προτεινόμενο πλαίσιο, τις αρχιτεκτονικές σχεδιάσεις, τα μαθηματικά θεμέλια και τις στρατηγικές εκπαίδευσης. Το τρίτο παρουσιάζει εκτε- ταμένα πειράματα και συγκριτικές μελέτες σε όλους τους τομείς εφαρμογής. Το τέταρτο συζητά συνολικά τα ευρήματα, αποστάζει τις ενιαίες αρχές σχεδιασμού και καταλήγει με περιορισμούς και τεκμηριωμένες κατευθύνσεις για μελλοντική έρευνα. Συνολικά, η διατριβή αυτή παρέχει μια πλήρη και πειραματικά τεκμηριωμένη μελέτη της βαθιάς και μηχανικής μάθησης για ταξινόμηση και ανάλυση εικόνων. Μέσα από την προώθηση ενοποιημένων και ερμηνεύσιμων αρχιτεκτονικών, ανθεκτικών στρατηγικών δεδομένων και επεκτάσιμων πρακτικών ανάπτυξης, αποδεικνύει ότι η τεχνητή νοημοσύνη μπορεί να είναι ταυτόχρονα επιστημονικά ακριβής, επιχειρησιακά αξιόπιστη και κοινωνικά υπεύθυνη, ενισχύοντας τον μετασχηματιστικό της ρόλο στη σύγχρονη υπολογιστική νοημοσύνη.
περισσότερα
Περίληψη σε άλλη γλώσσα
Deep learning and machine learning have profoundly transformed image classification and analysis, enabling major advances in medical diagnostics, environmental and industrial monitoring, real-time object recognition, and natural language understanding. Convolutional neural net- works (CNNs), long short-term memory (LSTM) networks, attention-based modules, and hybrid architectures now achieve unprecedented capability to extract meaningful representations from high-dimensional, multimodal data. Yet, despite these achievements, significant challenges remain in attaining optimal accuracy, strong out-of-sample generalization, interpretability, and computational efficiency, highlighting the need for systematic research that spans multiple do- mains.This doctoral thesis consolidates and extends the findings of several peer-reviewed papers to propose, implement, and evaluate novel deep learning and machine learning techniques for diverse visual and text–image applications. The research is driv ...
Deep learning and machine learning have profoundly transformed image classification and analysis, enabling major advances in medical diagnostics, environmental and industrial monitoring, real-time object recognition, and natural language understanding. Convolutional neural net- works (CNNs), long short-term memory (LSTM) networks, attention-based modules, and hybrid architectures now achieve unprecedented capability to extract meaningful representations from high-dimensional, multimodal data. Yet, despite these achievements, significant challenges remain in attaining optimal accuracy, strong out-of-sample generalization, interpretability, and computational efficiency, highlighting the need for systematic research that spans multiple do- mains.This doctoral thesis consolidates and extends the findings of several peer-reviewed papers to propose, implement, and evaluate novel deep learning and machine learning techniques for diverse visual and text–image applications. The research is driven by three overarching objectives: (i) to design and optimize CNN-based and hybrid models that integrate LSTMs, attention mechanisms, and transformer-style modules; (ii) to ensure robustness and scalability through data-centric strategies such as transfer learning, advanced augmentation, and domain adaptation; and (iii) to embed interpretability and explainability so that AI systems become transparent and clinically or operationally trustworthy. Extensive experimental investigations have been performed on real-world datasets covering a wide spectrum of applications. In the medical domain, these include histopathological breast cancer slides, white blood cell images, MRI scans for brain tumor and Alzheimer’s diagnosis, chest X-rays for pneumonia and COVID-19, ultrasound images of thyroid nodules, and mi- croscopic images of malaria parasites. In environmental and industrial monitoring, the thesis addresses high-resolution satellite scene classification, smart-waste detection, weather image recognition, and maritime oil-spill support. In object detection and general image recognition, it covers chess piece identification, sign language recognition, sports and natural scene classification, and real-time face mask detection. Natural language and text-based experiments extend the approach to sentiment and emotion analysis on large-scale social media and movie-review datasets, including multimodal fusions of text and images. Across these application areas, the proposed methods consistently surpass baseline tech- niques and many state-of-the-art alternatives. Rigorous evaluation—using accuracy, precision, recall, F1-score, AUC, and, when appropriate, the Matthews correlation coefficient—demonstrates not only high predictive accuracy but also robust generalization to unseen conditions, efficient training times, and manageable computational cost. The studies further show how careful ablation, parameter tuning, and cross-domain testing consolidate these gains into reproducible and scalable solutions.A key scientific contribution of the thesis is the identification of cross-cutting architectural and methodological principles that unify its diverse experiments. Deep yet well-regularized CNN cores, augmented when needed by attention or recurrent/transformer modules, emerge as a consistent design backbone. Data-centric strategies—comprehensive augmentation, transfer learning from large natural-image corpora, and domain adaptation across institutions, sensors, or linguistic platforms—prove indispensable for ensuring robustness in the face of noise, small sample sizes, and distribution shifts. Explainability is treated as an intrinsic requirement: saliency maps, Grad-CAM heatmaps, and model-agnostic tools such as SHAP and LIME reveal the visual or textual cues driving predictions, enabling experts to verify and refine the models. These principles, repeatedly validated in the Discussion chapter, constitute a unifying methodological framework that transcends individual applications.Beyond technical innovation, the thesis addresses the ethical and societal dimensions of artificial intelligence. Particular attention is paid to transparency, fairness, and sustainability—critical factors for regulatory compliance and for public acceptance in sensitive fields such as healthcare and environmental management. By demonstrating that high accuracy can coexist with interpretability, energy efficiency, and responsible data governance, the work contributes to the development of trustworthy AI systems aligned with current European and international guidelines.The dissertation is organized in four parts. The first introduces the research problem, for- mulates objectives, and surveys the relevant literature, identifying gaps that motivate the new contributions. The second part presents the proposed framework, detailing architectural design, mathematical foundations, and training strategies. The third part reports extensive experi- mental evaluations across all studied domains, supported by ablation analyses and comparative studies with state-of-the-art methods. The fourth part offers a comprehensive discussion of find- ings, distills cross-domain design principles, and concludes with limitations and well-grounded directions for future research. In summary, this thesis provides a comprehensive, experimentally validated study of deep learning and machine learning for image classification and analysis. By advancing unified and interpretable architectures, robust data strategies, and scalable deployment practices, it shows how artificial intelligence can achieve scientific rigor, real-world reliability, and societal respon- sibility. The integrated results demonstrate that carefully engineered AI models can address complex classification challenges in medicine, environmental and industrial monitoring, real- time object recognition, and natural language processing, reinforcing the transformative impact of deep learning on modern computational intelligence.
περισσότερα