Αλγόριθμοι αυτοματοποιημένης επεξεργασίας για δομημένα, οπτικά και αισθητηριακά δεδομένα με χρήση μηχανικής μάθησης

Οι πρόσφατες εξελίξεις στον τομέα της υπολογιστικής όρασης και της ανάλυσης ανθρωπίνων συμπεριφορών, αξιοποιώντας τη μηχανική μάθηση, έχουν ανοίξει νέους δρόμους για την ανάπτυξη εφαρμογών σε τομείς όπως η ασφάλεια, η πολιτική προστασία και η ιατρική περίθαλψη. Αυτές οι εφαρμογές περιλαμβάνουν, μεταξύ άλλων, την παρακολούθηση ασθενών με νοητικά προβλήματα ή την πρόληψη επιπλοκών σε ποικίλα ιατρικά σενάρια. Η συνεχής εξέλιξη του υλικού υπολογιστικών συστημάτων (hardware), σε συνδυασμό με την ανάπτυξη μηχανών υψηλής υπολογιστικής απόδοσης (High-Performance Computing), έχει καταστήσει δυνατή την εφαρμογή προηγμένων μεθόδων μηχανικής μάθησης (MachineLearning) σε ένα ευρύ φάσμα πεδίων. Βρισκόμαστε πλέον στο κατώφλι μιας νέας εποχής, όπου η τεχνολογία μπορεί να συμβάλει σημαντικά στη βελτίωση της ποιότητας ζωής. Τα ενλόγω συστήματα, μαζί με τις υπάρχουσες αλλά και τις μελλοντικές εφαρμογές τους, έχουν τη δυνατότητα να παρακολουθούνται, να βελτιώνονται και να προσαρμόζονται στις σύγχρονες κοινωνικές ανάγκες. Η παρούσα διδακτορική διατριβή εστιάζει σε δύο βασικούς ερευνητικούς τομείς: Στο πρώτο μέρος της διατριβής παρουσιάζεται ένας αλγόριθμος πρόβλεψης ανθρώπινης συμπεριφοράς μέσω της ανάλυσης στάσεων σώματος. Χρησιμοποιώντας το MediaPipeHolistic Model, αναπτύχθηκε ένα σύστημα ανίχνευσης αμυντικών και επιθετικών στάσεων σώματος, το οποίο βασίζεται στη μηχανική μάθηση. Τα πειραματικά αποτελέσματα έδειξαν ότι το σύστημα μπορεί να λειτουργήσει αποδοτικά τόσο σε υπολογιστές υψηλών επιδόσεων όσο και σε συσκευές χαμηλής υπολογιστικής ισχύος. Μετά από αυτή τη διερευνητική φάση, κατά την οποία καθορίστηκε μια αποδοτική και λειτουργική μεθοδολογία ανάλυσης στάσεων σώματος, η έρευνα επεκτάθηκε στην ανάπτυξη ενός πρότυπου μοντέλου ανίχνευσης επιθετικών συμπεριφορών, ως δυναμικού μοντέλου για την πρόβλεψη επιθετικών επεισοδίων σε ασθενείς με άνοια. Το μοντέλο αυτό αξιοποίησε ευρύτερα δεδομένα και ενσωμάτωσε εξωτερικά σύνολα δεδομένων (datasets) με σκοπό την επικύρωση και ενίσχυση των ευρημάτων που προέκυψαν από την αρχική πειραματική μελέτη. Για τον λόγο αυτό, με βάση τη μεθοδολογική γνώση που αποκτήθηκε στο προηγούμενο στάδιο, αναπτύχθηκε μια πολυτροπική ανίχνευση και πρόβλεψη επιθετικής συμπεριφοράς βάσει ανθρώπινων χαρακτηριστικών, όπως οι εκφράσεις προσώπου, η στάση σώματος και οι κινήσεις των άκρων. Η ανίχνευση και πρόβλεψη επιθετικής συμπεριφοράς σε ασθενείς μεάνοια αποτελεί σημαντική πρόκληση για το υγειονομικό προσωπικό και τους φροντιστές. Σε αυτή τη διατριβή, παρουσιάζεται ένα μοντέλο ταξινόμησης συμπεριφοράς που βασίζεται στο MediaPipe Holistic Model και χρησιμοποιεί δεδομένα από χειρονομίες, στάση σώματος και εκφράσεις προσώπου για την ανίχνευση διαπληκτισμών. Τα πειράματα έδειξαν ότι ο Ταξινομητής Τυχαίου Δασών (Random Forest Classifier) παρέχει την καλύτερη απόδοση, θέτοντας τις βάσεις για μελλοντική ανάπτυξη ενός μοντέλου πρόβλεψης επιθετικότητας. Επίσης, η έρευνα επεκτείνεται με την ενσωμάτωση ηχητικών χαρακτηριστικών στην ανίχνευση επιθετικής συμπεριφοράς. Χρησιμοποιώντας μια πολυτροπική προσέγγιση, το ηχητικό μοντέλο εκπαιδεύτηκε σε δεδομένα φωνητικών εκφράσεων κατά τη διάρκεια επιθετικών και μη επιθετικών συμπεριφορών. Μέσω της όψιμης συγχώνευσης (Late Fusion), τα αποτελέσματα από τα οπτικά και ακουστικά μοντέλα συγχωνεύτηκαν σε έναν μετα-ταξινομητή, προσφέροντας βελτιωμένη ακρίβεια στην ανίχνευση επιθετικών επεισοδίων. Πραγματοποιήθηκε σύγκριση μεταξύ πρώιμης (Early Fusion) και όψιμης συγχώνευσης (Late Fusion) για την πρόβλεψη επιθετικής συμπεριφοράς, με στόχο την αξιολόγηση της καταλληλότητας κάθε μεθόδου. Τα αποτελέσματα έδειξαν ότι η όψιμη συγχώνευση υπερτερεί σε ακρίβεια, ευαισθησία και χρόνο εξαγωγής συμπερασμάτων, ενώ η πρώιμη συγχώνευση παρουσίασε υψηλότερη ακρίβεια, καθιστώντας την πιο κατάλληλη για εφαρμογές όπου είναι κρίσιμη η ελαχιστοποίηση των ψευδώς θετικών προβλέψεων. Στο δεύτερο μέρος της διατριβής πραγματοποιείται πρόβλεψη δόσης αντιψυχωσικών σε πρώτο επεισόδιο ψύχωσης μέσω πολυτροπικών δεδομένων. Η τελευταία φάση της έρευνας επικεντρώνεται στην ανάπτυξη μοντέλων μηχανικής μάθησης για την πρόβλεψη της απαιτούμενης δόσης αντιψυχωσικών σε ασθενείς με πρώτο επεισόδιο ψύχωσης (FEP). Χρησιμοποιώντας δεδομένα από την Athens First Episode Research Study, αναπτύχθηκαν μοντέλα πρόβλεψης βασισμένα σε κλινικές μεταβλητές, τον Exposome Score και νευροψυχολογικά δεδομένα. Η ανάλυση έδειξε ότι η ενσωμάτωση περιβαλλοντικών και γνωστικών δεδομένων βελτίωσε την ακρίβεια πρόβλεψης, καθιστώντας το μοντέλο χρήσιμο για την εξατομίκευση της θεραπείας. Οι ασθενείς που λάμβαναν χαμηλότερες δόσεις είχαν υψηλότερα ποσοστά ύφεσης, ενώ εκείνοι με μη-συναισθηματικές ψυχώσεις απαιτούσαν υψηλότερες δόσεις. Τα αποτελέσματα υποδεικνύουν τη δυνητική χρησιμότητα των πολυτροπικών μεθόδων μηχανικής μάθησης στην κλινική πράξη. Η σημασία αυτής της διδακτορικής διατριβής συμβάλλει στην εξέλιξη των εφαρμογών μηχανικής μάθησης και συνεισφέρει στη βελτίωση της ακρίβειας και της αποδοτικότητας σε κρίσιμες εφαρμογές που αφορούν την ποιότητα ζωής, ανοίγοντας παράλληλα νέους δρόμους για την εφαρμογή της σε πραγματικά προβλήματα. Επιπλέον, προωθεί την ανάπτυξη πολυτροπικών προσεγγίσεων για την ανίχνευση και πρόβλεψη ανθρώπινης συμπεριφοράς, με εφαρμογές στην ασφάλεια, την υγειονομική περίθαλψη και την εξατομικευμένη θεραπεία. Η ενοποίηση οπτικών, ακουστικών και κλινικών δεδομένων προσφέρει νέα προοπτική στην πρόβλεψη επιθετικής συμπεριφοράς και στην προσαρμογή θεραπειών ψυχικών διαταραχών, θέτοντας τις βάσεις για περαιτέρω έρευνα και εφαρμογές στην κλινική πράξη. Ο συνδυασμός ανάλυσης ανθρώπινης συμπεριφοράς και κλινικών εφαρμογών αναδεικνύει την αξία της προτεινόμενης έρευνας, ανοίγοντας ταυτόχρονα ένα νέο μονοπάτι για την επέκταση των εφαρμογών στο πεδίο της τεχνητής νοημοσύνης.

περισσότερα

Περίληψη σε άλλη γλώσσα

Recent advances in computer vision and human behavior analysis, leveraging machine learning, have opened new avenues for the development of applications in domains such assecurity, civil protection, and healthcare. These applications include, among others, the monitoring of patients with cognitive impairments and the prevention of complications in various medical contexts. The continuous evolution of computing hardware, combined with the development of high-performance computing systems, has enabled the implementation of advanced machine learning methods across a wide range of fields. We are now at the threshold of a new era, where technology can significantly contribute to improving quality oflife. These systems, along with their current and future applications, can be monitored, optimized, and adapted to meet modern social needs. The present doctoral dissertation focuses on two main research areas. In the first part of the dissertation, an algorithm for predicting human behavior through bodyposture analysis is presented. Using the MediaPipe Holistic Model, a system was developed for detecting defensive and aggressive body postures based on machine learning. Experimental results demonstrated that the system can operate efficiently on both high-performance computers and low-power computing devices. Following this exploratory phase, during which an effective and functional methodology for body posture analysis was established, the research expanded toward developing a prototype model for the detection of aggressive behaviors. This model served as a dynamic framework for predicting aggressive episodes in patients with dementia. It incorporated a broader range of data and integrated external datasets to validate and strengthen the findings derived from the initial experimental study. Building upon the methodological knowledge acquired in the previous stage, a multimod alapproach for the detection and prediction of aggressive behavior was developed, based on human features such as facial expressions, body posture, and limb movements. Detecting and predicting aggressive behavior in patients with dementia represents a major challenge for healthcare professionals and caregivers. In this dissertation, a behavior classification model is presented, which builds upon the MediaPipe Holistic Model and utilizes data from gestures, posture, and facial expressions to detect conflict episodes. Experimental results indicated thatthe Random Forest Classifier achieved the best performance, laying the groundwork for future development of predictive models of aggression. Furthermore, the research was extended by incorporating acoustic features into the detection of aggressive behavior. Using a multimodal framework, the audio-based model was trained on vocal expression data corresponding to both aggressive and non-aggressive behaviors. Through a late fusion approach, the outputs from the visual and auditory models were merged into a meta-classifier, achieving improved accuracy in detecting aggressive incidents. Acomparison between early fusion and late fusion strategies was conducted to evaluate the suitability of each method for predicting aggressive behavior. Results showed that late fusion outperformed in terms of accuracy, sensitivity, and inference time, whereas early fusion achieved higher precision, making it more appropriate for applications where minimizing false positives is crucial. In the second part of the dissertation, the focus shifts to predicting antipsychotic dosage infirst-episode psychosis (FEP) patients using multimodal data. This phase centers on developing machine learning models capable of predicting the required antipsychotic dosage based on data from the Athens First Episode Research Study. Prediction models were developed using clinical variables, the Exposome Score, and neuropsychological data. The analysis revealed that incorporating environmental and cognitive variables improved predictive accuracy, making the model useful for personalized treatment planning. Patients receiving lower doses exhibited higher remission rates, while those with non-affective psychoses required higher doses. These findings highlight the potential clinical utility of multimodal machine learning methods in psychiatric practice. The significance of this dissertation lies in advancing the application of machine learning in improving accuracy and efficiency across critical domains related to quality of life, while opening new directions for its practical implementation. Moreover, it promotes the development of multimodal approaches for the detection and prediction of human behavior, with potential applications in safety, healthcare, and personalized treatment. The integration of visual, auditory, and clinical data provides a novel perspective for predicting aggressive behavior and tailoring therapies for mental disorders, laying the foundation for further research and clinical applications. The combination of human behavior analysis and clinical modeling underscores the scientific value of this research, while opening new pathways for extending artificial intelligence applications in real-world contexts.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (5.41 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/61047
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/61047
ND	61047
Εναλλακτικός τίτλος	Automated processing algorithms for structured, visual, and sensorial data using machine learning
Συγγραφέας	Γαλανάκης, Ιωάννης (Πατρώνυμο: Κωνσταντίνος)
Ημερομηνία	10/2025
Ίδρυμα	Πανεπιστήμιο Δυτικής Αττικής. Σχολή Μηχανικών. Τμήμα Μηχανικών Πληροφορικής και Υπολογιστών
Εξεταστική επιτροπή	Βογιατζής Ιωάννης Καρανικόλας Νικήτας Βουλόδημος Αθανάσιος Σγουροπούλου Κλειώ Τρούσσας Χρήστος Στεφανής Νίκος Βασιλακόπουλος Μιχάλης
Επιστημονικό πεδίο	Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ ➨ Υπολογιστές, Υλικό (hardware) και Αρχιτεκτονική Ιατρική και Επιστήμες Υγείας ➨ Κλινική Ιατρική ➨ Ψυχιατρική και Ψυχική υγεία
Λέξεις-κλειδιά	Μηχανική μάθηση; Εκτίμηση και Πρόβλεψη Ανθρώπινων Συμπεριφορών; Ταξινόμηση και Εκπαίδευση Μοντέλων Μηχανικής Μάθησης; Συνελικτικά νευρωνικά δίκτυα
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Μέθοδοι μηχανικής μάθησης για σημασιολογική ανάλυση βίντεο

Water resources management in agricultural watersheds using remote sensing

Ανάπτυξη μοντέλων στερεομεταφοράς σε ορεινές λεκάνες απορροής εστιάζοντας στην λεκάνη του Βουραϊκού ποταμού

Aerosol typing based on active/passive remote sensing technique

Η ΤΕΧΝΙΚΗ ΚΑΙ ΕΠΑΓΓΕΛΜΑΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΣΤΗΝ ΕΛΛΑΔΑ: ΠΡΟΣΕΓΓΙΣΗ ΜΕΣΑ ΑΠΟ ΤΗ ΣΥΓΚΡΙΣΗ ΤΟΥ ΕΛΛΗΝΙΚΟΥ ΚΑΙ ΤΟΥ ΓΕΡΜΑΝΙΚΟΥ ΣΥΣΤΗΜΑΤΟΣ

Inverse modelling of emissions using satellite and in situ observations and chemical transport modelling

Analyzing perspectives on remote education: an NLP/ML pipeline for modern Greek interview data

Investigation and development of machine learning algorithms for analysis of large volumes of data

Μελέτη τροποσφαιρικών αερολυμάτων με επίγειες και δορυφορικές τεχνικές: ανάλυση μετρήσεων και στατιστική επεξεργασία

Ανάπτυξη μεθόδων συγχώνευσης τηλεπισκοπικών δεδομένων και εφαρμογή στην παρατήρηση βλάστησης σε περιοχές με προηγούμενη μεταλλευτική δραστηριότητα

"Αλγόριθμοι αυτοματοποιημένης επεξεργασίας για δομημένα, οπτικά και αισθητηριακά δεδομένα με χρήση μηχανικής μάθησης"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .