AI-based synthesis for complex human poses, motions, and interactions

Η Καταγραφή Κίνησης (Motion Capture – MoCap) αποτελεί τεχνολογία με ευρύ πεδίο εφαρμογών, η ευρεία διάδοσή της όμως εξακολουθεί να συνιστά ανοικτό ερευνητικό ζήτημα. Ακόμη και τα πλέον προηγμένα οπτικά συστήματα απαιτούν ιδιαίτερα χρονοβόρα και επίπονη χειροκίνητη επιδιόρθωση, ενώ οι πρόσφατες εξελίξεις σε χαμηλού κόστους, markerless λύσεις περιορίζονται σημαντικά από τη χαμηλή ποιότητα των παραγόμενων δεδομένων, γεγονός που περιορίζει την περαιτέρω χρήση τους. Η παρούσα διατριβή έρχεται να αντιμετωπίσει τις προκλήσεις αυτές, προτείνοντας μια διαφορετική κατεύθυνση σε σχέση με τις υφιστάμενες προσεγγίσεις και αξιοποιώντας τεχνικές σύνθεσης μέσω Τεχνητής Νοημοσύνης, με στόχο την ακριβή καταγραφή σύνθετων ανθρώπινων στάσεων, κινήσεων και αλληλεπιδράσεων. Αρχικά, εξετάζεται η πρόκληση της καταγραφής σύνθετων ανθρώπινων στάσεων μέσω αξιοποίησης μεθόδων μάθησης αναπαραστάσεων για τη σύνθεση νέων δεδομένων εκπαίδευσης. Με τον τρόπο αυτό επιτυγχάνεται η εξισορρόπηση υπαρχόντων συνόλων δεδομένων MoCap, ώστε να καθίσταται δυνατή η εκπαίδευση αποτελεσματικότερων μοντέλων Τεχνητής Νοημοσύνης. Η αποτελεσματικότητα της προσέγγισης αυτής τεκμηριώνεται στο πρόβλημα της αυτόματης επισήμανσης δεικτών, το οποίο αποτελεί κρίσιμο στάδιο στις καταγραφές μέσω οπτικών συστημάτων MoCap. Ωστόσο, τα μοντέλα αυτά ενδέχεται να εισάγουν επιπλέον θόρυβο, τα οποία, σε συνδυασμό με τους χαμηλού κόστους αισθητήρες που χρησιμοποιούνται συχνά σε πραγματικές συνθήκες, οδηγούν σε σημαντική αβεβαιότητα στις μετρήσεις. Οι υφιστάμενες μέθοδοι βελτιστοποίησης συνήθως προϋποθέτουν καθαρά δεδομένα ή απλοποιημένα μοντέλα θορύβου, με αποτέλεσμα να μην είναι κατάλληλες για τέτοια σενάρια. Για τον λόγο αυτό, προτείνεται ένα νέο πλαίσιο βελτιστοποίησης, το οποίο μοντελοποιεί την αβεβαιότητα των ίδιων των περιορισμών, μαθαίνοντάς την ταυτόχρονα με τις μετρήσεις. Παρότι η εν λόγω μεθοδολογία αποδεικνύεται αποτελεσματική για συστήματα MoCap με χρήση δεικτών, δεν επαρκεί για την πολύ πιο απαιτητική περίπτωση των markerless συστημάτων. Τέτοια συστήματα παρουσιάζουν σοβαρά τεχνουργήματα, όπως ασταθείς εκτιμήσεις αρθρώσεων, εσφαλμένη αντιστοίχιση μερών του σώματος και πλήρης απουσία μετρήσεων, τα οποία καθιστούν τα δεδομένα ιδιαίτερα δύσκολα στη διαχείριση για τους περισσότερους επιλυτές. Επιπροσθέτως, οι περισσότερες υφιστάμενες προσεγγίσεις αδυνατούν να αξιοποιήσουν τη χρονική συνοχή που είναι εγγενής στα δεδομένα κίνησης. Προς αντιμετώπιση των ζητημάτων αυτών, προτείνεται ένα πλαίσιο για την ανθεκτική καταγραφή κινήσεων, το οποίο αξιοποιεί έναν λανθάνων χώρο με συγκεκριμένες γεωμετρικές ιδιότητες για την αναπαράσταση του χώρου των έγκυρων ανθρώπινων στάσεων. Η προσέγγιση αυτή επιτρέπει την εισαγωγή νέων τεχνικών σύνθεσης που αξιοποιούν εγγενώς τη χρονική συνοχή, καθιστώντας δυνατή τόσο την αποδοτική επίλυση της κίνησης όσο και την αποτελεσματική αντιμετώπιση σοβαρών τεχνουργημάτων. Συνολικά, η παρούσα διατριβή παρουσιάζει ένα σύνολο καινοτόμων τεχνικών που αξιοποιούν τη μάθηση αναπαραστάσεων για τη σύνθεση νέων δειγμάτων με σκοπό την εξισορρόπηση των δεδομένων εκπαίδευσης, τη μοντελοποίηση σύνθετων προτύπων θορύβου και την ανθεκτική επίλυση απαιτητικών σεναρίων καταγραφής κίνησης. Με τον τρόπο αυτό, συμβάλλει ουσιαστικά προς την κατεύθυνση της ευρείας προσβασιμότητας σε συστήματα MoCap υψηλής ποιότητας.

περισσότερα

Περίληψη σε άλλη γλώσσα

Motion Capture (MoCap) is a technology with broad applications, yet its democratization remains an open research topic. Even high-end optical systems require laborious manual cleanup, while recent advances in lower-cost, markerless MoCap are hampered by poor data quality, making them almost useless for downstream applications. This Thesis addresses these challenges, taking a shift from existing solutions and leveraging AI synthesis, enabling the accurate capture of complex poses, motion, and interactions. First, we tackle the challenge of complex human poses by using representation learning to synthesize new training data, balancing existing MoCap datasets to train more effective AI models. We demonstrate the efficacy of this approach on the task of automatic marker labeling, a critical step in optical MoCap workflows. However, these models can introduce complex noise patterns, which, combined with low-cost sensors often used in real-world settings, lead to significant uncertainty in measurements. Existing optimization approaches often assume clean data or simple noise models, making them ill-suited for these scenarios. We, therefore, propose a novel optimization framework that models the uncertainty of the constraints themselves, learning it alongside the measurements. While effective for optical MoCap, this method is insufficient for the far more challenging case of markerless data. Markerless MoCap suffers from severe artifacts, including jittery joint estimates, swapped body parts, and completely missing data, which are intractable for most solvers. Furthermore, most approaches fail to leverage the temporal coherence present in motion data. Hence, we propose a framework for robustly capturing motions, which leverages a learned manifold with specific geometric properties to represent the space of valid human poses. This enables us to introduce novel synthesis techniques that inherently leverage temporal coherence to enable efficient motion solving while effectively alleviating severe artifacts. In summary, this Thesis presents a suite of innovative techniques that utilize representation learning to synthesize new samples for balancing training data, modelcomplex noise patterns, and robustly solve challenging motion capture scenarios, thereby taking a step towards making high-quality MoCap widely accessible.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (91.43 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/61158
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/61158
ND	61158
Εναλλακτικός τίτλος	AI-based synthesis for complex human poses, motions, and interactions
Συγγραφέας	Αλμπάνης, Γεώργιος (Πατρώνυμο: Νικόλαος)
Ημερομηνία	02/2026
Ίδρυμα	Πανεπιστήμιο Θεσσαλίας. Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής και Τηλεπικοινωνιών
Εξεταστική επιτροπή	Κολομβάτσος Κωνσταντίνος Χατζηευθυμιάδης Ευστάθιος Αναγνωστόπουλος Χρήστος Πλαγιανάκος Βασίλειος Ποταμιάνος Γεράσιμος Αργυρός Αντώνιος Τζιρίτας Νικόλαος
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Τεχνητή νοημοσύνη
Λέξεις-κλειδιά	Ψηφιοποίηση Κίνησης; Ψηφιακοί Άνθρωποι; Μάθηση αναπαραστάσεων
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Development of large-scale optimization techniques and algorithms for use in wireless communication networks

Διδακτική της πληροφορικής: η διδασκαλία του προγραμματισμού: αντιλήψεις των σπουδαστών για την κατασκευή και επικύρωση προγραμμάτων και διδακτικές καταστάσεις για τη διαμόρφωση τους

Agricultural robotics and automation: robot collaboration for precision agriculture

Data and uncertainty driven optimization for dymamic edge computing

Efficient and secure algorithms for big data handling, processing, and delivery in cloud computing for Internet of Things networks

Ο πρωτοψάλτης Χρύσανθος Θεοδοσόπουλος (1920-1988): συμβολή στην ιστορία, ερμηνεία και εκτέλεση της ψαλτικής στη Θεσσαλονίκη κατά το δεύτερο ήμισυ του 20ου αιώνος

Συμβολή στη μελέτη κλιμάκων αξιολόγησης με μεθόδους της πολυδιάστατης ανάλυσης δεδομένων

Investigation and development of machine learning algorithms for analysis of large volumes of data

Σχεδιασμός και αξιοποίηση ενσωματωμένων συστημάτων στον τομέα του περιβάλλοντος

Ποιοτική ανάλυση της ασφαλιστικής αγοράς Β. Ελλάδας με χρήση σχεσιακών βάσεων δεδομένων(RDBMS) και δομημένης γλώσσας ερωταποκρίσεων(SQL)

"Σύνθεση σύνθετων ανθρώπινων σωματικών στάσεων, κινήσεων και αλληλεπιδράσεων με βάση την τεχνητή νοημοσύνη"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .