Περίληψη
Η Καταγραφή Κίνησης (Motion Capture – MoCap) αποτελεί τεχνολογία με ευρύ πεδίο εφαρμογών, η ευρεία διάδοσή της όμως εξακολουθεί να συνιστά ανοικτό ερευνητικό ζήτημα. Ακόμη και τα πλέον προηγμένα οπτικά συστήματα απαιτούν ιδιαίτερα χρονοβόρα και επίπονη χειροκίνητη επιδιόρθωση, ενώ οι πρόσφατες εξελίξεις σε χαμηλού κόστους, markerless λύσεις περιορίζονται σημαντικά από τη χαμηλή ποιότητα των παραγόμενων δεδομένων, γεγονός που περιορίζει την περαιτέρω χρήση τους. Η παρούσα διατριβή έρχεται να αντιμετωπίσει τις προκλήσεις αυτές, προτείνοντας μια διαφορετική κατεύθυνση σε σχέση με τις υφιστάμενες προσεγγίσεις και αξιοποιώντας τεχνικές σύνθεσης μέσω Τεχνητής Νοημοσύνης, με στόχο την ακριβή καταγραφή σύνθετων ανθρώπινων στάσεων, κινήσεων και αλληλεπιδράσεων. Αρχικά, εξετάζεται η πρόκληση της καταγραφής σύνθετων ανθρώπινων στάσεων μέσω αξιοποίησης μεθόδων μάθησης αναπαραστάσεων για τη σύνθεση νέων δεδομένων εκπαίδευσης. Με τον τρόπο αυτό επιτυγχάνεται η εξισορρόπηση υπαρχόντων συνόλων δεδομέν ...
Η Καταγραφή Κίνησης (Motion Capture – MoCap) αποτελεί τεχνολογία με ευρύ πεδίο εφαρμογών, η ευρεία διάδοσή της όμως εξακολουθεί να συνιστά ανοικτό ερευνητικό ζήτημα. Ακόμη και τα πλέον προηγμένα οπτικά συστήματα απαιτούν ιδιαίτερα χρονοβόρα και επίπονη χειροκίνητη επιδιόρθωση, ενώ οι πρόσφατες εξελίξεις σε χαμηλού κόστους, markerless λύσεις περιορίζονται σημαντικά από τη χαμηλή ποιότητα των παραγόμενων δεδομένων, γεγονός που περιορίζει την περαιτέρω χρήση τους. Η παρούσα διατριβή έρχεται να αντιμετωπίσει τις προκλήσεις αυτές, προτείνοντας μια διαφορετική κατεύθυνση σε σχέση με τις υφιστάμενες προσεγγίσεις και αξιοποιώντας τεχνικές σύνθεσης μέσω Τεχνητής Νοημοσύνης, με στόχο την ακριβή καταγραφή σύνθετων ανθρώπινων στάσεων, κινήσεων και αλληλεπιδράσεων. Αρχικά, εξετάζεται η πρόκληση της καταγραφής σύνθετων ανθρώπινων στάσεων μέσω αξιοποίησης μεθόδων μάθησης αναπαραστάσεων για τη σύνθεση νέων δεδομένων εκπαίδευσης. Με τον τρόπο αυτό επιτυγχάνεται η εξισορρόπηση υπαρχόντων συνόλων δεδομένων MoCap, ώστε να καθίσταται δυνατή η εκπαίδευση αποτελεσματικότερων μοντέλων Τεχνητής Νοημοσύνης. Η αποτελεσματικότητα της προσέγγισης αυτής τεκμηριώνεται στο πρόβλημα της αυτόματης επισήμανσης δεικτών, το οποίο αποτελεί κρίσιμο στάδιο στις καταγραφές μέσω οπτικών συστημάτων MoCap. Ωστόσο, τα μοντέλα αυτά ενδέχεται να εισάγουν επιπλέον θόρυβο, τα οποία, σε συνδυασμό με τους χαμηλού κόστους αισθητήρες που χρησιμοποιούνται συχνά σε πραγματικές συνθήκες, οδηγούν σε σημαντική αβεβαιότητα στις μετρήσεις. Οι υφιστάμενες μέθοδοι βελτιστοποίησης συνήθως προϋποθέτουν καθαρά δεδομένα ή απλοποιημένα μοντέλα θορύβου, με αποτέλεσμα να μην είναι κατάλληλες για τέτοια σενάρια. Για τον λόγο αυτό, προτείνεται ένα νέο πλαίσιο βελτιστοποίησης, το οποίο μοντελοποιεί την αβεβαιότητα των ίδιων των περιορισμών, μαθαίνοντάς την ταυτόχρονα με τις μετρήσεις. Παρότι η εν λόγω μεθοδολογία αποδεικνύεται αποτελεσματική για συστήματα MoCap με χρήση δεικτών, δεν επαρκεί για την πολύ πιο απαιτητική περίπτωση των markerless συστημάτων. Τέτοια συστήματα παρουσιάζουν σοβαρά τεχνουργήματα, όπως ασταθείς εκτιμήσεις αρθρώσεων, εσφαλμένη αντιστοίχιση μερών του σώματος και πλήρης απουσία μετρήσεων, τα οποία καθιστούν τα δεδομένα ιδιαίτερα δύσκολα στη διαχείριση για τους περισσότερους επιλυτές. Επιπροσθέτως, οι περισσότερες υφιστάμενες προσεγγίσεις αδυνατούν να αξιοποιήσουν τη χρονική συνοχή που είναι εγγενής στα δεδομένα κίνησης. Προς αντιμετώπιση των ζητημάτων αυτών, προτείνεται ένα πλαίσιο για την ανθεκτική καταγραφή κινήσεων, το οποίο αξιοποιεί έναν λανθάνων χώρο με συγκεκριμένες γεωμετρικές ιδιότητες για την αναπαράσταση του χώρου των έγκυρων ανθρώπινων στάσεων. Η προσέγγιση αυτή επιτρέπει την εισαγωγή νέων τεχνικών σύνθεσης που αξιοποιούν εγγενώς τη χρονική συνοχή, καθιστώντας δυνατή τόσο την αποδοτική επίλυση της κίνησης όσο και την αποτελεσματική αντιμετώπιση σοβαρών τεχνουργημάτων. Συνολικά, η παρούσα διατριβή παρουσιάζει ένα σύνολο καινοτόμων τεχνικών που αξιοποιούν τη μάθηση αναπαραστάσεων για τη σύνθεση νέων δειγμάτων με σκοπό την εξισορρόπηση των δεδομένων εκπαίδευσης, τη μοντελοποίηση σύνθετων προτύπων θορύβου και την ανθεκτική επίλυση απαιτητικών σεναρίων καταγραφής κίνησης. Με τον τρόπο αυτό, συμβάλλει ουσιαστικά προς την κατεύθυνση της ευρείας προσβασιμότητας σε συστήματα MoCap υψηλής ποιότητας.
περισσότερα
Περίληψη σε άλλη γλώσσα
Motion Capture (MoCap) is a technology with broad applications, yet its democratization remains an open research topic. Even high-end optical systems require laborious manual cleanup, while recent advances in lower-cost, markerless MoCap are hampered by poor data quality, making them almost useless for downstream applications. This Thesis addresses these challenges, taking a shift from existing solutions and leveraging AI synthesis, enabling the accurate capture of complex poses, motion, and interactions. First, we tackle the challenge of complex human poses by using representation learning to synthesize new training data, balancing existing MoCap datasets to train more effective AI models. We demonstrate the efficacy of this approach on the task of automatic marker labeling, a critical step in optical MoCap workflows. However, these models can introduce complex noise patterns, which, combined with low-cost sensors often used in real-world settings, lead to significant uncertainty in m ...
Motion Capture (MoCap) is a technology with broad applications, yet its democratization remains an open research topic. Even high-end optical systems require laborious manual cleanup, while recent advances in lower-cost, markerless MoCap are hampered by poor data quality, making them almost useless for downstream applications. This Thesis addresses these challenges, taking a shift from existing solutions and leveraging AI synthesis, enabling the accurate capture of complex poses, motion, and interactions. First, we tackle the challenge of complex human poses by using representation learning to synthesize new training data, balancing existing MoCap datasets to train more effective AI models. We demonstrate the efficacy of this approach on the task of automatic marker labeling, a critical step in optical MoCap workflows. However, these models can introduce complex noise patterns, which, combined with low-cost sensors often used in real-world settings, lead to significant uncertainty in measurements. Existing optimization approaches often assume clean data or simple noise models, making them ill-suited for these scenarios. We, therefore, propose a novel optimization framework that models the uncertainty of the constraints themselves, learning it alongside the measurements. While effective for optical MoCap, this method is insufficient for the far more challenging case of markerless data. Markerless MoCap suffers from severe artifacts, including jittery joint estimates, swapped body parts, and completely missing data, which are intractable for most solvers. Furthermore, most approaches fail to leverage the temporal coherence present in motion data. Hence, we propose a framework for robustly capturing motions, which leverages a learned manifold with specific geometric properties to represent the space of valid human poses. This enables us to introduce novel synthesis techniques that inherently leverage temporal coherence to enable efficient motion solving while effectively alleviating severe artifacts. In summary, this Thesis presents a suite of innovative techniques that utilize representation learning to synthesize new samples for balancing training data, modelcomplex noise patterns, and robustly solve challenging motion capture scenarios, thereby taking a step towards making high-quality MoCap widely accessible.
περισσότερα