Περίληψη
Η ικανότητα παρατήρησης των ανθρώπινων κινήσεων και η πρόβλεψη των δράσεων τους είναι μια αναπτυξιακή δεξιότητα που αποκτάται από τον άνθρωπο στα πρώιμα στάδια της ζωή του. Όταν βλέπουμε ένα άτομο να εκτελεί μια εργασία, μπορούμε εύκολα να προβλέψουμε τις επόμενες ενέργειές του με βάση την παρατήρηση του περιβάλλοντος και τις εμπειρίες του παρελθόντος. Σε αυτή την εργασία, στοχεύουμε στην ανάπτυξη τέτοιων δεξιοτήτων για μηχανές, εστιάζοντας στη πρόβλεψη και πρόγνωση δράσεων και στη πρόβλεψη του επόμενου ενεργού αντικειμένου. Η πρόβλεψη δράσης ορίζεται ως η αναγνώριση της ετικέτας μιας δράσης ενώ η ενέργεια είναι ακόμη σε εξέλιξη. Μια τέτοια ικανότητα είναι χρήσιμη για έγκαιρη απόκριση και περαιτέρω σχεδιασμό δράσης. Εξετάζουμε το πρόβλημα της πρόβλεψης δράσης σε σενάρια που περιλαμβάνουν ανθρώπους που αλληλεπιδρούν με αντικείμενα. Δημιουργήσαμε μια προσέγγιση που δημιουργεί αναπαραστάσεις χρονοσειρών για τη κίνηση των ανθρώπων και των αντικειμένων. Μια τέτοια αναπαράσταση μιας εν-εξελί ...
Η ικανότητα παρατήρησης των ανθρώπινων κινήσεων και η πρόβλεψη των δράσεων τους είναι μια αναπτυξιακή δεξιότητα που αποκτάται από τον άνθρωπο στα πρώιμα στάδια της ζωή του. Όταν βλέπουμε ένα άτομο να εκτελεί μια εργασία, μπορούμε εύκολα να προβλέψουμε τις επόμενες ενέργειές του με βάση την παρατήρηση του περιβάλλοντος και τις εμπειρίες του παρελθόντος. Σε αυτή την εργασία, στοχεύουμε στην ανάπτυξη τέτοιων δεξιοτήτων για μηχανές, εστιάζοντας στη πρόβλεψη και πρόγνωση δράσεων και στη πρόβλεψη του επόμενου ενεργού αντικειμένου. Η πρόβλεψη δράσης ορίζεται ως η αναγνώριση της ετικέτας μιας δράσης ενώ η ενέργεια είναι ακόμη σε εξέλιξη. Μια τέτοια ικανότητα είναι χρήσιμη για έγκαιρη απόκριση και περαιτέρω σχεδιασμό δράσης. Εξετάζουμε το πρόβλημα της πρόβλεψης δράσης σε σενάρια που περιλαμβάνουν ανθρώπους που αλληλεπιδρούν με αντικείμενα. Δημιουργήσαμε μια προσέγγιση που δημιουργεί αναπαραστάσεις χρονοσειρών για τη κίνηση των ανθρώπων και των αντικειμένων. Μια τέτοια αναπαράσταση μιας εν-εξελίξει δράσης συγκρίνεται στη συνέχεια με πρωτότυπες δράσεις. Αυτό επιτυγχάνεται με ένα πλαίσιο ευθυγράμμισης χρονολογικών σειρών που βασίζεται στον αλγόριθμο Dynamic Time Warping (DTW), το οποίο προσδιορίζει την καλύτερη αντιστοίχιση μεταξύ της ενεξελίξει δράσης και των πρωτότυπων δράσεων. Προβλέπουμε ενέργειες σε περικομμένες και μη περικομμένες ακολουθίες ενεργειών με τη χρήση του αλγόριθμου DTW. Στο ίδιο πλαίσιο, για την πρόβλεψη των ενεργειών προτείνουμε δύο νέους αλγόριθμους ευθυγράμμισης που ονομάζονται OBE-S-DTW και OE-S-DTW που δείχνουν βελτιωμένα αποτελέσματα στο έργο της πρόβλεψης ενεργειών σε σύγκριση με το DTW.Στη συνέχεια, προτείνουμε μια μεθοδολογία βασισμένη σε γραφήματα για την οπτική πρόβλεψη των αλληλεπιδράσεων ανθρώπου-αντικειμένου σε βίντεο. Αντί να προβλέψουμε την κίνηση τουανθρώπου και του αντικειμένου, στοχεύουμε στην πρόβλεψη (α) της κλάσης της προς πρόβλεψη αλληλεπίδρασης ανθρώπου-αντικειμένου και (β) των κλάσεων των επόμενων ενεργών αντικειμένων (NAOs), δηλ. τα αντικείμενα που προβλέπεται να εμπλακούν στην αλληλεπίδραση στο εγγύς μέλλον καθώς και τη χρονική στιγμή που θα συμβεί αυτό. Τέλος, αντιμετωπίζουμε το πρόβλημα της πρόγνωσης μιας δράσης λαμβάνοντας υπόψη το ιστορικό όλων των ενεργειών που εκτελέστηκαν σε μακρές ακολουθίες δραστηριοτήτων. Προτείνουμε μια νέα προσέγγιση που ονομάζεται ως οπτικο-λεξιλογική μοντελοποίηση του ιστορικού των δράσεων (VLMAH) που συνδυάζει το άμεσο παρελθόν με τη μορφή οπτικών χαρακτηριστικών καθώς και το μακρινό παρελθόν με βάση μια οικονομικά αποδοτική μορφή γλωσσικών χαρακτηριστικών (σημασιολογικές ετικέτες των ουσιαστικών, ρημάτων ή δράσεων). Η προσέγγισή μας δημιουργεί ακριβείς προβλέψεις για τις δράσεις που θα γίνουν στο κοντινό μέλλον κατά τη διάρκεια δραστηριοτήτων αξιοποιώντας πληροφορίες από το απώτερο αλλά και το εγγύτερο παρελθόν.Οι προτεινόμενες μέθοδοι αποτελούν λύσεις για τα προβλήματα της πρόβλεψης και πρόγνωσης δράσεων και πρόβλεψης του επόμενου ενεργού αντικειμένου. Οι προαναφερθείσες μεθοδολογίεςέχουν αξιολογηθεί σε ανταγωνιστικά σύνολα δεδομένων και δίνουν καλύτερα αποτελέσματα σε σχέση με τις υφιστάμενες κορυφαίες μεθόδους που εμφανίζονται στη βιβλιογραφία.
περισσότερα
Περίληψη σε άλλη γλώσσα
The ability to observe human movements and predict their actions is a developmental skill acquired by humans early in life. When witnessing a person performing a task, we can easily forecast their subsequent actions based on contextual cues and past experiences. In this work, we aim at developing such abilities for machines, focusing on the tasks of vision-based action prediction, action anticipation and next-active-object prediction. Action prediction is defined as the inference of an action label while the action is still ongoing. Such a capability is useful for early response and further action planning. We consider the problem of action prediction in scenarios involving humans interacting with objects. We formulate an approach that builds time series representations of the performance of the humans and the objects. Such a representation of an ongoing action is then compared to prototype actions. This is achieved by a Dynamic Time Warping (DTW)-based time series alignment framewor ...
The ability to observe human movements and predict their actions is a developmental skill acquired by humans early in life. When witnessing a person performing a task, we can easily forecast their subsequent actions based on contextual cues and past experiences. In this work, we aim at developing such abilities for machines, focusing on the tasks of vision-based action prediction, action anticipation and next-active-object prediction. Action prediction is defined as the inference of an action label while the action is still ongoing. Such a capability is useful for early response and further action planning. We consider the problem of action prediction in scenarios involving humans interacting with objects. We formulate an approach that builds time series representations of the performance of the humans and the objects. Such a representation of an ongoing action is then compared to prototype actions. This is achieved by a Dynamic Time Warping (DTW)-based time series alignment framework which identifies the best match between the ongoing action and the prototype ones. We predict actions in trimmed and untrimmed action sequences with the use of the DTW algorithm. In the same vein, for the prediction of actions we propose two new alignment algorithms called OBE-S-DTW and OE-S-DTW that show superior results on the task of action prediction compared to DTW. Following, we propose a graph-based methodology for the visual prediction of human-object interactions in videos. Rather than forecasting the human and object motion, we aim at predicting (a) the class of the on-going human-object interaction and (b) the class(es) of the next active object(s) (NAOs), i.e., the object(s) that will be involved in the interaction in the near future as well as the time the interaction will occur. Finally, we address the problem of action anticipation by taking into consideration the history of all executed actions throughout long, procedural activities. A novel approach noted as Visual-Linguistic Modeling of Action History (VLMAH) is proposed that fuses the immediate past in the form of visual features as well as the distant past based on a cost-effective form of linguistic constructs (semantic labels of the nouns, verbs, or actions). Our approach generates accurate near-future action predictions during procedural activities by leveraging information on the long- and short-term past. The proposed methods constitute solutions for the problems of action prediction and anticipation and next-active-object prediction. The aforementioned methodologies have been evaluated on challenging datasets and showcase results superior to the current state-of-art.
περισσότερα