Περίληψη
Η καθημερινότητα πλέον είναι άμεσα συνυφασμένη με την υπολογιστική νοημοσύνη, καθώς οι κυριότερες πτυχές της ανθρώπινης δραστηριότητας όπως η εκπαίδευση, η ενημέρωση, η ψυχαγωγία, η επικοινωνία, η εργασία, η υγεία και η τέχνη πραγματοποιούνται με τη βοήθεια υπολογιστικών συστημάτων και εμπλουτίζονται με πληθώρα σχετικών εφαρμογών. Παρόλα αυτά ο τρόπος αλληλεπίδρασης με τον υπολογιστή στηρίζεται ακόμα στα παραδοσιακά μέσα, δηλαδή το πληκτρολόγιο, το ποντίκι και την οθόνη αφής, αφήνοντας ανεκμετάλλευτη την εγγενή ικανότητα του ανθρώπου να επικοινωνεί με τη γλώσσα του σώματος. Για το λόγο αυτό, η επιστημονική έρευνα στο πεδίο των συστημάτων αλληλεπίδρασης ανθρώπου υπολογιστή (human - computer interface systems) στράφηκε στην κατεύθυνση της αξιοποίησης των φυσικών επικοινωνιακών εργαλείων, όπως οι εκφράσεις του προσώπου, το βλέμμα, το ανοιγοκλείσιμο ματιών, οι κινήσεις του σώματος και οι χειρονομίες με σκοπό τη δημιουργία ενός πιο απλού αλλά ταυτόχρονα ισχυρού, εκφραστικού και πολύπλευρου ...
Η καθημερινότητα πλέον είναι άμεσα συνυφασμένη με την υπολογιστική νοημοσύνη, καθώς οι κυριότερες πτυχές της ανθρώπινης δραστηριότητας όπως η εκπαίδευση, η ενημέρωση, η ψυχαγωγία, η επικοινωνία, η εργασία, η υγεία και η τέχνη πραγματοποιούνται με τη βοήθεια υπολογιστικών συστημάτων και εμπλουτίζονται με πληθώρα σχετικών εφαρμογών. Παρόλα αυτά ο τρόπος αλληλεπίδρασης με τον υπολογιστή στηρίζεται ακόμα στα παραδοσιακά μέσα, δηλαδή το πληκτρολόγιο, το ποντίκι και την οθόνη αφής, αφήνοντας ανεκμετάλλευτη την εγγενή ικανότητα του ανθρώπου να επικοινωνεί με τη γλώσσα του σώματος. Για το λόγο αυτό, η επιστημονική έρευνα στο πεδίο των συστημάτων αλληλεπίδρασης ανθρώπου υπολογιστή (human - computer interface systems) στράφηκε στην κατεύθυνση της αξιοποίησης των φυσικών επικοινωνιακών εργαλείων, όπως οι εκφράσεις του προσώπου, το βλέμμα, το ανοιγοκλείσιμο ματιών, οι κινήσεις του σώματος και οι χειρονομίες με σκοπό τη δημιουργία ενός πιο απλού αλλά ταυτόχρονα ισχυρού, εκφραστικού και πολύπλευρου τρόπου διασύνδεσης. Στο ίδιο πλαίσιο κινείται και η παρούσα διδακτορική διατριβή με την ανάπτυξη καινοτόμων τεχνικών επεξεργασίας εικόνας και video για την ανίχνευση, ανάλυση και αναγνώριση χειρονομιών και το συνδυασμό τους για τη δημιουργία τριών νέων συστημάτων αλληλεπίδρασης του ανθρώπου με τον υπολογιστή. Συγκεκριμένα, προτείνονται τεχνικές για την ανίχνευση κινούμενου χεριού σε πολύπλοκο φόντο, την ανάλυση χειρονομίας με την εύρεση της τοπολογίας του βάσει νευρωνικού δικτύου και την αναγνώριση στατικών χειρονομιών. H τεχνική ανίχνευσης σε πραγματικό χρόνο του κινούμενου χεριού σε σύνθετο φόντο αποτελείται από τέσσερα στάδια: την ανίχνευση της κίνησης, την ανίχνευση του χρώματος δέρματος, την περιγραφή της μορφολογίας και το συνδυασμό των πληροφοριών. Η κύρια καινοτομία της τεχνικής αφορά τον τρόπο συνδυασμού των πληροφοριών ο οποίος γίνεται σε περιοχές αφηρημένου σχήματος αποτελούμενες από εικονοστοιχεία που συσχετίζονται όχι μόνο τοπολογικά, αλλά και ποιοτικά δημιουργώντας συμπαγείς περιοχές γειτονικών εικονοστοιχείων με παραπλήσιο χρώμα μέσω υπερτμηματοποίησης της εικόνας. Επίσης, προτείνεται η χρήση δύο μοντέλων αναφοράς κατά την εφαρμογή του αλγορίθμου αφαίρεσης παρασκηνίου για την αντιμετώπιση του προβλήματος της επικάλυψης του χεριού με αντικείμενα στο παρασκήνιο με χρώμα παραπλήσιο του δέρματος. Επιπλέον, ο ταξινομητής Bayes χρησιμοποιεί ένα μοντέλο εκπαίδευσης που συνδυάζει προ-εκπαίδευση (offline) και σύγχρονη εκπαίδευση (online), ενώ μέχρι τώρα έχει χρησιμοποιηθεί σε προηγούμενες εργασίας μόνο ως offline ταξινομητής. Η τεχνική της ανάλυσης της χειρονομίας βασίζεται στην εύρεση της τοπολογίας του χεριού με τη χρήση του αυτό-οργανούμενου και αυτό-αναπτυσσόμενου νευρωνικού αερίου (Self-Organized and Self-Growing Neural Gas - SGONG). Το SGONG είναι ένας ταξινομητής διανυσμάτων χωρίς επίβλεψη και οι νευρώνες εξόδου του αναπαριστούν τα κέντρα των κλάσεων, η τοπολογία των οποίων προσεγγίζει την τοπολογία των δεδομένων εισόδου. Στην προτεινόμενη τεχνική το SGONG εφαρμόζεται στη δυαδική εικόνα του ανιχνευμένου χεριού. Ως διανύσματα εισόδου χρησιμοποιούνται οι συντεταγμένες των εικονοστοιχείων του χεριού και συνεπώς οι νευρώνες εξόδου περιγράφουν την τοπολογία του χεριού. Με τη βοήθεια των νευρώνων εξόδου και των συνδέσεών τους προσδιορίζονται μορφολογικές ιδιότητες του χεριού όπως η περιοχή της παλάμης, το κέντρο της παλάμης, η κλίση του, το πλήθος των σηκωμένων δαχτύλων και εξάγονται χαρακτηριστικά των δαχτύλων, όπως η απόστασή τους από το κέντρο της παλάμης και δύο διαφορετικά είδη γωνιών, ικανά για να συμβάλλουν στην επιτυχημένη αναγνώριση της χειρονομίας. Η αναγνώριση της χειρονομίας επιτυγχάνεται με την εύρεση του πιθανότερου συνδυασμού δαχτύλων αξιοποιώντας τα χαρακτηριστικά τους που υπολογίστηκαν κατά το στάδιο της ανάλυσης. Αποτελείται από τα τρία βήματα: την offline εκπαίδευση, την ταξινόμηση των δαχτύλων και την τελική επιλογή της χειρονομίας. Κατά τη διαδικασία της offline εκπαίδευσης υπολογίζονται οι κατανομές πιθανότητας των χαρακτηριστικών των δαχτύλων. Στη συνέχεια, σε κάθε σηκωμένο δάχτυλο ανατίθεται ένας συντελεστής ίσος με το άθροισμα των πιθανοτήτων των χαρακτηριστικών του να ανήκουν σε κάθε μία από τις πέντε κλάσεις (αντίχειρας, δείκτης, παράμεσος, μέσος, μικρό). Το δάχτυλο ταξινομείται στην κλάση όπου αντιστοιχεί ο μεγαλύτερος συντελεστής. Τέλος, ως χειρονομία αναγνωρίζεται ο συνδυασμός των δαχτύλων που συγκεντρώνει το μεγαλύτερο άθροισμα συντελεστών. Πρωτεύον αποτέλεσμα της παρούσας διατριβής είναι ο συνδυασμός των παραπάνω προτεινόμενων τεχνικών και η δημιουργία ενός καινοτόμου συστήματος οπτικής αναγνώρισης στατικών χειρονομιών που σχηματίζονται από το χρήστη καθώς κινεί το χέρι του σε σύνθετο περιβάλλον. Ως επέκταση αυτής της ερευνητικής προσπάθειας αναπτύχθηκε ένα σύστημα οπτικής αναγνώρισης σύνθετων χειρονομιών, το οποίο έχει την ικανότητα να αναγνωρίζει και δυναμικές χειρονομίες, και ένα σύστημα αναγνώρισης σύνθετων χειρονομιών βασισμένο στην όραση βάθους για την αντιμετώπιση της ανίχνευσης του χεριού με έναν λιγότερο υπολογιστικά κοστοβόρο τρόπο. Τα τρία συστήματα ικανοποιούν τις αρχές της φυσικής, απλής και ευέλικτης διασύνδεσης, γιατί στηρίζονται στη δεξιότητα του ανθρώπου να κινεί το χέρι του και να το χρησιμοποιεί σαν εργαλείο για την εκτέλεση διάφορων και ετερόκλητων μεταξύ τους λειτουργιών ή σαν εκφραστικό μέσο κατά την επικοινωνία του. Συγχρόνως πληρούν το κριτήριο του χαμηλού κόστους ώστε να είναι εφικτή η διάδοσή τους σε ένα ευρύ πεδίο χρηστών, επειδή προϋποθέτουν τα μεν δύο πρώτα μόνο τη χρήση μιας απλής κάμερας δικτύου και το δε τρίτο ένα σχετικά φθηνό αισθητήρα βάθους.
περισσότερα
Περίληψη σε άλλη γλώσσα
Nowadays, intelligence computing plays an important role in almost every significant aspect of everyday life. Education, entertainment, communication, business, health and art are some of the fields of human activity that are modified and enriched by the use of a variety of applications. Nonetheless, the interaction with computers is still based on traditional means, i.e. keyboard, mouse and touch screen, that fail to be intuitive. Therefore, researchers have become more interested in taking advantage of the inherent human means of communication, such as facial expressions, eye blinking, gazing, body posture, body movement and gestures. In this context, the thesis presents new and innovative image and video processing techniques that detect, analyze and recognize gestures. Then the techniques are applied in the development of three different human - computer interaction systems.Specifically, the thesis proposes techniques concerning the: real time hand detection in a complex background ...
Nowadays, intelligence computing plays an important role in almost every significant aspect of everyday life. Education, entertainment, communication, business, health and art are some of the fields of human activity that are modified and enriched by the use of a variety of applications. Nonetheless, the interaction with computers is still based on traditional means, i.e. keyboard, mouse and touch screen, that fail to be intuitive. Therefore, researchers have become more interested in taking advantage of the inherent human means of communication, such as facial expressions, eye blinking, gazing, body posture, body movement and gestures. In this context, the thesis presents new and innovative image and video processing techniques that detect, analyze and recognize gestures. Then the techniques are applied in the development of three different human - computer interaction systems.Specifically, the thesis proposes techniques concerning the: real time hand detection in a complex background, hand posture analysis via a self-organized neural network and hand posture recognition.The hand detection in a complex background technique consists of four main stages: motion detection, skin color detection, morphology description and combination of the extracted information. Motion detection is based on image differencing, which defines the region of motion, and on background subtraction, that extracts the moving objects. Skin color detection is accomplished through a color classification technique that utilizes online color training, so as to adapt better to the variety of the lighting conditions and the user’s skin color. Morphology description of the detected hand in the previous frame is used to specify the possibility of a pixel in the current frame to belong to the hand. Finally, the derived information is combined. The main innovation of this technique is that the combination is accomplished in a region based manner, in order to take into consideration the information that is provided not just from a single pixel or a window neighborhood, but from an arbitrarily shaped area of pixels with similar color. This is achieved through a color reduction algorithm that segments the input frame in regions of similar color. To each one of the resulting areas, a rating system is applied. This system uses motion, color and morphology data in order to define the possibility of a region to be part of the hand. The output is a grayscale image that through binarization results to the detected hand. The hand posture analysis is based on the approximation of the topology of the hand by applying the Self Growing and Organized Neural Gas (SGONG) on the segmented (binary) image. The SGONG is an unsupervised neural classifier that consists of two layers, i.e. the input and the output layer. The dimensions of the input space and the output lattice of neurons are always identical. Thus, the structure of neurons in the output layer approaches the structure of the input data. In the proposed technique, the input data of the SGONG are the coordinates of random samples of the hand. As a result, the output neurons and their connections approximate its morphology. Based on the SGONG output lattice, the palm of the hand, the palm center, the hand slope and the number of raised fingers are determined. Finally, robust features that describe successfully the properties of the fingers are extracted. The recognition process consists of three stages: the off–line calculation of the features’ distributions, the likelihood based classification, the final classification. It is based on the choice of the most probable finger combination of a set of feasible gestures. This is accomplished by classifying the raised fingers into five classes (thumb, index, middle, ring, little) according to their features. The classification depends on the probabilities of a finger to belong to the above classes. The probabilities derive from the features’ distributions.The primary outcome of this thesis is the combination of the above proposed techniques in the development of a vision-based hand posture recognition system in a complex background. As an extension, a dynamic gestures recognition system and a recognition system based on depth sensing technology are created. All of the three systems are innovative and meet the expectations of a natural and simple communication, the goal of the latest research efforts in the scientific field of human-computer interaction systems.
περισσότερα