Περίληψη
Σε αυτή τη διδακτορική διατριβή, παρουσιάζονται τα αποτελέσματα της έρευνας που διεξήχθη στην περιοχή της ευφυούς ανάλυσης εικονοσειρών με χρήση μεθόδων μηχανικής μάθησης και μηχανικής όρασης. Η έμφαση δόθηκε σε δεδομένα κινηματογραφικής/τηλεοπτικής παραγωγής, προκειμένου να καταδειχθεί το δυναμικό της σύγχρονης τεχνητής νοημοσύνης στη βιομηχανία παραγωγής και μετεπεξεργασίας οπτικοακουστικού υλικού, αλλά οι προτεινόμενοι αλγόριθμοι έχουν ευρύτερη εφαρμογή σε κάθε τύπου εικονοσειρά. Η παρουσιαζόμενη έρευνα αφορά τα προβλήματα της ανίχνευσης στερεοσκοπικών ελαττωμάτων ποιότητας, της αναγνώρισης ανθρώπινων δραστηριοτήτων σε στερεοσκοπικές εικονοσειρές, της αυτόματης συνόψισης στερεοσκοπικών κινηματογραφικών ταινιών σύμφωνα με τις αφηγηματικές τους ιδιότητες και της αυτόματης συνόψισης εικονοσειρών ανθρώπινων δραστηριοτήτων. Η κύρια συνεισφορά μας στο πρόβλημα της ανίχνευσης στερεοσκοπικών ελαττωμάτων ποιότητας συνίσταται στην περιγραφή τεσσάρων αλγορίθμων αυτόματης ανίχνευσης και χαρακτη ...
Σε αυτή τη διδακτορική διατριβή, παρουσιάζονται τα αποτελέσματα της έρευνας που διεξήχθη στην περιοχή της ευφυούς ανάλυσης εικονοσειρών με χρήση μεθόδων μηχανικής μάθησης και μηχανικής όρασης. Η έμφαση δόθηκε σε δεδομένα κινηματογραφικής/τηλεοπτικής παραγωγής, προκειμένου να καταδειχθεί το δυναμικό της σύγχρονης τεχνητής νοημοσύνης στη βιομηχανία παραγωγής και μετεπεξεργασίας οπτικοακουστικού υλικού, αλλά οι προτεινόμενοι αλγόριθμοι έχουν ευρύτερη εφαρμογή σε κάθε τύπου εικονοσειρά. Η παρουσιαζόμενη έρευνα αφορά τα προβλήματα της ανίχνευσης στερεοσκοπικών ελαττωμάτων ποιότητας, της αναγνώρισης ανθρώπινων δραστηριοτήτων σε στερεοσκοπικές εικονοσειρές, της αυτόματης συνόψισης στερεοσκοπικών κινηματογραφικών ταινιών σύμφωνα με τις αφηγηματικές τους ιδιότητες και της αυτόματης συνόψισης εικονοσειρών ανθρώπινων δραστηριοτήτων. Η κύρια συνεισφορά μας στο πρόβλημα της ανίχνευσης στερεοσκοπικών ελαττωμάτων ποιότητας συνίσταται στην περιγραφή τεσσάρων αλγορίθμων αυτόματης ανίχνευσης και χαρακτηρισμού ελαττωμάτων για ισάριθμους τύπους ζητημάτων, κατά τη φάση της μετεπεξεργασίας στην παραγωγή κινηματογραφικού ή τηλεοπτικού υλικού. Όσον αφορά το ζήτημα της αναγνώρισης ανθρώπινων δραστηριοτήτων σε στερεοσκοπικές εικονοσειρές, προτείνονται τρόποι εκμετάλλευσης της πληροφορίας περί γεωμετρίας σκηνής την οποία κωδικοποιεί το κανάλι της στερεοσκοπικής παράλλαξης, με στόχο τη βελτίωση της απόδοσης στην αναγνώριση ανθρώπινων δραστηριοτήτων σε φυσικό σκηνικό. Η έρευνά μας επεκτάθηκε στο πρόβλημα της αυτόματης, πολυτροπικής συνόψισης στερεοσκοπικών 3Δ κινηματογραφικών ταινιών σύμφωνα με τις αφηγηματικές τους ιδιότητες, υπό τη μορφή μίας εικονοσειράς περίληψης. Προς αυτή την κατεύθυνση, αναπτύχθηκε μία πλήρης αλγοριθμική σωλήνωση συνόψισης η οποία λαμβάνει υπόψη οπτικά, ηχητικά, γεωμετρικά και αφηγηματικά χαρακτηριστικά των πλάνων και των καρέ της ταινίας. Τέλος, μελετήθηκε το ζήτημα αυτόματης συνόψισης εικονοσειρών δραστηριοτήτων μεγάλης διάρκειας, οι οποίες έχουν ορισμένες κοινές, επαναλαμβανόμενες ιδιότητες (στατική κάμερα, στατικό υπόβαθρο, υψηλό βαθμό οπτικής ομοιότητας μεταξύ των καρέ) και μπορούν να προκύψουν από ποικιλία πηγών (κάμερες επιτήρησης, συνεδρίες καταγραφής σε κινηματογραφικές/τηλεοπτικές παραγωγές κλπ.). Για την επίλυση του προβλήματος, αναπτύχθηκε ένα νέο αλγοριθμικό πλαίσιο συνόψισης εικονοσειρών δραστηριοτήτων, υπό τη μορφή της εξαγωγής ενός συνόλου αντιπροσωπευτικών καρέ-κλειδιών που συνοψίζει βέλτιστα τις διαφορετικές εικονιζόμενες δραστηριότητες.
περισσότερα
Περίληψη σε άλλη γλώσσα
In this dissertation, the results of research conducted in the areas of intelligent video analysis using machine learning and computer vision methods are presented. Although emphasis was placed on movie/TV production data, in order to showcase the potential of modern artificial intelligence in media production and post-processing industry, the proposed algorithms can be more generally applied to any video type. The presented research considers the problems of stereoscopic quality defects detection, human activity recognition in stereoscopic 3D videos, automated stereoscopic movie summarization conforming to narrative properties and automated human activity video summarization. Our main contribution to the problem of stereoscopic quality defects detection consists in describing four algorithms for automatically detecting and characterizing corresponding types of defects, in the post-processing stage of movie/TV content production. Regarding the problem of human activity recognition in s ...
In this dissertation, the results of research conducted in the areas of intelligent video analysis using machine learning and computer vision methods are presented. Although emphasis was placed on movie/TV production data, in order to showcase the potential of modern artificial intelligence in media production and post-processing industry, the proposed algorithms can be more generally applied to any video type. The presented research considers the problems of stereoscopic quality defects detection, human activity recognition in stereoscopic 3D videos, automated stereoscopic movie summarization conforming to narrative properties and automated human activity video summarization. Our main contribution to the problem of stereoscopic quality defects detection consists in describing four algorithms for automatically detecting and characterizing corresponding types of defects, in the post-processing stage of movie/TV content production. Regarding the problem of human activity recognition in stereoscopic videos, ways to exploit scene geometry information encoded by the stereoscopic disparity channel are proposed, with the goal to augment human activity recognition performance in natural settings. Our research was extended to the problem of automated, multimodal stereoscopic 3D movie summarization conforming to narrative properties, in the form of a video skim. To this end, a complete algorithmic summarization pipeline was developed that considers visual, audio, geometric and narrative characteristics in movie shots and video frames. Finally, the issue of automatically summarizing long activity videos was studied, which share a number of common, recurrent properties (static camera, static background, high degree of inter-frame visual similarity) and may be derived from a variety of sources (surveillance cameras, shooting sessions in movie/TV production, etc.). To solve the problem, a novel algorithmic framework was developed for summarizing activity videos, in the form of a representative key-frame set that optimally sums up the various depicted activities.
περισσότερα