Μέθοδοι μηχανικής μάθησης και μηχανικής όρασης για την ευφυή ανάλυση εικονοσειρών

Σε αυτή τη διδακτορική διατριβή, παρουσιάζονται τα αποτελέσματα της έρευνας που διεξήχθη στην περιοχή της ευφυούς ανάλυσης εικονοσειρών με χρήση μεθόδων μηχανικής μάθησης και μηχανικής όρασης. Η έμφαση δόθηκε σε δεδομένα κινηματογραφικής/τηλεοπτικής παραγωγής, προκειμένου να καταδειχθεί το δυναμικό της σύγχρονης τεχνητής νοημοσύνης στη βιομηχανία παραγωγής και μετεπεξεργασίας οπτικοακουστικού υλικού, αλλά οι προτεινόμενοι αλγόριθμοι έχουν ευρύτερη εφαρμογή σε κάθε τύπου εικονοσειρά. Η παρουσιαζόμενη έρευνα αφορά τα προβλήματα της ανίχνευσης στερεοσκοπικών ελαττωμάτων ποιότητας, της αναγνώρισης ανθρώπινων δραστηριοτήτων σε στερεοσκοπικές εικονοσειρές, της αυτόματης συνόψισης στερεοσκοπικών κινηματογραφικών ταινιών σύμφωνα με τις αφηγηματικές τους ιδιότητες και της αυτόματης συνόψισης εικονοσειρών ανθρώπινων δραστηριοτήτων. Η κύρια συνεισφορά μας στο πρόβλημα της ανίχνευσης στερεοσκοπικών ελαττωμάτων ποιότητας συνίσταται στην περιγραφή τεσσάρων αλγορίθμων αυτόματης ανίχνευσης και χαρακτηρισμού ελαττωμάτων για ισάριθμους τύπους ζητημάτων, κατά τη φάση της μετεπεξεργασίας στην παραγωγή κινηματογραφικού ή τηλεοπτικού υλικού. Όσον αφορά το ζήτημα της αναγνώρισης ανθρώπινων δραστηριοτήτων σε στερεοσκοπικές εικονοσειρές, προτείνονται τρόποι εκμετάλλευσης της πληροφορίας περί γεωμετρίας σκηνής την οποία κωδικοποιεί το κανάλι της στερεοσκοπικής παράλλαξης, με στόχο τη βελτίωση της απόδοσης στην αναγνώριση ανθρώπινων δραστηριοτήτων σε φυσικό σκηνικό. Η έρευνά μας επεκτάθηκε στο πρόβλημα της αυτόματης, πολυτροπικής συνόψισης στερεοσκοπικών 3Δ κινηματογραφικών ταινιών σύμφωνα με τις αφηγηματικές τους ιδιότητες, υπό τη μορφή μίας εικονοσειράς περίληψης. Προς αυτή την κατεύθυνση, αναπτύχθηκε μία πλήρης αλγοριθμική σωλήνωση συνόψισης η οποία λαμβάνει υπόψη οπτικά, ηχητικά, γεωμετρικά και αφηγηματικά χαρακτηριστικά των πλάνων και των καρέ της ταινίας. Τέλος, μελετήθηκε το ζήτημα αυτόματης συνόψισης εικονοσειρών δραστηριοτήτων μεγάλης διάρκειας, οι οποίες έχουν ορισμένες κοινές, επαναλαμβανόμενες ιδιότητες (στατική κάμερα, στατικό υπόβαθρο, υψηλό βαθμό οπτικής ομοιότητας μεταξύ των καρέ) και μπορούν να προκύψουν από ποικιλία πηγών (κάμερες επιτήρησης, συνεδρίες καταγραφής σε κινηματογραφικές/τηλεοπτικές παραγωγές κλπ.). Για την επίλυση του προβλήματος, αναπτύχθηκε ένα νέο αλγοριθμικό πλαίσιο συνόψισης εικονοσειρών δραστηριοτήτων, υπό τη μορφή της εξαγωγής ενός συνόλου αντιπροσωπευτικών καρέ-κλειδιών που συνοψίζει βέλτιστα τις διαφορετικές εικονιζόμενες δραστηριότητες.

περισσότερα

Περίληψη σε άλλη γλώσσα

In this dissertation, the results of research conducted in the areas of intelligent video analysis using machine learning and computer vision methods are presented. Although emphasis was placed on movie/TV production data, in order to showcase the potential of modern artificial intelligence in media production and post-processing industry, the proposed algorithms can be more generally applied to any video type. The presented research considers the problems of stereoscopic quality defects detection, human activity recognition in stereoscopic 3D videos, automated stereoscopic movie summarization conforming to narrative properties and automated human activity video summarization. Our main contribution to the problem of stereoscopic quality defects detection consists in describing four algorithms for automatically detecting and characterizing corresponding types of defects, in the post-processing stage of movie/TV content production. Regarding the problem of human activity recognition in stereoscopic videos, ways to exploit scene geometry information encoded by the stereoscopic disparity channel are proposed, with the goal to augment human activity recognition performance in natural settings. Our research was extended to the problem of automated, multimodal stereoscopic 3D movie summarization conforming to narrative properties, in the form of a video skim. To this end, a complete algorithmic summarization pipeline was developed that considers visual, audio, geometric and narrative characteristics in movie shots and video frames. Finally, the issue of automatically summarizing long activity videos was studied, which share a number of common, recurrent properties (static camera, static background, high degree of inter-frame visual similarity) and may be derived from a variety of sources (surveillance cameras, shooting sessions in movie/TV production, etc.). To solve the problem, a novel algorithmic framework was developed for summarizing activity videos, in the form of a representative key-frame set that optimally sums up the various depicted activities.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (24.52 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/44837
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/44837
ND	44837
Εναλλακτικός τίτλος	Machine learning and computer vision methods for intelligent video analysis
Συγγραφέας	Μαδεμλής, Ιωάννης (Πατρώνυμο: Βασίλειος)
Ημερομηνία	2018
Ίδρυμα	Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής. Τομέας Ψηφιακών Μέσων
Εξεταστική επιτροπή	Πήτας Ιωάννης Νικολαΐδης Νικόλαος Τέφας Αναστάσιος Κοτρόπουλος Κωνσταντίνος Ντελόπουλος Αναστάσιος Νίκου Χριστόφορος Κομπατσιάρης Ιωάννης
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά	Μηχανική όραση; Μηχανική μάθηση; Αναγνώριση προτύπων; Ανάλυση εικονοσειρών
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	165 σ., εικ., πιν., σχημ., γραφ.
Ειδικοί όροι χρήσης/διάθεσης	Το έργο παρέχεται υπό τους όρους της δημόσιας άδειας του νομικού προσώπου Creative Commons Corporation: Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Όχι Παράγωγα Έργα 3.0 (CC-BY-NC-ND)

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Μηχανική μάθηση για την ανάλυση μεγάλων βιολογικών δεδομένων

Aνίχνευση και εντοπισμός μεταβολών κτισμάτων από εικόνες και νέφη σημείων

Εικονική ανακατασκευή και ταυτοποίηση αντικειμένων στο χώρο με τεχνικές υπολογιστικής όρασης και τριδιάστατα γραφικά

Ανακατασκευή 3δ μοντέλων σχεδίασης με υπολογιστή βασισμένη σε γεωμετρικά προσδιορισμένες τομές

Ενεργά συστήματα τρισδιάστατης υπολογιστικής όρασης

Τηλεπισκόπηση, τεχνητή νοημοσύνη και συστήματα γεωγραφικών πληροφοριών στην εκτίμηση κινδύνου δασικών πυρκαγιών

Novel and robust methods for the automatic registration of image data

Ανάπτυξη αποδοτικών παραμετρικών τεχνικών αντιστοίχισης εικόνων με εφαρμογή στην υπολογιστική όραση

Part based 3D representation for the retrieval of 3D graphical models

Ανακατασκευή μοντέλων CAD με χαρακτηριστικά βασισμένη στη μορφολογία του νέφους σημείων

"Μέθοδοι μηχανικής μάθησης και μηχανικής όρασης για την ευφυή ανάλυση εικονοσειρών"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της . Έλαβα γνώση οτι το έργο παρέχεται υπό τους όρους της δημόσιας άδειαςCreative Commons Αναφορά Δημιουργού Μη εμπορική Χρήση Όχι Παράγωγα Έργα 3.0 Ελλάδα