Περίληψη
Τα ψηφιακά μέσα διανύουν μία περίοδο έντονων εξελίξεων και μετασχηματισμών. Οι προηγμένες δυνατότητες παραγωγής και επεξεργασίας υλικού σε συνδυασμό με τη συνδεσιμότητα και τη δημοτικότητα των μέσων κοινωνικής δικτύωσης, έχουν οδηγήσει σε μια έκρηξη στην παραγωγή δεδομένων. Η διαχείριση τεράστιου όγκου ετερογενών δεδομένων έχει θέσει νέες προκλήσεις στον τρόπο αποθήκευσης, επεξεργασίας και πρόσβασης σε αυτά, αναδεικνύοντας το επιστημονικό πεδίο των Μεγάλων Δεδομένων. Το πλήθος των διαθέσιμων δεδομένων και η εξέλιξη των εργαλείων και υπολογιστικών δυνατοτήτων δημιούργησε ευνοϊκές συνθήκες για την ανάπτυξη νέων αρχιτεκτονικών μηχανικής και εμβαθύνουσας μάθησης. Η εκπαίδευση μοντέλων με τεράστιο πλήθος παραμέτρων επιτρέπει την ενίσχυση της επίδοσης και της ευρωστίας σε επίπεδα που να επιτρέπουν την αξιοποίησή τους σε προβλήματα πραγματικού κόσμου.Στην παρούσα διατριβή μελετάται ο τρόπος ένταξης τεχνολογιών μηχανικής μάθησης σε συνήθεις ροές εργασιών στην παραγωγή, συλλογή, τεκμηρίωση κ ...
Τα ψηφιακά μέσα διανύουν μία περίοδο έντονων εξελίξεων και μετασχηματισμών. Οι προηγμένες δυνατότητες παραγωγής και επεξεργασίας υλικού σε συνδυασμό με τη συνδεσιμότητα και τη δημοτικότητα των μέσων κοινωνικής δικτύωσης, έχουν οδηγήσει σε μια έκρηξη στην παραγωγή δεδομένων. Η διαχείριση τεράστιου όγκου ετερογενών δεδομένων έχει θέσει νέες προκλήσεις στον τρόπο αποθήκευσης, επεξεργασίας και πρόσβασης σε αυτά, αναδεικνύοντας το επιστημονικό πεδίο των Μεγάλων Δεδομένων. Το πλήθος των διαθέσιμων δεδομένων και η εξέλιξη των εργαλείων και υπολογιστικών δυνατοτήτων δημιούργησε ευνοϊκές συνθήκες για την ανάπτυξη νέων αρχιτεκτονικών μηχανικής και εμβαθύνουσας μάθησης. Η εκπαίδευση μοντέλων με τεράστιο πλήθος παραμέτρων επιτρέπει την ενίσχυση της επίδοσης και της ευρωστίας σε επίπεδα που να επιτρέπουν την αξιοποίησή τους σε προβλήματα πραγματικού κόσμου.Στην παρούσα διατριβή μελετάται ο τρόπος ένταξης τεχνολογιών μηχανικής μάθησης σε συνήθεις ροές εργασιών στην παραγωγή, συλλογή, τεκμηρίωση και διανομή οπτικοακουστικών δεδομένων, αυτοματοποιώντας διαδικασίες και επαυξάνοντας το περιεχόμενο. Προδιαγράφεται ένα πλαίσιο λειτουργίας που περιλαμβάνει όλα τα στάδια παραγωγής και διανομής υλικού και παρουσιάζονται υλοποιήσεις συστημάτων διαδικτυακής ραδιοφωνικής και τηλεοπτικής παραγωγής. Μέσω μιας εφαρμογής ραδιοφωνικής παραγωγής ενσωματώνονται διαδικασίες αυτόματης επισημείωσης, καθώς και κατάτμησης και μεταγραφής αδόμητων ηχητικών ροών. Οι χρήστες μπορούν να αναζητούν εκπομπές βάσει περιεχομένου και να πλοηγούνται σε αυτές μέσα από ένα διαδραστικό περιβάλλον. Στη διαδικτυακή τηλεόραση, πραγματοποιείται χρονικός εντοπισμός του ενεργού ομιλητή και αυτόματη επιλογή κάδρου, αυτοματοποιώντας τη σκηνοθεσία. Ερευνώνται επιπλέον ζητήματα που έχουν σημαντική θέση στην παραγωγή, συλλογή και διανομή περιεχομένου. Μία λειτουργία με ιδιαίτερη εφαρμογή στη δημοσιογραφία είναι η συναισθηματική ανάλυση περιεχομένου. Στις οπτικοακουστικές ροές το πρόβλημα συνίσταται στην αναγνώριση της εκφοράς του λόγου. Κατά τη συλλογή και επαναχρησιμοποίηση υλικού τίθεται το ζήτημα εγκυρότητας. Προτείνονται διαδικασίες ελέγχου με τη χρήση πρωτότυπων τεχνικών που σχεδιάστηκαν για τις ανάγκες της διατριβής. Για την υποστήριξη της προτεινόμενης λειτουργικότητας, αναπτύχθηκαν βάσεις δεδομένων και μοντέλα μηχανικής μάθησης. Σχεδιάστηκε και αξιολογήθηκε μοντέλο αρχιτεκτονικής Συνελικτικού Νευρωνικού Δικτύου (CNN), τεχνικών μεταφοράς γνώσης και μη επιτηρούμενης συσταδοποίησης για την ηχητική αναγνώριση ομιλητών. Προτείνεται η πολυτροπική αναγνώριση ενεργού ομιλητή συνδυάζοντας ηχητική και οπτική πληροφορία. Μοντέλα ανίχνευσης προσώπου αξιοποιούνται για την αυτόματη επιλογή κάδρου εικονοληψίας, ενσωματώνοντας βασικούς κανόνες σύνθεσης. Για τη συναισθηματική ανάλυση ηχητικού περιεχομένου, δημιουργήθηκε η βάση AESDD με δυνατότητα επέκτασης και εκπαιδεύτηκαν μοντέλα μηχανικής μάθησης και ένα CNN για την αναγνώριση συναισθήματος σε πραγματικό χρόνο. Αξιολογήθηκαν τεχνικές μεταφοράς γνώσης μέσω CNN για την εκπαίδευση εξατομικευμένων μοντέλων. Παρουσιάζονται τεχνικές ελέγχου αυθεντικότητας που βασίζονται στον εντοπισμό ασυνεχειών στα πρότυπα συμπίεσης, την αναγνώριση προτύπων ήχου περιβάλλοντος και τον υπολογισμό της αντήχησης, οι οποίες παρέχονται μέσω διαδικτυακής υπηρεσίας σε δημοσιογράφους και κοινό.
περισσότερα
Περίληψη σε άλλη γλώσσα
Digital media are going through a phase of intense developments and transformations. Advanced content production and processing capabilities combined with the connectivity and popularity of social media have led to an explosion in data production. The need for management of huge volumes of heterogeneous data, has set new challenges in terms of storage, processing and accessing data, leading to the development of the scientific field of big data. The abundance of available data and the evolution of tools and computing capabilities have created favorable conditions for the development of new strategies for machine and deep learning. Training models with a myriad of parameters allows for enhanced performance and robustness at levels that allow them to be used in real-world problems.This dissertation examines the integration of machine learning technologies into routine workflows in the production, collection, documentation, and distribution of audiovisual data, automating processes and au ...
Digital media are going through a phase of intense developments and transformations. Advanced content production and processing capabilities combined with the connectivity and popularity of social media have led to an explosion in data production. The need for management of huge volumes of heterogeneous data, has set new challenges in terms of storage, processing and accessing data, leading to the development of the scientific field of big data. The abundance of available data and the evolution of tools and computing capabilities have created favorable conditions for the development of new strategies for machine and deep learning. Training models with a myriad of parameters allows for enhanced performance and robustness at levels that allow them to be used in real-world problems.This dissertation examines the integration of machine learning technologies into routine workflows in the production, collection, documentation, and distribution of audiovisual data, automating processes and augmenting content. An operating framework is specified that includes all stages of content production and distribution. Web radio and television production systems implementing the framework’s directions are presented. A radio production application is proposed, integrating automated annotation processes, as well as segmentation and transcription of unstructured audio streams. Users can search broadcasts through content-based queries and navigate the timeline through an interactive environment. For web TV, the active speaker is detected and used for camera shot selection, automating the directing process. Additional issues that have an important place in the production, collection and distribution of content are explored. One function with particular relevance in journalism is sentiment analysis. In audiovisual streams, speech emotion is analyzed. Credibility and authentication issues arise when collecting and reusing material. Original techniques for content authentication are designed for the needs of the dissertation.To support the proposed functionality, datasets and machine learning models have been developed. Models implementing Convolutional Neural Network (CNN) architecture, transfer learning techniques, and unsupervised clustering speaker recognition and diarization have been designed and evaluated. Multimodal speaker indexing, combining audio and visual information is proposed. Face detection models are used to automatically select camera shots, incorporating basic composition rules. For the emotional analysis of audio content, the expandable AESDD database has been created, to train machine learning models and a CNN for real-time speech emotion recognition. Transfer learning techniques using CNNs for the training of personalized models have been evaluated. Νovel authentication techniques based on detecting discontinuities in compression standards, recognizing environmental sound patters and calculating reverberation are designed and provided through a dedicated web service to journalists and the public
περισσότερα