Περίληψη
Η έρευνα στον τομέα της Ανάκτησης Πληροφορίας από Μουσική (Music Information Retrieval - MIR) έχει παραδοσιακά επικεντρωθεί στις δυτικές μουσικές παραδόσεις, δημιουργώντας ένα σημαντικό κενό στις υπολογιστικές προσεγγίσεις για τις ποικίλες μουσικές κουλτούρες του κόσμου. Η παρούσα διατριβή στοχεύει στην κάλυψη αυτού του κενού, αναπτύσσοντας και αξιολογώντας μεθόδους για την πολυπολιτισμική αναπαράσταση της μουσικής, με σκοπό τη δημιουργία πιο "πολιτισμικά ενήμερων" υπολογιστικών προσεγγίσεων που μπορούν να αποτυπώνουν και να αναλύουν αποτελεσματικά τα ιδιαίτερα χαρακτηριστικά διαφορετικών μουσικών παραδόσεων. Η έρευνα αναπτύσσει το σύνολο δεδομένων Lyra, μια συλλογή Ελληνικής παραδοσιακής και δημοτικής μουσικής που περιλαμβάνει 1570 κομμάτια με λεπτομερή μεταδεδομένα, και εξερευνά τη διαπολιτισμική μεταφορά γνώσης μέσω συστηματικής αξιολόγησης μοντέλων βαθιών αναπαραστάσεων ήχου (deep audio embeddings) σε δυτικές, μεσογειακές και Ινδικές μουσικές παραδόσεις. Για την αντιμετώπιση των πρ ...
Η έρευνα στον τομέα της Ανάκτησης Πληροφορίας από Μουσική (Music Information Retrieval - MIR) έχει παραδοσιακά επικεντρωθεί στις δυτικές μουσικές παραδόσεις, δημιουργώντας ένα σημαντικό κενό στις υπολογιστικές προσεγγίσεις για τις ποικίλες μουσικές κουλτούρες του κόσμου. Η παρούσα διατριβή στοχεύει στην κάλυψη αυτού του κενού, αναπτύσσοντας και αξιολογώντας μεθόδους για την πολυπολιτισμική αναπαράσταση της μουσικής, με σκοπό τη δημιουργία πιο "πολιτισμικά ενήμερων" υπολογιστικών προσεγγίσεων που μπορούν να αποτυπώνουν και να αναλύουν αποτελεσματικά τα ιδιαίτερα χαρακτηριστικά διαφορετικών μουσικών παραδόσεων. Η έρευνα αναπτύσσει το σύνολο δεδομένων Lyra, μια συλλογή Ελληνικής παραδοσιακής και δημοτικής μουσικής που περιλαμβάνει 1570 κομμάτια με λεπτομερή μεταδεδομένα, και εξερευνά τη διαπολιτισμική μεταφορά γνώσης μέσω συστηματικής αξιολόγησης μοντέλων βαθιών αναπαραστάσεων ήχου (deep audio embeddings) σε δυτικές, μεσογειακές και Ινδικές μουσικές παραδόσεις. Για την αντιμετώπιση των προκλήσεων που σχετίζονται με τον περιορισμένο αριθμό επισημειωμένων δεδομένων, η διατριβή εισάγει τα Label-Combination Prototypical Networks (LC-Protonets), μια καινοτόμο προσέγγιση μάθησης από λίγα παραδείγματα που δημιουργεί πρωτότυπα για συνδυασμούς κατηγοριών αντί για μεμονωμένες κατηγορίες. Η εργασία αξιολογεί σύγχρονα θεμελιώδη μοντέλα σε ποικίλες μουσικές συλλογές και εισάγει το CultureMERT, ένα πολυπολιτισμικά προσαρμοσμένο θεμελιώδες μοντέλο που αναπτύχθηκε μέσω συνεχιζόμενης προ-εκπαίδευσης σε Ελληνική, Τουρκική και Ινδική μουσική. Η τελική διερεύνηση παρουσιάζει μια ανάλυση διαπολιτισμικής μουσικής ομοιότητας που γεφυρώνει την ανθρώπινη αντίληψη, τα χαρακτηριστικά του ήχου που προέρχονται από την επεξεργασία του σήματός του και τα θεμελιώδη μοντέλα, αξιοποιώντας επισημειώσεις από 125 συμμετέχοντες που αξιολόγησαν 1130 ζεύγη ήχου από δυτικές, μεσογειακές και ασιατικές κουλτούρες. Τα αποτελέσματα δείχνουν ότι τα θεμελιώδη μοντέλα επιτυγχάνουν την ισχυρότερη ευθυγράμμιση με την ανθρώπινη αντίληψη, ενώ η μελωδία αναδεικνύεται ως το σημαντικότερο στοιχείο για την αντίληψη της διαπολιτισμικής ομοιότητας. Προωθώντας την ανάπτυξη συνόλων δεδομένων, τη μεταφορά γνώσης, τη μάθηση από λίγα παραδείγματα, την προσαρμογή θεμελιωδών μοντέλων και την ανθρωποκεντρική αξιολόγηση, η παρούσα διατριβή συνεισφέρει υπολογιστικές μεθοδολογίες για την ανάλυση ποικίλων μουσικών παραδόσεων και παρέχει γνώσεις για τη σχέση μεταξύ ανθρώπινης διαπολιτισμικής μουσικής αντίληψης και υπολογιστικής κατανόησης της μουσικής.
περισσότερα
Περίληψη σε άλλη γλώσσα
Music Information Retrieval (MIR) research has traditionally focused on Western musical traditions, creating a significant gap in computational approaches to diverse world music cultures. This dissertation addresses this gap by developing and evaluating methods for multicultural music representation learning, aiming to create more culture-aware computational approaches that can effectively capture and analyze the distinctive characteristics of various musical traditions. The research develops the Lyra dataset, a comprehensive collection of Greek traditional and folk music comprising 1570 pieces with rich metadata, and explores cross-cultural knowledge transfer through systematic evaluation of deep audio embedding models across Western, Mediterranean, and Indian musical traditions. To address limited annotated data challenges, the dissertation introduces Label-Combination Prototypical Networks (LC-Protonets), a novel multi-label few-shot learning approach that creates prototypes for lab ...
Music Information Retrieval (MIR) research has traditionally focused on Western musical traditions, creating a significant gap in computational approaches to diverse world music cultures. This dissertation addresses this gap by developing and evaluating methods for multicultural music representation learning, aiming to create more culture-aware computational approaches that can effectively capture and analyze the distinctive characteristics of various musical traditions. The research develops the Lyra dataset, a comprehensive collection of Greek traditional and folk music comprising 1570 pieces with rich metadata, and explores cross-cultural knowledge transfer through systematic evaluation of deep audio embedding models across Western, Mediterranean, and Indian musical traditions. To address limited annotated data challenges, the dissertation introduces Label-Combination Prototypical Networks (LC-Protonets), a novel multi-label few-shot learning approach that creates prototypes for label combinations rather than individual labels. The work evaluates state-of-the-art foundation models across diverse musical corpora and introduces CultureMERT, a multi-culturally adapted foundation model developed through continual pre-training on Greek, Turkish, and Indian music. The final investigation presents a comprehensive analysis of cross-cultural music similarity bridging human perception, signal processing features, and foundation models through human annotations from 125 participants evaluating 1130 audio pairs across Western, Mediterranean, Indian, and Chinese cultures. Results demonstrate that foundation models achieve the strongest alignment with human perception, while melody emerges as the most important perceptual dimension. By advancing dataset development, transfer learning, few-shot learning, foundation model adaptation, and human-centered evaluation, this dissertation contributes computational methodologies for analyzing diverse musical traditions and provides insights into the relationship between human cross-cultural music perception and computational music understanding.
περισσότερα