Learning deep generative models for the enhancement of imbalanced signal classification

Η αναγνώριση των διαφορετικών τύπων νευρωνικών κυττάρων (νευρώνων) μέσω της ακριβούς ταξινόμηση τους είναι μια απαραίτητη διαδικασία για την κατανόηση της συμβολής των συγκεκριμένων κυττάρων στις λειτουργίες του εγκεφάλου. Παρ’ όλα αυτά η αυτοματοποιημένη και αξιόπιστη ταξινόμηση τους παραμένει μια πρόκληση εξαιτίας κυρίως της βιολογικής τους πολυπλοκότητας. Ένα άλλο σημαντικό ζήτημα με την ταξινόμηση των νευρωνικών κυττάρων είναι η εγγενής μη ισορροπημένη κατανομή τους στον εγκέφαλο, η οποία επηρεάζει αρνητικά τη διαδικασία εκμάθησης των περισσότερων αλγορίθμων ταξινόμησης, το οποίο έχει ως αποτέλεσμα ασταθείς προβλέψεις και χαμηλή απόδοση. Ωστόσο, το πρόβλημα της μη ισορροπημένης ταξινόμησης δεν επηρεάζει μόνο την ταξινόμηση των νευρωνικών κυττάρων, καθώς τα επισημασμένα δεδομένα σε πολλές πραγματικές εφαρμογές είναι περιορισμένα με υψηλές αναλογίες ανισορροπίας μεταξύ των κλάσεων. Έτσι, σε αυτή τη διατριβή εστιάζουμε τόσο στη δημιουργία μιας αυτοματοποιημένης μεθόδου ταξινόμησης νευρωνικών κυττάρων όσο και στο σχεδιασμό ισχυρών μοντέλων δημιουργίας δεδομένων, τα οποία αντιμετωπίζουν το πρόβλημα της μη ισορροπημένης ταξινόμησης δημιουργώντας τεχνητά δεδομένα. Οι κλασικές μέθοδοι της κατηγοριοποίησης νευρωνικών κυττάρων περιλαμβάνουν επίπονη και δαπανηρή ανάλυση μέσω ανοσοϊστοχημικών μεθόδων, οι οποίες εξαρτώνται από μοριακούς δείκτες που εκφράζονται σε πολλούς τύπους κυττάρων. Επιπλέον, αλγόριθμοι εξαγωγής χαρακτηριστικών βασισμένοι στα κυτταρικά χαρακτηριστικά αντιμετωπίζουν τη δυσκολία της αναγνώρισης μοναδικών χαρακτηριστικών για κάθε κατηγορία. Και οι δύο μέθοδοι απαιτούν σημαντική ανθρώπινη επέμβαση και είναι χρονοβόρες. Για να ξεπεραστούν αυτές οι προκλήσεις, αυτή η διατριβή παρουσιάζει την πρώτη αυτόματη μέθοδο κατηγοριοποίησης τύπων νευρωνικών κυττάρων που βασίζεται στη βαθιά μάθηση και χρησιμοποιεί τη χρονοσειρά σημάτων δραστηριότητας ασβεστίου (Ca2+), ένα χαρακτηριστικό που δεν έχει προηγουμένως εξερευνηθεί. Συγκεκριμένα, η ερευνητική μας μελέτη επικεντρώνεται σε δύο διαφορετικά πραγματικά σύνολα δεδομένων. Το ένα σχετίζεται με την εκμάθηση ενός συγκεκριμένου στόχου από τα πειραματόζωα, ενώ το άλλο αναφέρεται στη τυχαία αναζήτηση της τροφής τους. Για το πείραμα εκμάθησης στόχου πραγματοποιούμε μια συγκριτική ερευνητική ανάλυση μεταξύ των μονοδιάστατων συνελικτικών νευρωνικών δικτύων, των επαναλαμβανόμενων νευρωνικών δικτύων και των δικτύων μακράς βραχυπρόθεσμης μνήμης. Προτείνουμε μια απλή αναδιοργάνωση των δεδομένων, η οποία επιταχύνει ουσιαστικά την εκπαίδευση των επαναλαμβανόμενων νευρωνικών δικτύων και των δικτύων μακράς βραχυπρόθεσμης μνήμης, τα οποία συνήθως απαιτούν μεγάλο χρόνο εκπαίδευσης κατά την επεξεργασία μακρών χρονοσειρών. Για το πείραμα τυχαίας αναζήτησης τροφής χρησιμοποιούμε ένα δισδιάστατο συνελικτικό νευρωνικό δίκτυο και αξιοποιούμε επίσης τα χαρακτηριστικά της ταχύτητας του ζώου και του βάθους z κάθε νευρωνικού κυττάρου. Το πρόβλημα της μη ισορροπημένης ταξινόμησης έχει οδηγήσει την ερευνητική κοινότητα στην πρόταση τριών κύριων προσεγγίσεων: μεθόδους σε επίπεδο δεδομένων, μεθόδους αλγοριθμικού επιπέδου και υβριδικές μεθόδους που συνδυάζουν και τις δύο. Οι μέθοδοι επιπέδου δεδομένων περιλαμβάνουν γενετικά μοντέλα συνήθως με βάση τα δίκτυα παραγωγικών ανταγωνιστικών δικτύων (GANs), τα οποία βασίζονται σε μεγάλες ποσότητες δεδομένων, ενώ οι μέθοδοι αλγοριθμικού επιπέδου απαιτούν τη γνώση εμπειρογνωμόνων για την ανάπτυξη αποτελεσματικών στόχων μάθησης, που μπορεί να είναι λιγότερο προσβάσιμες σε χρήστες χωρίς τέτοια εμπειρία. Συνήθως, και οι δύο αυτές μέθοδοι εφαρμόζονται σε δεδομένα εικόνων και λιγότερο συχνά σε δεδομένα χρονοσειρών, αλλά σπάνια και στα δύο. Για να αντιμετωπίσουμε τα παραπάνω ζητήματα, παρουσιάζουμε τον αλγόριθμο GENDA, ένα βαθύ αυτόματο κωδικοποιητή που δημιουργεί δεδομένα στηριζόμενος στη γειτονική πληροφορία που αναφέρεται σε αυτά τα δεδομένα. Ο προτεινόμενος αλγόριθμος είναι απλός αλλά αποτελεσματικός στη σχεδίασή του και μπορεί να εφαρμοστεί με επιτυχία τόσο σε δεδομένα εικόνας όσο και σε χρονοσειρές. Βασίζεται στην εκμάθηση λανθανουσών αναπαράστασεων που χρησιμοποιούν το γειτονικό χώρο των δειγμάτων, και μόλις εκπαιδευτεί μπορεί να χρησιμοποιηθεί για τη δημιουργία όσων δειγμάτων χρειάζονται, έτσι ώστε κάθε αλγόριθμος ταξινόμησης να μπορεί να εκπαιδευτεί με ένα σύνολο δεδομένων όπου θα υπάρχει ισορροπία ανάμεσα στις κλάσεις. Εκτεταμένα πειράματα που πραγματοποιήθηκαν σε ένα σύνολο από ευρέως χρησιμοποιούμενα πραγματικά δεδομένα δείχνουν την αποτελεσματικότητα της προτεινόμενης μεθόδου. Τέλος, για να βελτιώσουμε την απόδοση του GENDA και να αξιοποιήσουμε τις πληροφορίες που μπορεί να παρέχει ένας ταξινομητής κατά τη διαδικασία εκπαίδευσης του παραγωγικού μοντέλου, προτείνουμε τον αλγόριθμο GENDA-XL, ένα βαθύ αυτόματο κωδικοποιητή με μια εκτεταμένη συνάρτηση κόστους που δημιουργεί δεδομένα στηριζόμενος στη γειτονική πληροφορία των δεδομένων αυτών και είναι η επέκταση του GENDA. Ο GENDA-XL διαθέτει μια πιο αποτελεσματική συνάρτηση κόστους συγκριτικά με το GENDA, καθώς ο GENDA-XL χρησιμοποιεί μια μετρική εποπτεύομενης ομοιότητας για την εκμάθηση αποδοτικών λανθανουσών αναπαραστάσεων που χρησιμοποιούν το γειτονικό χώρο των δειγμάτων, καθώς επίσης ενσωματώνει και ένα προεκπαιδευμένο ταξινομητή στην αρχιτεκτονική του, ο οποίος συσχετίζει κάθε δείγμα που παράγεται με τη κλάση στην οποία ανήκει. Τα πειραματικά μας αποτελέσματα δείχνουν ότι ο GENDA-XL υπερτερεί του GENDA και των άλλων μεθόδων που αποσκοπούν στην αντιμετώπιση του προβλήματος της μη ισορροπημένης ταξινόμησης.

περισσότερα

Περίληψη σε άλλη γλώσσα

Accurately classifying different types of neuronal cells is crucial for comprehending their impact on brain functions. However, due to their biological complexity, automated and reliable classification of neuronal cell types remains a challenging task. Additionally, the inherent imbalanced distribution of neuronal cells in the brain poses another significant hurdle in the classification process. This can lead to unstable predictions and poor performance of most classification algorithms. The problem of imbalanced classification is not limited to neuronal cell-type classification alone, as it is a common issue in many real-world applications with limited labeled data and high class imbalance ratios, which results in a significant decrease in performance. Therefore, this dissertation aims to address both the challenge of automated neuronal cell-type classification and the design of robust generative models that can tackle the imbalanced classification problem by generating synthetic data. Typical methods for researching neuronal cell-type classification involve laborious and costly immunohistochemical analysis, which relies on molecular markers that may be expressed in several cell types. Additionally, algorithms that extract features based on cellular characteristics face the difficulty of identifying unique features for each class. Both methods demand substantial human intervention and are time-consuming. To overcome these challenges, this dissertation introduces the first automated neuronal cell type classification method based on deep learning and utilizing the time series of calcium (Ca2+) activity signals, a previously unexplored feature. The study focuses on two real-world datasets, the Goal Oriented Learning (GOL) task and the Random Foraging (RF) task, which describe different experiments on test animals. For the GOL task, we conduct a comparative research analysis of 1-Dimensional Convolutional Neural Networks (1D-CNNs), Recurrent Neural Networks (RNNs), and Long Short-Term Memory Networks (LSTMs). Additionally, we propose a simple data re-organization that significantly accelerates the training of RNNs and LSTMs, which typically require substantial training time when processing long time series data. For the RF task, we employ a 2D-CNN model, and we additionally utilize the novel features of animal velocity and the z-depth of each neuronal cell. The imbalanced classification problem has prompted the research community to propose three primary approaches: data-level, algorithmic-level, and hybrid methods that combine both. Data-level methods involve generative models, often based on Generative Adversarial Networks that rely on large quantities of data, while algorithmic-level methods require domain expert knowledge to develop effective learning objectives, which may be less accessible to users without such expertise. Usually, both these methods are applied to image data, and less frequently to time series data, but seldom to both. To address these limitations, we present GENDA, a Generative Neighborhood based Deep Autoencoder that is straightforward and effective in its design, and can be successfully applied to both image and time series data. GENDA learns latent representations based on the neighboring embedding space of the samples and can generate as many samples as necessary to balance the dataset, allowing for the efficient training of a classification-based model. Extensive experiments conducted on a variety of widely-used real datasets demonstrate the effectiveness of the proposed method. Finally, in order to enhance GENDA's performance and leverage the information that can be provided by a classifier model during the generative model's training process, we proposed GENDA-XL, a Generative Neighborhood-based Deep Autoencoder with eXtended Loss, which is the extension of GENDA. GENDA-XL features a more robust loss function compared to GENDA, as GENDA-XL uses a supervised similarity metric for learning efficient latent representations based on the neighboring embedding space of the samples, and also incorporates a pre-trained classifier model into its architecture that associates each generated sample with its specific label. Our experimental results demonstrate that GENDA-XL outperforms both GENDA and other methods that aim to address the imbalanced classification problem.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (2.85 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/54391
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/54391
ND	54391
Εναλλακτικός τίτλος	Learning deep generative models for the enhancement of imbalanced signal classification
Συγγραφέας	Τρουλλινού, Ειρήνη (Πατρώνυμο: Ιωάννη)
Ημερομηνία	2023
Ίδρυμα	Πανεπιστήμιο Κρήτης. Σχολή Θετικών και Τεχνολογικών Επιστημών. Τμήμα Επιστήμης Υπολογιστών
Εξεταστική επιτροπή	Τσακαλίδης Παναγιώτης Ποϊράζη Παναγιώτα Παπαδοπούλη Μαρία Τσαγκατάκης Γρηγόριος Παπαχαριλάου Ιωάννης Φρουδαράκης Εμμανουήλ Τζαγκαράκης Γεώργιος
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Τεχνητή νοημοσύνη
Λέξεις-κλειδιά	Τεχνητά νευρωνικά δίκτυα; Δεδομένα απεικόνισης ασβεστίου; Μέθοδοι αύξησης δεδομένων; Μοντέλα παραγωγής δεδομένων; Ταξινόμηση με μη ισάριθμο πλήθος κλάσεων; Δεδομένα εικόνων; Λανθάνων χώρος; Χρονοσειρές
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

"Μάθηση βαθιών μοντέλων παραγωγής δεδομένων για τη βελτιστοποίηση της ταξινόμησης σημάτων με μη ισορροπημένη κατανομή κλάσεων"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .