Ανάπτυξη διαδικασιών για το σχεδιασμό χημικών δομών με μεθοδολογίες τεχνητής νοημοσύνης και μηχανικής μάθησης
Περίληψη
Η ανακάλυψη νέων φαρμάκων αποτελεί μία από τις πιο απαιτητικές και χρονοβόρες διαδικασίες στον τομέα της φαρμακευτικής βιομηχανίας, με ποσοστά κλινικής επιτυχίας κάτω του 12%, λόγω έλλειψης αποτελεσματικότητας ή τοξικότητας των ενώσεων. Η ανακάλυψη και ανάπτυξη νέων χημικών δομών επομένως απαιτεί όχι μόνο τον αποτελεσματικό σχεδιασμό τους αλλά και την διασφάλιση της ασφάλειάς τους από τα πρώτα στάδια. Το υψηλό κόστος και οι ηθικές ανησυχίες που συνδέονται με τα χαμηλά ποσοστά επιτυχίας της ανάπτυξης νέων φαρμακευτικών δομών τονίζουν την ανάγκη για πιο αποδοτικές και αξιόπιστες μεθόδους που εντοπίζουν τις χημικές ενώσεις με επιθυμητές ιδιότητες και αποκλείουν εκείνες με ανεπιθύμητες ιδιότητες έγκαιρα στη διαδικασία της ανακάλυψης φαρμάκων. Το πρώτο βήμα της διαδικασίας σχεδιασμού ενός φαρμάκου είναι η ταυτοποίηση ενός βιολογικού στόχου επί του οποίου μπορεί να δράσει ένα πιθανό φάρμακο, π.χ. μία πρωτεΐνη της οποίας η δραστικότητα μπορεί να τροποποιηθεί από μία χημική ένωση για να επιτευ ...
Η ανακάλυψη νέων φαρμάκων αποτελεί μία από τις πιο απαιτητικές και χρονοβόρες διαδικασίες στον τομέα της φαρμακευτικής βιομηχανίας, με ποσοστά κλινικής επιτυχίας κάτω του 12%, λόγω έλλειψης αποτελεσματικότητας ή τοξικότητας των ενώσεων. Η ανακάλυψη και ανάπτυξη νέων χημικών δομών επομένως απαιτεί όχι μόνο τον αποτελεσματικό σχεδιασμό τους αλλά και την διασφάλιση της ασφάλειάς τους από τα πρώτα στάδια. Το υψηλό κόστος και οι ηθικές ανησυχίες που συνδέονται με τα χαμηλά ποσοστά επιτυχίας της ανάπτυξης νέων φαρμακευτικών δομών τονίζουν την ανάγκη για πιο αποδοτικές και αξιόπιστες μεθόδους που εντοπίζουν τις χημικές ενώσεις με επιθυμητές ιδιότητες και αποκλείουν εκείνες με ανεπιθύμητες ιδιότητες έγκαιρα στη διαδικασία της ανακάλυψης φαρμάκων. Το πρώτο βήμα της διαδικασίας σχεδιασμού ενός φαρμάκου είναι η ταυτοποίηση ενός βιολογικού στόχου επί του οποίου μπορεί να δράσει ένα πιθανό φάρμακο, π.χ. μία πρωτεΐνη της οποίας η δραστικότητα μπορεί να τροποποιηθεί από μία χημική ένωση για να επιτευχθεί ένα θεραπευτικό αποτέλεσμα. Το επόμενο βήμα είναι η αξιολόγηση μεγάλου όγκου ενώσεων με βιολογικές δοκιμές ώστε να καταγραφούν οι αλληλεπιδράσεις των ενώσεων με τις πρωτεΐνες-στόχους. Κατά τη διάρκεια αυτής της διαδικασίας, προκύπτουν οι ενώσεις που ονομάζονται “hit compounds”. Οι ενώσεις αυτές στην συνέχεια βελτιώνονται για να παραχθούν οι “lead” ενώσεις, οι οποίες υφίστανται περαιτέρω βελτιστοποίηση των φαρμακοκινητικών ιδιοτήτων τους και της αποτελεσματικότητάς τους. Στο πλαίσιο της αναγνώρισης των “hit compounds”, γίνεται αναζήτηση για πιθανά μόρια τα οποία μπορούν να επηρεάσουν την πρωτεΐνη-στόχο. Αυτό γίνεται με μετρήσεις της διαλογής υψηλής απόδοσης (high-throughput screening), όπου χρησιμοποιούνται βιβλιοθήκες με εκατομμύρια ενώσεις και μετά από δοκιμές σε βιολογικά συστήματα, επιλέγονται οι ενώσεις που αλληλεπιδρούν με το στόχο. Ωστόσο, αυτή η διαδικασία είναι χρονοβόρα και δαπανηρή, καθώς απαιτεί εκτεταμένη εργαστηριακή εργασία. Εναλλακτική επιλογή αποτελεί η εικονική διαλογή (virtual screening), κατά την οποία χρησιμοποιούνται υπολογιστικά μοντέλα για την πρόβλεψη της αλληλεπίδρασης ανάμεσα στον βιολογικό στόχο και την χημική ένωση. Η διαδικασία της εικονικής διαλογής αποτελεί το υπολογιστικό ή in silico ανάλογο της κλασικής βιολογικής διαλογής. Ο κύριος στόχος είναι η μείωση του τεράστιου χημικού χώρου μέσα από τη βαθμολόγηση και κατάταξη του συνόλου των διαθέσιμων δομών, μέσω της χρήσης μίας ή περισσοτέρων υπολογιστικών μεθόδων. Μέθοδοι σχεδιασμού φαρμάκων με τη βοήθεια ηλεκτρονικού υπολογιστή Οι μέθοδοι σχεδιασμού φαρμάκων με τη βοήθεια ηλεκτρονικού υπολογιστή (computer-aided drug design, CADD) και γενικότερα οι προσεγγίσεις της χημειοπληροφορικής έχουν καταστεί ισχυρό εργαλείο στη διαδικασία ανακάλυψης φαρμάκων. Η χημειοπληροφορική αποτελεί ένα διεπιστημονικό γνωστικό πεδίο, το οποίο ασχολείται με τον σχεδιασμό νέων μορίων με βελτιωμένα χαρακτηριστικά, με χρήση σύγχρονων υπολογιστικών μεθόδων και συστημάτων. Ο βασικός άξονας του CADD είναι η χρήση υπολογιστικών αλγορίθμων σε χημικά και βιολογικά δεδομένα για την προσομοίωση και την πρόβλεψη του τρόπου με τον οποίο ένα πιθανό φάρμακο αλληλεπιδρά με την πρωτεΐνη στόχο. Ως προς τις κατηγορίες του CADD, χωρίζονται σε δύο βασικές προσεγγίσεις: το σχεδιασμό φαρμάκων βάσει της δομής (structure-based drug design), και το σχεδιασμό φαρμάκων βάσει του προσδέτη (ligand-based drug design). Οι μέθοδοι που βασίζονται στη δομή προσομοιώνουν τις φυσικές αλληλεπιδράσεις που σημειώνονται ανάμεσα στη χημική ένωση και στο βιομοριακό στόχο, αλλά μπορούν να εφαρμοστούν μόνο εάν είναι γνωστή η πλήρης τρισδιάστατη δομή όλων των αλληλοεπιδρώντων μορίων. Οι μέθοδοι που βασίζονται στον προσδέτη προβλέπουν τη δραστικότητα ή την ιδιότητα μίας ένωσης χωρίς τη χρήση της τρισδιάστατης δομής του στόχου. Συνήθεις μέθοδοι που βασίζονται στη δομή περιλαμβάνουν τις προσομοιώσεις μοριακής πρόσδεσης (molecular docking) και μοριακής δυναμικής (molecular dynamics). Το πρώτο βήμα αφορά στην προετοιμασία του υποδοχέα, καθώς και στην ταυτοποίηση της θέσης δέσμευσης του προσδέτη. Ο υπολογισμός μοριακής δυναμικής αποτελεί μία υπολογιστική τεχνική η οποία στοχεύει στην επίτευξη μιας βελτιστοποιημένης διαμόρφωσης τόσο για την πρωτεΐνη όσο και για τον προσδέτη, ώστε η ελεύθερη ενέργεια του συνολικού συστήματος να ελαχιστοποιείται. Οι προσομοιώσεις μοριακής δυναμικής διερευνούν περαιτέρω τη δυναμική των αλληλεπιδράσεων υποδοχέα-προσδέτη και στοχεύουν στην πρόβλεψη της θέσης κάθε ατόμου σε ένα μοριακό σύστημα ως συνάρτηση του χρόνου, βασιζόμενη στις εξισώσεις κίνησης του Νεύτωνα. Οι μέθοδοι σχεδιασμού βάσει του προσδέτη μπορούν να χρησιμοποιηθούν ακόμα και όταν δεν είναι διαθέσιμη η τρισδιάστατη δομή της πρωτεΐνης. Κοινές τεχνικές περιλαμβάνουν την αναζήτηση με βάση το τρισδιάστατο φαρμακοφόρο, καθώς και τις μεθόδους ποσοτικής συσχέτισης δομής-δραστηριότητας (Quantitative Structure-Activity Relationships, QSAR). Στην οικογένεια των μεθόδων QSAR ανήκουν και άλλες πρακτικές για ποσοτική συσχέτιση δομής-ιδιοτήτων (Quantitative Structure-Property Relationships, QSPR) και για ποσοτική συσχέτιση δομής-τοξικότητας (Quantitative Structure-Toxicity Relationships, QSTR). Ο σχεδιασμός με βάση το φαρμακοφόρο αφορά την αναγνώριση χαρακτηριστικών των ενώσεων, όπως δότες και αποδέκτες ατόμων υδρογόνου, ή θετικά και αρνητικά φορτισμένες ομάδες, που επηρεάζουν τη φαρμακολογική δραστηριότητα ενός μορίου. Η ποσοτική σχέση QSAR πρόκειται για τη μαθηματική μοντελοποίηση για την εμφάνιση σχέσεων μεταξύ βιολογικών δραστηριοτήτων και χημικών ενώσεων. Τα μοντέλα τύπου QSAR συσχετίζουν μοριακούς περιγραφείς (molecular descriptors) με πειραματικές μετρήσεις ιδιοτήτων ή δραστικότητας, και στη συνέχεια εφαρμόζονται για το σχεδιασμό ή την πρόβλεψη νέων χημικών δομών με επιθυμητά χαρακτηριστικά. Παρά την ευρεία χρήση τους, οι παραδοσιακές μέθοδοι QSAR αντιμετωπίζουν περιορισμούς. Τα μοντέλα QSAR στηρίζονται σε γραμμικές σχέσεις μεταξύ χημικής δομής και βιολογικής δραστηριότητας. Παρ’ όλα αυτά, στη φύση τους οι σχέσεις αυτές είναι μη γραμμικές, αφού η βιολογική απόκριση ενός χημικού μορίου είναι αποτέλεσμα πολύπλοκων σχέσεων μεταξύ δομικών χαρακτηριστικών και βιολογικής δραστηριότητας. Επομένως, μη γραμμικές προσεγγίσεις μοντελοποίησης μπορούν να παράξουν καλύτερα προβλεπτικά μοντέλα QSAR. Με την ανάπτυξη των μεθόδων μηχανικής μάθησης, διαφορετικοί αλγόριθμοι μπορούν να εφαρμοστούν για την πρόβλεψη ιδιοτήτων των ενώσεων, συσχετίζοντας με μη γραμμικές σχέσεις τη δομή των ενώσεων με τις ιδιότητες τους. Τεχνητή νοημοσύνη για το σχεδιασμό χημικών δομών Ο όρος τεχνητή νοημοσύνη αναφέρεται στον κλάδο της πληροφορικής ο οποίος ασχολείται με τον σχεδιασμό και την υλοποίηση υπολογιστικών συστημάτων που μιμούνται στοιχεία ανθρώπινης συμπεριφοράς τα οποία υπονοούν έστω και στοιχειώδη ευφυΐα, όπως η μάθηση, η προσαρμοστικότητα, η εξαγωγή συμπερασμάτων, η επίλυση προβλημάτων κ.α. Η τεχνητή νοημοσύνη καθιστά τις υπολογιστικές μηχανές ικανές να “κατανοούν” το περιβάλλον τους, να επιλύουν προβλήματα και να δρουν προς την επίτευξη ενός συγκεκριμένου στόχου. Ο υπολογιστής λαμβάνει δεδομένα, τα επεξεργάζεται και ανταποκρίνεται βάσει αυτών. Η μηχανική μάθηση είναι ένα υποσύνολο της τεχνητής νοημοσύνης με κύριο στόχο την κατασκευή προγραμμάτων που έχουν τη δυνατότητα μάθησης χωρίς κάποιο ρητό προγραμματισμό. Η μηχανική μάθηση ασχολείται με τη ανάπτυξη αλγορίθμων που βελτιώνονται αυτόματα μέσω της εμπειρίας από τη χρήση δεδομένων. Οι αλγόριθμοι αυτοί κατασκευάζουν ένα μοντέλο, το οποίο είναι ικανό να “εκπαιδεύεται” από ένα σύνολο δεδομένων, γνωστό ως “δεδομένα εκπαίδευσης”, προκειμένου να πραγματοποιεί συγκεκριμένες προβλέψεις ή να λαμβάνει αποφάσεις. Η μηχανική μάθηση χωρίζεται σε τρεις κατηγορίες, την επιβλεπόμενη μάθηση (supervised learning), την μη-επιβλεπόμενη μάθηση (unsupervised learning), και την ενισχυτική μάθηση (reinforcement learning). Στην επιβλεπόμενη μάθηση, το μοντέλο εκπαιδεύεται σε δεδομένα εκπαίδευσης, που περιλαμβάνουν τις μεταβλητές εισόδου και μία η περισσότερες μεταβλητές εξόδου, με σκοπό την ανάπτυξη μοντέλου που θα προβλέπει σωστά την μεταβλητή εξόδου. Τα μοντέλα μη-επιβλεπόμενης μάθησης δεν χρησιμοποιούν δεδομένα με κάποια μεταβλητή εξόδου και στοχεύουν στην εύρεση κρυφών μοτίβων μεταξύ των μεταβλητών εισόδου, καθώς και την ομαδοποίησή τους. Τέλος, η ενισχυτική μάθηση είναι μια διαδικασία στην οποία το μοντέλο εκπαιδεύεται μέσα από την άμεση αλληλεπίδραση με το περιβάλλον ανατροφοδοτούμενο από αποτελέσματα των δικών του ενεργειών, προσφέροντας το σήμα επιβράβευσης για την “σωστή πρόβλεψη” και το σήμα “τιμωρίας” για την “λάθος πρόβλεψη”. Κλασσικοί αλγόριθμοι μηχανικής μάθησης, όπως ο αλγόριθμος των k πλησιέστερων γειτόνων (kNN), τα τυχαία δάση (Random Forests, RF) και ο μηχανισμός διανυσμάτων υποστήριξης (Support Vector Machines, SVM), έχουν χρησιμοποιηθεί εκτενώς σε προβλήματα τύπου QSAR συνδέοντας τη μοριακή δομή με φυσικοχημικές, φαρμακοκινητικές ή τοξικολογικές ιδιότητες. Αυτές οι μέθοδοι αξιοποιούν μοριακούς περιγραφείς ή μοριακά αποτυπώματα (molecular fingerprints) για να αναπαραστήσουν τα χημικά μόρια με τρόπο κατανοητό για τον υπολογιστή. Αυτές οι μοριακές απεικονίσεις χρησιμοποιούνται ως μεταβλητές εισόδου στα μοντέλα μηχανικής μάθησης για να συσχετίσουν τις πληροφορίες της χημικής δομής με τις χημικές ιδιότητες. Η βαθιά μάθηση είναι ένα υποσύνολο μεθόδων μηχανικής μάθησης που βασίζονται σε νευρωνικά δίκτυα. Ένα νευρωνικό δίκτυο είναι ένα υπολογιστικό μοντέλο, το οποίο έχει εμπνευστεί από τη δομή και τον τρόπο λειτουργίας του ανθρώπινου εγκεφάλου. Όσον αφορά την αρχιτεκτονική του, αποτελείται από διασυνδεδεμένους κόμβους, οι οποίοι αποκαλούνται νευρώνες, και είναι οργανωμένοι σε στρώματα. Κάθε νευρώνας αυτού του δικτύου επεξεργάζεται εισερχόμενα δεδομένα και παρέχει έξοδο που μεταδίδεται στα επόμενα στρώματα. Η βαθιά μάθηση έχει επεκτείνει περαιτέρω τις δυνατότητες της εφαρμογής μεθόδων μηχανικής μάθησης στο σχεδιασμό χημικών δομών, καθώς τα νευρωνικά δίκτυα πολλαπλών στρωμάτων μπορούν να εξάγουν αυτόματα σύνθετα μοτίβα και αναπαραστάσεις από τα δεδομένα. Τα πλήρως συνδεδεμένα νευρωνικά δίκτυα (Fully Connected Neural Network, FCNNs), τα συνελικτικά νευρωνικά δίκτυα (Convolutional Neural Networks, CNNs) και τα αναδρομικά νευρωνικά δίκτυα (Recurrent Neural Networks, RNNs) έχουν χρησιμοποιηθεί εκτενώς για την πρόβλεψη ιδιοτήτων ή την ταξινόμηση δραστικότητας μετατρέποντας τις χημικές δομές είτε σε μοριακούς περιγραφείς, δυαδικά διανύσματα, είτε στο σύστημα απλοποιημένης μοριακής γραμμικής γραφής (Simplified Molecular-Input Line-Entry System, SMILES). Νεότερες αρχιτεκτονικές όπως τα νευρωνικά δίκτυα γράφων (Graph Neural Networks, GNNs) χρησιμοποιούν ως είσοδο χημικούς γράφους επιτυγχάνοντας την τροποποίηση των σχέσεων μεταξύ δομικών χαρακτηριστικών και βιολογικής δράσης χωρίς να είναι αναγκαία η κατασκευή άλλων περιγραφικών μεταβλητών. Τέλος, με την ανάπτυξη της επεξεργασίας φυσικής γλώσσας (Natural Language Processing, NLP), διάφορες αρχιτεκτονικές όπως τα αναδρομικά νευρωνικά δίκτυα και οι παραγωγικοί προεκπαιδευμένοι μετασχηματιστές (Generative Pretrained Transformers, GPTs) επιτρέπουν τη μάθηση χημικών αναπαραστάσεων από ακολουθίες SMILES και την παραγωγή νέων μορίων de novo (de novo molecular generation) ως ένα πρόβλημα μετάφρασης ακολουθιών. Υπολογιστικό πλαίσιο Για τη συσχέτιση μεταξύ μίας χημικής δομής και μίας ιδιότητας, μπορούν να εξεταστούν διάφορες μεθοδολογίες μοντελοποίησης. Ένα από τα πιο σημαντικά βήματα αφορούν στην αξιόπιστη αναπαράσταση των χημικών δομών σε μορφή κατανοητή από τον υπολογιστή, ώστε να είναι εφικτή η μαθηματική συσχέτιση με την ιδιότητα. Διάφορες μοριακές αναπαραστάσεις έχουν αναπτυχθεί για χρήση σε CADD, ωστόσο η κάθε μία έχει σχεδιαστεί για να αποτυπώνει διαφορετικές πτυχές των μοριακών χαρακτηριστικών. Δεδομένου ότι η αναπαράσταση των χημικών δομών συνδέεται άμεσα με την απόδοση του μοντέλου που προκύπτει, η επιλογή της κατάλληλης μοριακής αναπαράστασης είναι σημαντική για τη βελτίωση της απόδοσης του μοντέλου. Όπως αναφέρθηκε προηγουμένως, οι χημικές δομές μπορούν να αναπαρασταθούν με διάφορους τρόπους, όπως με μοριακούς περιγραφείς, μοριακά αποτυπώματα, μοριακούς γράφους, με το σύστημα απλοποιημένης μοριακής γραμμικής γραφής κ.α. Η προεπεξεργασία των δεδομένων αποτελεί ένα σημαντικό κομμάτι στην ανάπτυξη ενός μοντέλου. Περιλαμβάνει διαδικασίες όπως η επιλογή μεταβλητών (feature selection) για την επιλογή μόνο των μεταβλητών που είναι σημαντικές για την πρόβλεψη της μεταβλητής εξόδου, και η κανονικοποίηση των δεδομένων (normalization) για να συμβάλλουν οι μεταβλητές με τον ίδιο βαθμό στη μοντελοποίηση. Για να ποσοτικοποιηθεί η επίδοση ενός μοντέλου σε νέα δεδομένα, χρειάζεται να μετρηθεί το ποσοστό των λανθασμένων προβλέψεων ή η απόκλισή τους από την πραγματική τιμή με χρήση δεδομένων που δεν συνείσφεραν στην εκπαίδευση του μοντέλου. Επομένως, τα δεδομένα χωρίζονται σε δεδομένα που θα χρησιμοποιηθούν για την εκπαίδευση του μοντέλου (training set) και δεδομένα δοκιμής που θα χρησιμοποιηθούν για την αξιολόγηση των προβλέψεων (test set). Συχνά η παραπάνω διαμέριση μπορεί να διαφοροποιείται, και το σύνολο των δεδομένων να χωρίζεται σε δεδομένα εκπαίδευσης, δεδομένα ελέγχου (validation set) και δεδομένα δοκιμής. Το σύνολο εκπαίδευσης χρησιμοποιείται για την εκπαίδευση του μοντέλου, ενώ το σύνολο ελέγχου χρησιμοποιείται για την επιλογή των υπερπαραμέτρων του μοντέλου που οδηγούν πράγματι σε αξιόπιστες προβλέψεις σε νέα δεδομένα. Όταν επιλεγούν οι υπερπαράμετροι, το μοντέλο είναι έτοιμο για την τελική αξιολόγηση στο “τυφλό” σύνολο δεδομένων (εξωτερική αξιολόγηση, external validation). Στη Διατριβή χρησιμοποιήθηκε η διαμέριση σε δεδομένα εκπαίδευσης, ελέγχου και δοκιμής για τις μεθοδολογίες που παρουσιάζονται στα Κεφάλαια 4 και 5. Για το παραγωγικό μοντέλο που παρουσιάζεται στο Κεφάλαιο 6, χρησιμοποιήθηκε η διαμέριση σε δεδομένα εκπαίδευσης και δοκιμής. Στο Κεφάλαιο 5, τα τελικά μοντέλα πρόβλεψης τοξικότητας στο δέρμα ελέγχθηκαν και ως προς την επίδοσή τους και σε άγνωστα δεδομένα που δεν ανήκουν στο αρχικό σύνολο δεδομένων. Η εφαρμογή της μεθόδου της διασταυρούμενης επικύρωσης (cross validation) αποτελεί μία μέθοδο εσωτερικής επικύρωσης (internal validation) που χρησιμοποιείται στην περίπτωση που είναι επιθυμητή η εξασφάλιση της ομοιομορφίας κατά την επιλογή των δεδομένων εκπαίδευσης και ελέγχου. Με τη γενικευμένη μέθοδο διασταυρούμενης επικύρωσης, k-fold cross validation, το σύνολο των δεδομένων χωρίζεται σε k υποσύνολα. Οι διαδικασίες εκπαίδευσης και αξιολόγησης επαναλαμβάνονται k φορές και σε κάθε επανάληψη ένα υποσύνολο χρησιμοποιείται ως σύνολο δοκιμής και τα υπόλοιπα k-1 υποσύνολα χρησιμοποιούνται ως δεδομένα εκπαίδευσης. Στη Διατριβή χρησιμοποιήθηκε το 5-fold cross validation για εσωτερική αξιολόγηση των μοντέλων (Κεφάλαια 4 και 5), ενώ στο Κεφάλαιο 5 χρησιμοποιήθηκε και η μέθοδος leave-one-out (LOO) cross validation, κατά την οποία κάθε σημείο ελέγχεται διαδοχικά σε ένα μοντέλο που έχει εκπαιδευτεί χρησιμοποιώντας σχεδόν όλα τα διαθέσιμα δεδομένα εκτός ενός σημείου. Αφού παραχθούν οι προβλέψεις για τα δεδομένα δοκιμής, ανάλογα με το είδος της εξαρτημένης μεταβλητής που προβλέπεται (αριθμός ή κλάση), υπολογίζονται και τα αντίστοιχα μέτρα αξιολόγησης. Στην περίπτωση προβλήματος κατηγοριοποίησης (classification), υπολογίζονται οι μετρικές που παρουσιάζονται στην υποενότητα §2.3.1.1. Τα μέτρα αξιολόγησης προκύπτουν από τους συνδυασμούς των συχνοτήτων σωστής ή λανθασμένης πρόβλεψης ανάμεσα στις κλάσεις. Οι συχνότητες αυτές απεικονίζονται στις μήτρες σύγχυσης (confusion matrices) και από αυτές υπολογίζονται επιπλέον μετρικές όπως η ακρίβεια (Accuracy, Acc), η ευαισθησία (Sensitivity, Sen), η εξειδίκευση (Specificity, Spe), ο συντελεστής συσχέτισης Matthews (Matthews correlation coefficient, MCC), η ευστοχία (Precision, Pre), ο δείκτης F1 (F1-score) και η επιφάνεια κάτω από την καμπύλη ROC (ROC-AUC). Οι επιθυμητές τιμές των στατιστικών αυτών τείνουν προς τη μονάδα (1), ώστε να χαρακτηρίζονται από απόλυτη επιτυχία στην πρόβλεψη των κλάσεων. Στην περίπτωση προβλήματος παλινδρόμησης (regression), όπου η εξαρτημένη μεταβλητή είναι αριθμητική τιμή, υπολογίζονται συνήθως οι μετρικές που παρουσιάζονται στην υποενότητα §2.3.1.2, όπως ο συντελεστής συσχέτισης (correlation of determination R^2), το μέσο τετραγωνικό σφάλμα (mean squared error, MSE) και η ρίζα του μέσου τετραγωνικού σφάλματος (root mean squared error, RMSE), το μέσο απόλυτο σφάλμα (mean absolute error, MAE), ο δείκτης εξωτερικής ερμηνεύσιμης διακύμανσης (external explained variance Q_ext^2) και ο συνελεστής συμφωνίας (Concordance Correlation Coefficient, CCC). Στόχος κάθε προβλεπτικής μεθόδου είναι η μείωση των σφαλμάτων μεταξύ πραγματικής τιμής και προβλεπόμενης τιμής εξόδου, για αυτό το λόγο οι επιθυμητές τιμές στις παραπάνω μετρικές στην περίπτωση των σφαλμάτων τείνουν στο μηδέν (0), ενώ οι τιμές των R^2, Q_ext^2 και CCC τείνουν στη μονάδα (1). Η αξιολόγηση ενός μοντέλου δεν περιορίζεται μόνο στις μετρικές αξιολόγησης, αλλά επεκτείνεται και στην εκτίμηση του πεδίου εφαρμογής του μοντέλου (Applicability domain, AD). Το πεδίο εφαρμογής καθορίζει το εύρος του χημικού χώρου στον οποίο οι προβλέψεις του μοντέλου θεωρούνται αξιόπιστες, διασφαλίζοντας ότι οι νέες ενώσεις που υποβάλλονται σε πρόβλεψη είναι παρόμοιες με εκείνες που χρησιμοποιήθηκαν κατά την εκπαίδευση του μοντέλου. Η ανάλυση του πεδίου εφαρμογής μπορεί να πραγματοποιηθεί μέσω μετρικών ομοιότητας, ή μεθόδων βασισμένων σε αποστάσεις. Με αυτό τον τρόπο, εντοπίζονται οι ενώσεις που βρίσκονται εκτός του πεδίου εφαρμογή, μειώνοντας τον κίνδυνο μη αξιόπιστων προβλέψεων. Στη Διατριβή χρησιμοποιήθηκαν τόσο μετρικές ομοιότητας (Similarity-based approaches) όσο και μετρικές βάσει των αποστάσεων των αγνώστων ενώσεων με ενώσεις στο σύνολο εκπαίδευσης (Euclidean distance to centroid/among all samples), όπως παρουσιάζονται στο Κεφάλαιο 2. Ένα σημαντικό μειονέκτημα των μοντέλων μηχανικής μάθησης είναι ότι δεν εξηγούν τον τρόπο με τον οποίο κάνουν τις προβλέψεις, προκαλώντας δυσκολία στην ευρεία εφαρμογή τους. Ειδικότερα, περίπλοκα μοντέλα βαθιάς μάθησης χαρακτηρίζονται ως “μαύρα κουτιά” (black boxes). Η ερμηνεύσιμη τεχνητή νοημοσύνη (Explainable AI, XAI) στοχεύει στην κατανόηση των αποφάσεων που λαμβάνονται από τα μοντέλα μηχανικής μάθησης. Για την ενίσχυση της ερμηνευσιμότητας των μοντέλων που αναπτύχθηκαν στην παρούσα Διατριβή, χρησιμοποιήθηκαν διάφορες μέθοδοι όπως η ανάλυση SHAP (Shapley Additive exPlanations), η οποία ποσοτικοποιεί τη συμβολή κάθε μεταβλητής στην τελική πρόβλεψη, καθώς και οι μηχανισμοί προσοχής (attention mechanisms) σε νευρωνικά δίκτυα, που επιτρέπουν τον εντοπισμό κρίσιμων δομικών περιοχών μίας ένωσης. Η ενσωμάτωση των παραπάνω μεθόδων καθιστά τα μοντέλα πιο αξιόπιστα και ερμηνεύσιμα, ενισχύοντας την ευρεία αποδοχή τους. Μελέτες περιπτώσεων Στην παρούσα Διατριβή αναπτύχθηκαν μοντέλα πρόβλεψης για φυσικοχημικές ιδιότητες και ιδιότητες ADMET. Το ADMET είναι ένα ακρωνύμιο που χρησιμοποιείται ευρέως στον τομέα της φαρμακευτικής χημείας και περιλαμβάνει τις ιδιότητες απορρόφηση, κατανομή, μεταβολισμό, απέκκριση, τοξικότητα (absorption, distribution, metabolism, excretion, toxicity). Πιο συγκεκριμένα, για την απορρόφηση και διανομή των ενώσεων, χρησιμοποιήθηκε το σύνολο δεδομένων διαπερατότητας μέσω του αιματοεγκεφαλικού φραγμού (blood-brain barrier, BBB) και το σύνολο δεδομένων διαπερατότητας σε Caco-2 κυτταρικές σειρές, που αποτελεί την δημοφιλέστερη κυτταρική σειρά για πειράματα εντερικής διαπερατότητας φαρμάκων. Επιπλέον, αναπτύχθηκαν μοντέλα πρόβλεψης τοξικότητας στο δέρμα (skin toxicity) και πιο συγκεκριμένα για ευαισθητοποίηση δέρματος (skin sensitization), δερματικό ερεθισμό (skin irritation), και οξεία δερματική τοξικότητα (acute dermal toxicity). Σχετικά με τις φυσικοχημικές ιδιότητες των ενώσεων, χρησιμοποιήθηκε το σύνολο δεδομένων ελεύθερης ενέργειας διαλυτοποίησης. Πέραν των συνόλων δεδομένων που χρησιμοποιήθηκαν για την ανάπτυξη μοντέλων QSPR για πρόβλεψη ιδιοτήτων, χρησιμοποιήθηκαν γενικές βάσεις χημικών δεδομένων, είτε για την προεκπαίδευση μοντέλων πρόβλεψης, είτε για την εκπαίδευση παραγωγικού μοντέλου και την αξιολόγησή του. Συγκεκριμένα, η ZINC15 είναι μια βάση δεδομένων με εμπορικά διαθέσιμες χημικές ενώσεις, σχεδιασμένη για εφαρμογές εικονικής διαλογής, ανακάλυψη προσδετών κ.α. H ChEMBL είναι μια βάση χημικών δεδομένων που περιέχει βιοδραστικά μόρια και δεδομένα βιοδραστικότητας μορίων σε διάφορους στόχους. Το MOSES benchmark πρόκειται για ένα σύνολο δεδομένων που επιτρέπει την συγκρίσιμη μέτρηση της επίδοσης παραγωγικών μοντέλων χημικών δομών, που χρησιμοποιήθηκε τόσο για την εκπαίδευση του παραγωγικού μοντέλου που παρουσιάζεται στο Κεφάλαιο 6 όσο και για την σύγκριση του με άλλα διαθέσιμα μοντέλα. Τέλος, η βάση DUD-E είναι ένας κατάλογος με χρήσιμες δραστικές και μη δραστικές ενώσεις για την συγκριτική αξιολόγηση της εικονικής διαλογής. Χρησιμοποιήθηκε για την αξιολόγηση της συνάρτησης επιβράβευσης στο μοντέλο της ενισχυτικής μάθησης που συνδυάστηκε με το παραγωγικό μοντέλο χημικών δομών. Μελέτη 1 – Πρόβλεψη ιδιοτήτων ADMET μέσω νευρωνικών δικτύων ανταλλαγής μηνυμάτων με μηχανισμό προσοχής και αντιθετική μάθηση Για την πρόβλεψη των μοριακών ιδιοτήτων, οι ενώσεις πρέπει πρώτα να περιγραφούν σε μία μορφή κατανοητή από τον υπολογιστή, ώστε να είναι δυνατή η επεξεργασία των πολύπλοκων δομών τους και στη συνέχεια να εκπαιδευτεί ένα μοντέλο πρόβλεψης. Οι παραδοσιακές μονοδιάστατες αναπαραστάσεις (π.χ. μοριακά αποτυπώματα όπως Extended-Connectivity Fingerprints, ECFP) είναι αποτελεσματικές, αλλά ενίοτε αγνοούν κρίσιμες δομικές λεπτομέρειες των ενώσεων. Τα τελευταία χρόνια αρκετές μελέτες QSPR εστιάζουν στις δισδιάστατες αναπαραστάσεις των ενώσεων σε μορφή γράφων. Στην συγκεκριμένη μελέτη, οι ενώσεις αναπαραστάθηκαν με τη μορφή γράφων G=(V,E), όπου V το σύνολο των κόμβων (ή ατόμων στην περίπτωση των χημικών δομών) και Ε το σύνολο των ακμών (ή δεσμών στην περίπτωση των χημικών δομών). Η συνδεσιμότητα των ατόμων κωδικοποιείται μέσω του πίνακα γειτνίασης ενώ οι πληροφορίες για τις χημικές δομές κωδικοποιούνται στους πίνακες χαρακτηριστικών ατόμων (atom features, x_v) και δεσμών (bond features, e_vw). Αναπτύχθηκαν μοντέλα πρόβλεψης δύο σημαντικών ιδιοτήτων ADMET, που επηρεάζουν την απορρόφηση και την κατανομή των φαρμάκων. Πιο συγκεκριμένα, επιλέχθηκαν δεδομένα για διαπερατότητα αιματοεγκεφαλικού φραγμού και διαπερατότητα σε Caco-2 κυτταρικές σειρές που περιλαμβάνουν χημικές ενώσεις και τις αντίστοιχες ετικέτες ως διαπερατή ή μη διαπερατή ένωση. Τα νευρωνικά δίκτυα γράφων (GNNs) και πιο συγκεκριμένα τα νευρωνικά δίκτυα κατευθυνόμενης ανταλλαγής μηνυμάτων (Directed Message-Passing Neural Networks, D-MPNN) αποτελούν αλγορίθμους που φαίνεται να βελτιώνουν την επίδοση των μοντέλων QSPR για την πρόβλεψη ιδιοτήτων ενώσεων. Για την πρόβλεψη των ιδιοτήτων ADMET, χρησιμοποιήθηκε ο αλγόριθμος D-MPNN για την ανάπτυξη των μοντέλων πρόβλεψης. Για τη μαθηματική περιγραφή των D-MPNN, αρχικά ορίζονται ο γράφος G και οι πίνακες x_v και e_vw. Η διαδικασία εκπαίδευσης περιλαμβάνει δύο στάδια, το στάδιο ανταλλαγής μηνυμάτων (message-passing phase) και το στάδιο της αναγνώρισης (readout phase). Το στάδιο ανταλλαγής μηνυμάτων επαναλαμβάνεται για Τ επαναλήψεις όπου κάθε κρυφή αναπαράσταση κόμβων/δεσμών ανανεώνεται συναρτήσει των γειτονικών καταστάσεων. Το στάδιο της αναγνώρισης περιλαμβάνει μια συνάρτηση η οποία συνδυάζει τις τελικές υπολογισμένες κρυφές αναπαραστάσεις όλων των κόμβων του γράφου, με σκοπό την παραγωγή ενός διανύσματος που χαρακτηρίζει ολόκληρο τον γράφο. Επιπρόσθετα της μεθοδολογίας D-MPNN, προστέθηκε στον αλγόριθμο ένα επίπεδο προσοχής σε επίπεδο ατόμων των ενώσεων (Atom-Attention Message Passing Neural Network, AA-MPNN). Το επίπεδο προσοχής επιτρέπει στο νευρωνικό δίκτυο να αποδίδει μεγαλύτερο βάρος σε υποομάδες με σημαντική συνεισφορά στην ιδιότητα που μελετάται. Στο τελικό στρώμα ταξινόμησης (feed-forward network, FFN) του μοντέλου AA-MPNN, προστέθηκε μία τοπική κωδικοποίηση της ένωσης ως μοριακά αποτυπώματα, και πιο συγκεκριμένα αποτυπώματα ευρείας συνεκτικότητας ECFP. Ένα συχνό πρόβλημα στην ανάπτυξη μοντέλων πρόβλεψης χημικών ιδιοτήτων είναι ότι ο αριθμός των διαθέσιμων επισημασμένων δεδομένων είναι ανεπαρκής. Για την μείωση του κινδύνου υπερπροσαρμογής (overfitting), έχει αναδειχθεί ως λύση η αυτοεποπτευόμενη μάθηση (self-supervised learning, SSL). Η αυτοεποπτευόμενη μάθηση αποτελεί μία ενδιάμεση μορφή μεταξύ της επιβλεπόμενης και της μη-επιβλεπόμενης μάθησης. Τεχνικές SSL, και ειδικότερα η αντιθετική μάθηση (contrastive learning, CL) μπορεί να χρησιμοποιηθεί για να αξιοποιήσει τα δεδομένα χωρίς ετικέτες (unlabeled data) με σκοπό τη βελτίωση της επίδοσης των μοντέλων. Η λογική της αντιθετικής μάθησης είναι ότι παρόμοια δείγματα πρέπει να έχουν παρόμοιες αναπαραστάσεις, ενώ ανόμοια δείγματα πρέπει να έχουν ανόμοιες αναπαραστάσεις. Η αντιθετική μάθηση μπορεί να χρησιμοποιηθεί για μάθηση χωρίς επίβλεψη ή αυτό-επίβλεψη, όπου ο στόχος είναι η εκμάθηση μίας καλής αναπαράστασης των δεδομένων χωρίς δεδομένα με ετικέτα. Στη συγκεκριμένη εργασία χρησιμοποιήθηκε μία προσέγγιση αντιθετικής μάθησης γράφων (graph contrastive learning, GCL) όπου δημιουργούνται παρόμοιοι γράφοι ενώσεων με την τυχαία απόκρυψη (masking) κάποιων ατόμων στους γράφους. Σκοπός είναι η εκπαίδευση του μοντέλου ώστε να μειωθεί το σφάλμα μεταξύ παρόμοιων γράφων. Αυτή η μέθοδος απόκρυψης ατόμων επιτρέπει στο μοντέλο να μαθαίνει τα εγγενή χαρακτηριστικά των ενώσεων, εστιάζοντας στο τμήμα της ένωσης που δεν είναι καλυμμένο. Το μοντέλο D-MPNN προεκπαιδεύτηκε με αντιθετική μάθηση και με ένα υποσύνολο της βάσης δεδομένων ZINC15 σε όλα τα επίπεδα εκτός του τελικού στρώματος ταξινόμησης, το οποίο εκπαιδεύτηκε χωριστά στα δεδομένα με ετικέτες (στα δεδομένα για πρόβλεψη διαπερατότητας αιματοεγκεφαλικού φραγμού – BBB – και διαπερατότητας σε Caco-2 κυτταρικές σειρές). Για την ανάπτυξη των μοντέλων πρόβλεψης των ιδιοτήτων ADMET, τα δεδομένα αρχικά χωρίστηκαν σε δεδομένα εκπαίδευσης, ελέγχου και δοκιμής. Τα δεδομένα ελέγχου χρησιμοποιήθηκαν για την επιλογή των υπερπαραμέτρων των δύο μοντέλων AA-MPNN. Επιπλέον, πραγματοποιήθηκε διασταυρούμενη επικύρωση για την αξιολόγηση των μοντέλων και οι μετρικές αξιολόγησης των μοντέλων παρουσιάζονται στο Κεφάλαιο 4. Εξετάστηκε η συνεισφορά της μεθόδου αντιθετικής μάθησης στην τελική επίδοση των μοντέλων πρόβλεψης. Τα μοντέλα AA-MPNN χωρίς αντιθετική μάθηση οδήγησαν σε ROC-AUC=0.944±0.007 και ROC-AUC=0.905±0.022 για την πρόβλεψη της διαπερατότητας των ενώσεων στο BBB και Caco-2, αντίστοιχα. Οι αντίστοιχες τιμές για τα μοντέλα με αντιθετική μάθηση είναι ROC-AUC=0.951±0.006 και ROC-AUC=0.919±0.019. Οι τιμές αυτές επιβεβαιώνουν ότι τα μοντέλα με αντιθετική μάθηση που έχουν προεκπαιδευτεί σε ένα μεγάλο σύνολο χημικών δομών οδήγησαν σε καλύτερες προβλέψεις. Στο σύνολο δοκιμής παρατηρήθηκε αντίστοιχη υπεροχή των μοντέλων με αντιθετική μάθηση, με ROC-AUC από 0.944 σε 0.953 για το μοντέλο διαπερατότητας BBB και ROC-AUC από 0.896 σε 0.914 για το μοντέλο διαπερατότητας σε Caco-2 κυτταρικές σειρές. Τα μοντέλα αξιολογήθηκαν και ως προς την επίδοσή τους σε σκελετούς ενώσεων (chemical scaffolds) που δεν υπήρχαν στο σύνολο εκπαίδευσης. Σε αυτές τις ενώσεις το μοντέλο διαπερατότητας σε BBB αξιολογήθηκε με ROC-AUC=0.795 ενώ το μοντέλο διαπερατότητας σε Caco-2 με ROC-AUC=0.897. Τέλος, πραγματοποιήθηκε μία ανάλυση σύγκρισης των αποτελεσμάτων που προέκυψαν από τα μοντέλα AA-MPNN με αντιθετική μάθηση – τόσο με όσο και χωρίς ενσωμάτωση των ECFP στα τελικά στρώματα ταξινόμησης – με εκείνα που προέκυψαν από κλασσικούς αλγορίθμους μηχανικής μάθησης όπως SVM, RF και FFN, και χρησιμοποιώντας τα αποτυπώματα ECFP για την απεικόνιση των ενώσεων. Όπως παρουσιάζεται στο Κεφάλαιο 4, τα μοντέλα AA-MPNN χωρίς ECFP στο τελικό επίπεδο οδήγησαν σε πιο ακριβείς προβλέψεις από τα μοντέλα που στηρίχθηκαν αποκλειστικά στα ECFP. Επομένως, το μοντέλο κατευθυνόμενης ανταλλαγής μηνυμάτων καθώς και η αντιθετική μάθηση οδήγησαν συστηματικά σε πιο αξιόπιστα μοντέλα. Η προσθήκη του μοριακού αποτυπώματος στο τελικό επίπεδο του μοντέλου AA-MPNN βελτίωσε περαιτέρω την επίδοση των μοντέλων, υποδεικνύοντας τη συμπληρωματικότητα μεταξύ γράφων και μοριακών αποτυπωμάτων. Η ενσωμάτωση του επιπέδου προσοχής σε επίπεδο ατόμων προσφέρει μία δυνατότητα ερμηνευσιμότητας του μοντέλου καθώς επιτρέπει την απεικόνιση των χημικών ομάδων που συμβάλλουν στην τελική πρόβλεψη. Από τα βάρη που προέκυψαν μετά την εκπαίδευση στο επίπεδο προσοχής, και με τη χρήση θερμικού χάρτη (heatmap) ήταν δυνατή η αναπαράσταση των ενώσεων και ο χρωματισμός των χημικών ομάδων που συνέβαλαν θετικά ή αρνητικά στην πρόβλεψη διαπερατότητας, καθιστώντας κατανοητό ποιες ομάδες των ενώσεων ευνοούν την διαπερατότητα των βιολογικών φραγμών. Η παραπάνω μέθοδος ερμηνευσιμότητας δεν είναι μόνο επεξηγηματική για να κατανοήσουμε τις αποφάσεις του μοντέλου, αλλά προσφέρει και μία επιπλέον καθοδήγηση ως προς τις προτάσεις τροποποίησης (structure-property reasoning) για βελτίωση των ιδιοτήτων ADMET. Για την υλοποίηση της μεθοδολογίας αυτής, αναπτύχθηκε κώδικας σε γλώσσα προγραμματισμού Python. Τα μοντέλα που παράχθηκαν από τη μελέτη αυτή, βρίσκονται διαθέσιμα μέσω της πλατφόρμας Enalos Cloud. Οι ενδιαφερόμενοι χρήστες, μέσω του φιλικού περιβάλλοντος, μπορούν να σχεδιάσουν μια χημική ένωση και εντός δευτερολέπτων να λάβουν προβλέψεις για τις ενώσεις που τους ενδιαφέρουν, καθώς και μία απεικόνιση των χημικών ομάδων που συμβάλλουν περισσότερο στην τελική πρόβλεψη. Μελέτη 2 – Μοντελοποίηση βάσει νέων προσεγγιστικών μεθοδολογιών (NAM-based) για την πρόβλεψη τοξικότητας στο δέρμα, ιδιοτήτων ADMET, και φυσικοχημικών ιδιοτήτων Η ακριβής πρόβλεψη ιδιοτήτων και τοξικότητας των ενώσεων αποτελεί αναπόσπαστο κομμάτι του σχεδιασμού φαρμάκων και της ασφάλειας στο στάδιο του σχεδιασμού (Safe-by-Design, SbD). Οι ηθικές ανησυχίες και το υψηλό κόστος έχουν οδηγήσει τους ρυθμιστικούς οργανισμούς στην υιοθέτηση νέων προσεγγιστικών μεθοδολογικών (New Approach Methodologies, NAMs). Στο Κεφάλαιο 5 της παρούσας Διατριβής παρουσιάζεται η ανάπτυξη πέντε μοντέλων QSPR με σκοπό την αξιολόγηση της ασφάλειας των ενώσεων στο στάδιο του σχεδιασμού και της πρόβλεψης χημικών ιδιοτήτων. Στην πρώτη υποενότητα παρουσιάζεται μία μεθοδολογία για την πρόβλεψη τοξικότητας στο δέρμα ενώ στη δεύτερη υποενότητα παρουσιάζονται δύο συμπληρωματικά μοντέλα QSPR για πρόβλεψη διαπερατότητας BBB και ελεύθερης ενέργειας διαλυτοποίησης. Για τη μελέτη τοξικότητας στο δέρμα, μελετήθηκαν τρία σύνολα δεδομένων που αφορούν την ευαισθητοποίηση δέρματος, το δερματικό ερεθισμό, και την οξεία δερματική τοξικότητα. Η μεθοδολογία βασίζεται στην αναπαράσταση των ενώσεων συνδυάζονται διαφορετικές μοριακές αναπαραστάσεις, όπως μοριακά αποτυπώματα και συγκεκριμένα τα MACCS keys, τα Morgan fingerprints, και τους μοριακούς περιγραφείς Mordred. Αρχικά, κάθε ένωση αναπαραστάθηκε και με τους τρεις διαφορετικούς τρόπους. Με τη βιβλιοθήκη RDKit μετατράπηκαν τα SMILES σε MACCS keys και Morgan fingerprints ενώ με το πακέτο Mordred μετατράπηκαν σε περιγραφείς που περιλαμβάνουν πληροφορίες από την μονοδιάστατη και δισδιάστατη μορφή των ενώσεων. Εφαρμόστηκε ένα φίλτρο χαμηλής διακύμανσης στους μοριακούς περιγραφείς και στη συνέχεια οι περιγραφείς που επιλέχθηκαν κανονικοποιήθηκαν ώστε όλες οι μεταβλητές να συμμετέχουν ισοδύναμα στη μοντελοποίηση. Για την επιλογή των περιγραφέων χρησιμοποιήθηκαν δύο μεθοδολογίες. Αρχικά, πραγματοποιήθηκε ανάλυση διακύμανσης (ANOVA) για τον εντοπισμό των περιγραφέων με στατιστικά σημαντικές διαφορές μεταξύ των κατηγοριών (π.χ. τοξικές ή μη τοξικές στο δέρμα ενώσεις) ενώ στη συνέχεια εφαρμόστηκε το μοντέλο LASSO για την μείωση της πολυπλοκότητας των περιγραφέων και την επιλογή μόνο των πιο σημαντικών περιγραφέων Mordred. Το κάθε σύνολο δεδομένων χωρίστηκε σε σύνολα εκπαίδευσης και δοκιμής και επιλέχθηκαν για τη μοντελοποίηση τα ακόλουθα μοντέλα μηχανικής μάθησης: SVM, RF, kNN καθώς και FCNN. Τα μοντέλα SVM, RF και kNN αξιολογήθηκαν χρησιμοποιώντας ως εισόδους κάθε μία από τις μοριακές αναπαραστάσεις που αναφέρθηκαν χωριστά, ενώ στο μοντέλο FCNN χρησιμοποιήθηκε ως είσοδος ο συνδυασμός των μοριακών απεικονίσεων (MACCS keys, Morgan fingerprints, Mordred descriptors). Επιπλέον, πραγματοποιήθηκε διασταυρούμενη επικύρωση για την επιλογή των υπερπαραμέτρων των μοντέλων καθώς και για την επιλογή του τελικού μοντέλου. Σχετικά με τη μοντελοποίηση για την ευαισθητοποίηση δέρματος, τα καλύτερα αποτελέσματα με χρήση αποτυπωμάτων προήλθαν από το μοντέλο RF με MACCS keys, με ακρίβεια Acc=0.69±0.02 και ROC-AUC=0.75±0.02. Αντίστοιχα με χρήση των μοριακών περιγραφέων Mordred, επιλέχθηκε το μοντέλο SVM με Acc=0.71±0.03 και ROC-AUC=0.77±0.04. Ο συνδυασμός όλων των μοριακών αναπαραστάσεων σε ένα ενιαίο διανυσματικό πίνακα οδήγησε σε μοντέλο ευαισθητοποίησης δέρματος με καλύτερη ακρίβεια Acc=0.72±0.03 και ROC-AUC=0.79±0.02. Αντίστοιχα αποτελέσματα προέκυψαν και για τα σύνολα δεδομένων δερματικού ερεθισμού, και οξείας δερματικής τοξικότητας, τονίζοντας ότι η συνένωση των μοριακών αναπαραστάσεων και η εκπαίδευση του πλήρως συνδεδεμένου νευρωνικού δικτύου οδήγησαν σε μοντέλα με καλύτερη ακρίβεια. Για την περαιτέρω αξιολόγηση της αξιοπιστίας των μοντέλων που αναπτύχθηκαν, τα μοντέλα αξιολογήθηκαν ως προς τις προβλέψεις τους σε γνωστές τοξικές ενώσεις από τη βιβλιογραφία οι οποίες δεν περιλαμβάνονταν στο σύνολο εκπαίδευσης. Η διαδικασία αυτή επέτρεψε την εκτίμηση της ικανότητας γενίκευσης των μοντέλων σε εντελώς άγνωστα δεδομένα. Οι τιμές ευαισθησίας των τριών μοντέλων που αναπτύχθηκαν για τα άγνωστα σύνολα δεδομένων κυμάνθηκαν από 0.82 σε 0.89, επιβεβαιώνοντας την προβλεπτική ικανότητά τους. Η αναγνώριση των τοξικών ενώσεων από τα μοντέλα πρόβλεψης είναι ιδιαίτερα κρίσιμη, κυρίως στο αρχικό στάδιο διαχωρισμού υποψήφιων ενώσεων, καθώς συμβάλλει στην έγκαιρη κατηγοριοποίηση των ενώσεων και στην απομάκρυνση τους σε περίπτωση τοξικότητας. Για την ερμηνεία των αποτελεσμάτων των QSPR μοντέλων χρησιμοποιήθηκε ένα εργαλείο για ερμηνεύσιμη μηχανική μάθηση. Η μέθοδος SHAP βασίζεται στη θεωρία παιγνίων και επιτρέπει την ποσοτικοποίηση της συμβολής κάθε μεταβλητής στην τελική πρόβλεψη του μοντέλου. Για τα μοντέλα τοξικότητας στο δέρμα χρησιμοποιήθηκε η μέθοδος DeepSHAP που είναι κατάλληλη για νευρωνικά δίκτυα όπως το FCNN. Η ανάλυση μεταβλητών, για παράδειγμα, ανέδειξε ότι οι χημικές ομάδες που περιέχουν θείο (π.χ. θειόλες, σουλφονικά οξέα) συνδέονται με αυξημένη πιθανότητα ευαισθητοποίησης στο δέρμα. Συνεπώς, η ανάλυση SHAP προσφέρει ερμηνευσιμότητα στα μοντέλα μηχανικής μάθησης, συμβάλλοντας στην κατανόηση των προβλέψεων και προσφέροντας πληροφορίες που μπορούν να βοηθήσουν στο σχεδιασμό των ενώσεων. Επιπλέον, στο Κεφάλαιο 5 παρουσιάζονται δύο συμπληρωματικά QSPR μοντέλα που εστιάζουν στην διαπερατότητα αιματοεγκεφαλικού φραγμού και στην ελεύθερη ενέργεια διαλυτοποίησης στο νερό. Αρχικά, η αναπαράσταση των ενώσεων έγινε με Mold2 περιγραφείς, που αποτελούνται από 777 μονοδιάστατους και δισδιάστατους περιγραφείς. Εφαρμόστηκε φίλτρο χαμηλής διακύμανσης και στη συνέχεια κανονικοποίηση Z-score. H επιλογή των περιγραφέων πραγματοποιήθηκε με BestFirst σε συνδυασμό με τον αξιολογητή CfsSubsetEval ώστε να επιλεγούν οι περιγραφείς που συσχετίζονται έντονα με την υπό μελέτη ιδιότητα. Εξετάστηκαν διάφοροι αλγόριθμοι μηχανικής μάθησης, μεταξύ των οποίων οι SVM, RF, kNN, και multi-layer perceptrons (MLP) τόσο για προβλήματα παλινδρόμησης (όπως στην περίπτωση της ελεύθερης ενέργειας διαλυτοποίησης που πρόκειται για μεταβλητές εξόδου με αριθμητικές τιμές) όσο και για προβλήματα κατηγοριοποίησης (στην περίπτωση της διαπερατότητας αιματοεγκεφαλικού φραγμού). Τα δεδομένα αρχικά χωρίστηκαν σε σύνολα εκπαίδευσης, ελέγχου και δοκιμής. Το σύνολο εκπαίδευσης χρησιμοποιήθηκε για την επιλογή των περιγραφέων ενώ το σύνολο ελέγχου χρησιμοποιήθηκε για την επιλογή των υπερπαραμέτρων καθώς και την τελική επιλογή του βέλτιστου μοντέλου για κάθε ιδιότητα. Η τελική αξιολόγηση των μοντέλων πραγματοποιήθηκε στο σύνολο δοκιμής, το οποίο δε συμμετείχε στην ανάπτυξη των μοντέλων. Ο αλγόριθμος kNN επιλέχθηκε και για τις δύο ιδιότητες καθώς παρουσιάζει υψηλή ακρίβεια, υπολογιστική ταχύτητα και ερμηνευσιμότητα των αποτελεσμάτων. Λόγω της φύσης του, ο αλγόριθμος kNN επιτρέπει την αναγνώριση των πλησιέστερων γειτόνων κάθε ένωσης καθώς και τον υπολογισμό των Ευκλείδειων αποστάσεων μεταξύ τους, προσφέροντας οπτικοποίηση του προβλεπτικού χώρου και κατανόηση της λογικής πίσω από κάθε πρόβλεψη. Το μοντέλο ελεύθερης ενέργειας διαλυτοποίησης στο νερό παρουσίασε R2=0.884 και Q_ext^2=0.859 στο σύνολο δοκιμής, ενώ το μοντέλο BBB οδήγησε σε ακρίβεια Acc=0.864 στο σύνολο δοκιμής. Επιπλέον, τα μοντέλα αξιολογήθηκαν και με εσωτερική επικύρωση, συγκεκριμένα με διασταυρούμενη επικύρωση (5-fold cross validation και LOO cross validation). Για την υλοποίηση της μεθοδολογίας για την πρόβλεψη τοξικότητας στο δέρμα, αναπτύχθηκε κώδικας σε γλώσσα προγραμματισμού Python, ενώ τα μοντέλα που αναπτύχθηκαν βρίσκονται διαθέσιμα στην διαδικτυακή εφαρμογή “SbD4Skin” μέσω της πλατφόρμας Eos Cloud. Για τα μοντέλα QSPR για την πρόβλεψη διαπερατότητας BBB και ελεύθερης ενέργειας διαλυτοποίησης, χρησιμοποιήθηκαν τα λογισμικά KNIME και Isalos Analytics. Τα μοντέλα αυτά σε συνδυασμό με άλλα επτά μοντέλα είναι διαθέσιμα μέσω της διαδικτυακής εφαρμογής “Titania” στην πλατφόρμα Enalos Cloud. Οι ενδιαφερόμενοι χρήστες μπορούν να σχεδιάσουν μια χημική ένωση, ή να την εισάγουν με διαφορετικούς τρόπους (π.χ. σε μορφή SMILES) και να λάβουν προβλέψεις για τις ιδιότητες άγνωστων ενώσεων. Μελέτη 3 – Ανάπτυξη παραγωγικού μοντέλου για τoν σχεδιασμό ενώσεων με συγγένεια ως προς την πρωτεΐνη BRAF Στην τελευταία ενότητα της Διατριβής (Κεφάλαιο 6) παρουσιάζεται η χρήση μίας μεθοδολογίας για το σχεδιασμό νέων χημικών δομών de novo (de novo drug design) με ένα παραγωγικό μοντέλο βαθιάς μάθησης. Τα παραγωγικά μοντέλα βαθιάς μάθησης έχουν καθιερωθεί ως ισχυρά εργαλεία για παραγωγή νέων δεδομένων. Στις χημικές επιστήμες εφαρμόζονται με σκοπό τη δημιουργία νέων, υποσχόμενων χημικών δομών για την ανακάλυψη φαρμάκων ή το σχεδιασμό προηγμένων υλικών. Η προσέγγιση de novo επιδιώκει στην εξερεύνηση του χημικού χώρου και τον εντοπισμό περιοχών που περιλαμβάνουν ενώσεις με επιθυμητές ιδιότητες. Στη συγκεκριμένη μελέτη, επιλέχθηκε το μοντέλο GPT το οποίο εκπαιδεύτηκε με τις βάσεις ChEMBL και MOSES. Οι ενώσεις, που βρίσκονταν σε μορφή SMILES, χωρίστηκαν σε τμήματα (tokens) με σκοπό να σχηματιστεί ένα λεξιλόγιο οντοτήτων που θα μπορούν να συνθέσουν μία νέα ένωση. Τα δεδομένα χωρίστηκαν σε σύνολο εκπαίδευσης και δοκιμής και το μοντέλο εκπαιδεύτηκε για 30 εποχές. Το μοντέλο που προέκυψε συγκρίθηκε με άλλα παραγωγικά μοντέλα στη βιβλιογραφία ως προς τις μετρικές MOSES. Οι μετρικές MOSES περιλαμβάνουν την εγκυρότητα (validity), δηλαδή το ποσοστό των παραγόμενων ενώσεων που είναι χημικά ορθές, την μοναδικότητα (uniqueness), που αποτελεί το ποσοστό των μοναδικών και έγκυρων δομών που παράγονται, την καινοτομία (novelty) που αποτελεί το ποσοστό των έγκυρων και μοναδικών ενώσεων που δεν βρίσκονται στο σύνολο εκπαίδευσης και την εσωτερική ποικιλότητα (internal diversity) που αποτελεί μέσο της ποικιλίας των παραγόμενων ενώσεων για να αξιολογηθεί αν το μοντέλο παράγει παρόμοιες ενώσεις. Ύστερα από προεκπαίδευση, το μοντέλο GPT παρήγαγε ορθές δομές σε ποσοστό 99%, μοναδικές σε ποσοστό 100%, καινοτόμες σε ποσοστό 93% και διαφορετικές μεταξύ τους σε ποσοστό 85%. Στη συνέχεια, το μοντέλο GPT συνδυάστηκε με ενισχυτική μάθηση με σκοπό τον σχεδιασμό ενώσεων με επιθυμητές ιδιότητες, και συγκεκριμένα συγγένεια ως προς μία πρωτεΐνη στόχο, την BRAF. Η BRAF είναι μια κινάση σερίνης/θρεονίνης η οποία ρυθμίζει τον κυτταρικό πολλαπλασιασμό. Μεταλλάξεις στο γονίδιο BRAF, και ειδικότερα η V600E, συνδέονται με διάφορες μορφές κακοηθειών, όπως ο καρκίνος του θυρεοειδούς, το μελάνωμα και ο καρκίνος του παχέος εντέρου. Λόγω της θεραπευτικής της σημασίας, επιλέχθηκε ως μελέτη περίπτωσης στη συγκεκριμένη μεθοδολογία. Σκοπός της ενισχυτικής μάθησης ήταν η βελτιστοποίηση της συγγένειας δέσμευσης των παραγόμενων ενώσεων ως προς την πρωτεΐνη BRAF. Σχεδιάστηκε μία υβριδική συνάρτηση ανταμοιβής που περιλάμβανε μία γρήγορη εκτίμηση της συγγένειας ένωσης-πρωτεΐνης (drug-target affinity) με χρήση ενός εκπαιδευμένου μοντέλου βαθιάς μάθησης, του μοντέλου DeepPurpose. Επιπλέον, ανά 10 επαναλήψεις της ενισχυτικής μάθησης, υπολογίζονταν οι τιμές μοριακής πρόσδεσης με προσομοιώσεις μοριακής πρόσδεσης. Το υβριδικό αυτό μοντέλο επιλέχθηκε για την εξισορρόπηση της ταχύτητας και της αποδοτικότητας των μοντέλων πρόβλεψης της συγγένειας δέσμευσης, όπως του μοντέλου DeepPurpose, με τη προσομοίωση μοριακής πρόσδεσης με το λογισμικό Vina-GPU, που αποτελεί μία μέθοδο καλύτερης ακρίβειας αλλά ταυτόχρονα και μία χρονοβόρα μέθοδο. Για την αξιολόγηση της συνάρτησης ανταμοιβής, εφαρμόστηκε ανάλυση εμπλουτισμού (enrichment factor at top 1%, EF1%) με χρήση ενός συνόλου ενώσεων με γνωστή συγγένεια δέσμευσης ως προς την πρωτεΐνη και ενώσεων decoys από τη βάση δεδομένων DUD-E. Η συνάρτηση ανταμοιβής που βασιζόταν αποκλειστικά σε προβλέψεις μηχανικής μάθησης εμφάνισε ROC-AUC=0.787 και EF1%=29.17, ενώ με υπολογισμούς μοριακής πρόσδεσης οι τιμές αυτές ήταν 0.873 και 22.96 αντίστοιχα. Η υβριδική συνάρτηση ανταμοιβής οδήγησε σε ROC-AUC=0.896 και EF1%=28.1, αποδεικνύοντας ότι ο συνδυασμός των δύο μεθόδων ενισχύει την ικανότητα του μοντέλου να εντοπίζει πραγματικά δραστικές ενώσεις. Επιπλέον, η οπτικοποίηση του χημικού χώρου με χρήση της μεθόδου t-distributed stochastic neighbor embedding (t-SNE) (§2.6) έδειξε σαφή μετατόπιση των παραγόμενων ενώσεων πριν και μετά την ενισχυτική μάθηση προς περιοχές του χημικού χώρου που σχετίζονται με αυξημένες τιμές συγγένειας δέσμευσης. Τέλος, πραγματοποιήθηκε ανάλυση φαρμακοφόρων με δύο γνωστούς αναστολείς της πρωτεΐνης BRAF, sorafenib και vemurafenib. Από τις 1,000 ενώσεις που παρήγαγε το τελικό παραγωγικό μοντέλο, 20 ενώσεις παρουσίασαν ικανοποιητική συσχέτιση με τα χαρακτηριστικά των φαρμακοφόρων των γνωστών αναστολέων. Οι παραγόμενες ενώσεις εμφάνισαν χαμηλές τιμές μέσης τετραγωνικής απόκλισης (root mean square deviation, RMSD), υποδεικνύοντας ότι αναπαράγουν κρίσιμες αλληλεπιδράσεις στο ενεργό κέντρο της BRAF. Για την αξιολόγηση της δυνατότητας σύνθεσης των παραγόμενων ενώσεων, πραγματοποιήθηκε ανάλυση δυνατότητας σύνθεσης με χρήση των εργαλείων Asclepios που βρίσκονται στην πλατφόρμα KNIME. Από τις 20 ενώσεις, για τις 16 προτάθηκαν πλήρως οι διαδρομές σύνθεσης (full retrosynthetic pathway). Για την υλοποίηση της μεθοδολογίας αναπτύχθηκε κώδικας σε γλώσσα προγραμματισμού Python. Η προτεινόμενη μεθοδολογία αποδεικνύει τη δυνατότητα συνδυασμού παραγωγικών μοντέλων και ενισχυτικής μάθησης για τον στοχευμένο σχεδιασμό ενώσεων. Το υπολογιστικό αυτό πλαίσιο μπορεί να εφαρμοστεί σε διαφορετικούς φαρμακολογικούς στόχους. Εργαλεία ανάπτυξης μοντέλων Για την ανάλυση και επεξεργασία των δεδομένων που χρησιμοποιήθηκαν στην παρούσα Διατριβή, καθώς και για την εκπαίδευση των μοντέλων που παρουσιάστηκαν, αναπτύχθηκε κώδικας σε γλώσσα προγραμματισμού Python, και χρησιμοποιήθηκε η πλατφόρμα KNIME και Isalos Analytics. Στο παράρτημα Α περιγράφονται αναλυτικά τα πακέτα προγραμματισμού και τα εργαλεία που χρησιμοποιήθηκαν στην παρούσα Διατριβή. Επίλογος - Συμπεράσματα Η Διατριβή στοχεύει στην ανάπτυξη προηγμένων μεθοδολογιών μηχανικής μάθησης και βαθιάς μάθησης που μπορούν να εφαρμοστούν σε διάφορα στάδια της διαδικασίας ανακάλυψης και σχεδιασμού νέων χημικών δομών. Ιδιαίτερη έμφαση δόθηκε σε μοντέλα πρόβλεψης ιδιοτήτων ADMET, στην αξιολόγηση της ασφάλειας στο στάδιο του σχεδιασμού καθώς και στο σχεδιασμό νέων χημικών δομών de novo με χρήση ενός παραγωγικού μοντέλου βαθιάς μάθησης. Οι παραπάνω διαδικασίες ανήκουν στον τομέα της χημειοπληροφορικής, και αξιοποιούν σύγχρονες και κλασσικές μεθόδους σχεδιασμού φαρμάκων με χρήση ηλεκτρονικού υπολογιστή. Η βασική ιδέα της παρούσας έρευνας είναι η ανάπτυξη υπολογιστικών μεθόδων σχεδιασμού φαρμάκων που συνδυάζουν υψηλή ακρίβεια και ερμηνευσιμότητα, συμβάλλοντας παράλληλα στην ανάπτυξη νέων προσεγγιστικών μεθοδολογιών (NAM-based). Οι τεχνικές που αναπτύχθηκαν και παρουσιάζονται στη Διατριβή στοχεύουν στους ακόλουθους στόχους: στην ανάπτυξη μοντέλων πρόβλεψης ιδιοτήτων ADMET και φυσικοχημικών ιδιοτήτων, στη σύγκριση παραδοσιακών μοντέλων μηχανικής μάθησης με προηγμένα μοντέλα βαθιάς μάθησης, στην αξιολόγηση διαφορετικών μοριακών αναπαραστάσεων, από μοριακά αποτυπώματα μονοδιάστατης πληροφορίας, μοριακούς περιγραφείς μονοδιάστατης και δισδιάστατης πληροφορίας και μοριακούς γράφους, στην ενσωμάτωση υπολογιστικών μεθόδων ερμηνεύσιμης τεχνητής νοημοσύνης, στην ανάπτυξη παραγωγικού μοντέλου με σκοπό την στοχευμένη παραγωγή de novo ενώσεων, στην εφαρμογή υπολογιστικών μεθόδων για την υποστήριξη της αρχής της ασφάλειας στο στάδιο του σχεδιασμού.
περισσότερα
Περίληψη σε άλλη γλώσσα
This Dissertation focuses on the development of advanced Machine Learning (ML) and Deep Learning (DL) methodologies within the field of cheminformatics, to tackle key challenges in the design of novel chemical compounds. Particular emphasis is given to drug discovery, addressing not only therapeutic efficacy but also safety considerations, in alignment with the principles of the emerging Safe-by-Design (SbD) framework. Drug discovery and development is a complex, time-consuming and costly process, with low clinical success rates. Therefore, developing predictive and reliable computational approaches is essential to identify promising candidates and eliminate unsafe compounds early in the discovery process. The research focuses on four main objectives: (i) prediction of ADMET (Absorption, Distribution, Metabolism, Excretion, Toxicity) properties, (ii) assessment of skin toxicity within the SbD framework, (iii) prediction of physicochemical properties, and (iv) de novo design of bioactiv ...
This Dissertation focuses on the development of advanced Machine Learning (ML) and Deep Learning (DL) methodologies within the field of cheminformatics, to tackle key challenges in the design of novel chemical compounds. Particular emphasis is given to drug discovery, addressing not only therapeutic efficacy but also safety considerations, in alignment with the principles of the emerging Safe-by-Design (SbD) framework. Drug discovery and development is a complex, time-consuming and costly process, with low clinical success rates. Therefore, developing predictive and reliable computational approaches is essential to identify promising candidates and eliminate unsafe compounds early in the discovery process. The research focuses on four main objectives: (i) prediction of ADMET (Absorption, Distribution, Metabolism, Excretion, Toxicity) properties, (ii) assessment of skin toxicity within the SbD framework, (iii) prediction of physicochemical properties, and (iv) de novo design of bioactive molecules using both modern and traditional computer-aided drug design (CADD) methods. The first part of this work focuses on molecular property prediction through the development of a specialized neural network architecture, the Atom-Attention Message Passing Neural Network (AA-MPNN). Molecules are represented as molecular graphs, enabling the model to capture detailed structural information through message passing and atom-level attention. To overcome the challenge of data scarcity in molecular property prediction, a self-supervised learning technique was integrated into the workflow. More specifically, contrastive learning was proposed to enhance molecular representation learning and, consequently, improve downstream molecular property prediction tasks. A pretrained AA-MPNN model was derived by minimizing the contrastive loss between positive molecular pairs. This pretrained model was subsequently fine-tuned to predict two key ADMET properties, blood-brain barrier (BBB) permeability and Caco-2 cell line permeability. The resulting pretrained models achieved superior performance compared to non-pretrained AA-MPNN and conventional ML baselines. In addition, the attention mechanism improved interpretability by identifying atomic contributions that affect drug permeability. The second part of this study presents the development of Quantitative Structure-Property Relationships (QSPR) models within a computational safety assessment framework. Multi-view molecular representations combining molecular fingerprints and molecular descriptors were integrated into a Fully Connected Neural Network (FCNN) to predict skin sensitization, skin irritation/corrosion, and acute dermal toxicity. The FCNN with multi-view molecular representations achieved superior performance compared to single-view models. SHapley Additive exPlanations (SHAP) analysis was performed to provide mechanistic insights, and highlight structural features and descriptors associated with skin toxicity effects. In addition, two QSPR models were developed for predicting BBB permeability and hydration free energy, using traditional ML models. These models complemented a suite of additional models of physicochemical and toxicity properties. Among the evaluated algorithms, k-nearest neighbors (kNN) demonstrated strong predictive performance, computational efficiency, and interpretability by providing nearest neighbors in the predictive chemical space. In this study, BBB permeability served as a common endpoint for both an advanced DL model incorporating self-supervised learning and conventional ML model, enabling a direct comparison of their predictive capabilities. The property prediction models developed in this Thesis were validated on external datasets consisting of known drugs with experimentally defined physicochemical or toxicity properties. To enhance accessibility, all validated models were implemented as web-based tools, allowing their broader application from scientific community. Furthermore, all datasets used for model development were made available in accordance with the FAIR (Finable, Accessible, Interoperable, Reusable) data principles. The final part of this Dissertation included an overview of deep generative models (DGM) used in de novo drug design and the development of a DGM combined with Reinforcement Learning (RL) for generating compounds with improved binding affinity against a target protein. Using a serine/threonine-protein kinase as a case study, a hybrid reward function was developed that integrates ML-based binding affinities with periodic physics-based molecular docking evaluations. The fine-tuned RL model efficiently explored the chemical space, producing compounds with improved binding affinity scores. Overall, this Dissertation contributes to advancing Artificial Intelligence (AI)-driven drug discovery through the development of interpretable and accessible predictive and generative modeling frameworks. The work demonstrates how data-driven approaches can accelerate the identification, optimization, and design of compounds with favorable pharmacological and safety profiles.
περισσότερα
![]() | Η διατριβή είναι δεσμευμένη από τον συγγραφέα
(μέχρι και: 2/2027)
|
|
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
λιγότερα
περισσότερα




