Περίληψη
Όλα τα κύτταρα, είτε είναι προκαρυωτικά είτε ευκαρυωτικά, αποτελούν καλά συντονισμένες βιοχημικές μηχανές. Με ευρείς όρους, η γενετική πληροφορία είναι κωδικοποιημένη στην νουκλεϊκή αλληλουχία και μεταφράζεται σε λειτουργικά ενεργά βιομόρια (πρωτεΐνες η άλλα νουκλεϊκά οξέα). Αυτά τα βιομόρια με την σειρά τους πραγματοποιούν την πληθώρα των λειτουργειών το κύτταρο χρειάζεται προκειμένου να διατηρήσει την ομοιοστατική του ισορροπία. Τα βιομόρια δεν υπάρχουν ούτε πραγματοποιούν τις λειτουργίες τους σε απομόνωση: Πάντα επιδρούν σε – η μαζί – με άλλα μόρια ανεξάρτητα από το αν είναι ένζυμα που καταλύουν κάποια χημική αντίδραση η οποία περιλαμβάνει το υπόστρωμα τους, κάποια πρωτεΐνη η οποία ενεργοποιεί άλλες πρωτεΐνες η μία μεγάλη ομάδα βιομορίων τα οποία συσχετίζονται προκειμένου να δημιουργήσουν μια μεγάλη μακρομοριακή μηχανή όπως το ριβόσωμα. Η κατανόηση των μοριακών μηχανισμών απαιτεί κατανόηση της σύστασης και λειτουργίας αυτών των βιομοριακών συμπλόκων. Για τους περισσότερους τύπους συ ...
Όλα τα κύτταρα, είτε είναι προκαρυωτικά είτε ευκαρυωτικά, αποτελούν καλά συντονισμένες βιοχημικές μηχανές. Με ευρείς όρους, η γενετική πληροφορία είναι κωδικοποιημένη στην νουκλεϊκή αλληλουχία και μεταφράζεται σε λειτουργικά ενεργά βιομόρια (πρωτεΐνες η άλλα νουκλεϊκά οξέα). Αυτά τα βιομόρια με την σειρά τους πραγματοποιούν την πληθώρα των λειτουργειών το κύτταρο χρειάζεται προκειμένου να διατηρήσει την ομοιοστατική του ισορροπία. Τα βιομόρια δεν υπάρχουν ούτε πραγματοποιούν τις λειτουργίες τους σε απομόνωση: Πάντα επιδρούν σε – η μαζί – με άλλα μόρια ανεξάρτητα από το αν είναι ένζυμα που καταλύουν κάποια χημική αντίδραση η οποία περιλαμβάνει το υπόστρωμα τους, κάποια πρωτεΐνη η οποία ενεργοποιεί άλλες πρωτεΐνες η μία μεγάλη ομάδα βιομορίων τα οποία συσχετίζονται προκειμένου να δημιουργήσουν μια μεγάλη μακρομοριακή μηχανή όπως το ριβόσωμα. Η κατανόηση των μοριακών μηχανισμών απαιτεί κατανόηση της σύστασης και λειτουργίας αυτών των βιομοριακών συμπλόκων. Για τους περισσότερους τύπους συμπλόκων, η πλήρης κατανόηση της λειτουργίας τους απαιτεί υψηλής ποιότητας δομές η μοντέλα του συμπλόκου. Παραδοσιακές τεχνικές δομικής βιολογίας όπως η κρυσταλλογραφία ακτίνων Χ (X-ray crystallography), ο πυρηνικός μαγνητικός συντονισμός (NMR) και η κρυο-ηλεκτρονική μικροσκοπία (cryo-EM) έχουν χρησιμοποιηθεί για τον προσδιορισμό των δομών χιλιάδων βιομορίων και βιομοριακών συμπλόκων. Μέχρι τον Οκτώβριο του 2019, η πρωτεϊνική βάση δεδομένων (PDB – Protein Data Bank), η δημόσια βάση δεδομένων μοριακών δομών, αριθμούσε περισσότερες από 156.000 καταχωρήσεις. Ωστόσο, ο αριθμός των μοναδικών καταχωρήσεων και ο αριθμός των δομών που αντιπροσωπεύουν μοριακά σύμπλοκα αποτελούν ένα κλάσμα του συνολικού αριθμού (περίπου 6.000-7.000 μοναδικά, βιολογικά ενεργά σύμπλοκα). Με τις εκτιμήσεις για τον αριθμό των αλληλεπιδράσεων ανάμεσα σε πρωτεΐνες στο κυτταρικό περιβάλλον να αγγίζουν τις εκατοντάδες χιλιάδες, εύκολα προκύπτει η μεγάλη ανακολουθία ανάμεσα στον αριθμό των βιομοριακών συμπλόκων με διαθέσιμες μοριακές δομές και τον συνολικό αριθμό συμπλόκων που έχουν διαπιστωθεί σε υψηλής διακίνησης (high-throughput) μελέτες του «αλληλεπιδρώματος» (interactome). Πέρα από τις πειραματικές τεχνικές που αναφέρθηκαν παραπάνω, ένας εναλλακτικός τρόπος προσδιορισμού μοριακών δομών, βήμα απαραίτητο για την κατανόηση των μοριακών μηχανισμών, είναι ο υπολογιστικές προσεγγίσεις (computational modelling). Το πεδίο των υπολογιστικών προσεγγίσεων το οποίο ασχολείται με βιομοριακά συμπλέγματα, το οποίο είναι το αντικείμενο αυτής της διατριβής, είναι η ολοκληρωτική μοντελοποίηση (integrative modelling) και συγκεκριμένα η μοριακή αγκυροβόληση (biomolecular docking). Όπως και όλα τα πεδία της υπολογιστικής προσομοίωσης, μοιράζονται μερικές από τις ίδιες δυσκολίες, και συγκεκριμένα την δημιουργία μοριακών δομών οι οποίες να προσεγγίζουν τις φυσικές (sampling) καθώς και την αναγνώριση καλών (ή δομές οι οποίες να προσεγγίζουν τις φυσικές) και κακών μοντέλων (scoring). Μία άλλη δυσκολία είναι ο τρόπος με τον οποίο δεδομένα ενσωματώνονται στις προσομοιώσεις, ή η ανάγκη εξισορρόπησης αυτών των δεδομένων με τέτοιο τρόπο ώστε πολλαπλές πηγές δεδομένων να μπορούν να χρησιμοποιηθούν αποτελεσματικά στην ίδια προσομοίωση ενώ οι αρχικές πειραματικές αβεβαιότητες τηρούνται. Η παρούσα διατριβή εστιάζει σε δύο επιπλέον περιοχές ενδιαφέροντος: Την αγκυροβόληση διαμεμβρανικών πρωτεϊνικών συμπλεγμάτων και αγκυροβόληση πρωτεϊνών και μικρών μορίων. Και οι δύο παρουσιάζουν μεγάλο ενδιαφέρον, τόσο για ακαδημαϊκή όσο και φαρμακευτική έρευνα, καθώς οι διαμεμβρανικοί υποδοχείς αποτελούν τους περισσότερους φαρμακευτικούς στόχους και η πλειοψηφία των φαρμάκων τα οποία είναι σήμερα διαθέσιμα στην αγορά είναι μικρά μόρια. Στο πρώτο μισό της διατριβής η έμφαση είναι στην μοντελοποίηση διαμεμβρανικών πρωτεϊνών, ενώ στο δεύτερο στην μοντελοποίηση συμπλεγμάτων πρωτεϊνών και μικρών μορίων. Στο εισαγωγικό κεφάλαιο, παρέχω μία επισκόπηση της τρέχουσας κατάστασης του πεδίου της ολοκληρωτικής μοντελοποίησης, των τρόπων με τους οποίους δεδομένα από ποικίλες πειραματικές πηγές μπορούν να ενσωματωθούν σε υπολογιστικές μελέτες και πρόσφατων εξελίξεων σε συγκεκριμένες περιοχές ενδιαφέροντος. Η διατριβή ξεκινά με την Γενική Εισαγωγή η οποία εισαγάγει με ήπιο τρόπο μερικές από τις θεμελιώδεις ιδέες οι οποίες εξερευνώνται περαιτέρω στα υπόλοιπα κεφάλαια. Επίσης, εισαγάγει το θεματικό αντικείμενο του κάθε κεφαλαίου. Τα Κεφάλαια 1 έως και 6 απαρτίζουν το κύριο κομμάτι της διατριβής. Στο Κεφάλαιο 1, παρέχω μια επισκόπηση της τρέχουσας κατάστασης του πεδίου της ολοκληρωτικής μοντελοποίησης με ιδιαίτερη έμφαση στους τύπους δεδομένων που μπορούν να χρησιμοποιηθούν από υπολογιστικές μεθόδους όπως τα HADDOCK (High Ambiguity Driven DOCKing), ROSETTA ή IMP (Integrative Modelling Platform). Οι πειραματικές μέθοδοι οι οποίες αναλύονται ανήκουν σε μία από τρεις ευρείες κατηγορίες: Τεχνικές οι οποίες μας επιτρέπουν να προσδιορίσουμε την επιφάνεια αλληλεπίδρασης ανάμεσα σε βιομόρια, τεχνικές οι οποίες παρέχουν κάποιου είδους πληροφορία σχετικά με την απόσταση συγκεκριμένων αμινοξικών καταλοίπων και τεχνικές οι οποίες προσδιορίζουν το σχήμα των βιομορίων. Η μεταλλαξιγένεση (mutagenesis), η ανταλλαγή υδρογόνου-δευτέριου (Hydrogen-deuterium exchange – HDX) και ο πυρηνικός μαγνητικός συντονισμός (όταν υπολογίζονται χημικές μετατοπίσεις [chemical shift perturbations] μετά από ογκομετρική ανάλυση [titration]) είναι οι τεχνικές οι οποίες μας επιτρέπουν να εντοπίσουμε την αλληλεπιδρούσα επιφάνεια βιομορίων, η χημική διασύνδεση (chemical crosslinking), η μεταβίβαση ενεργειακού συντονισμού Förster (FRET) και ο διπλός συντονισμός ηλεκτρονίων-ηλεκτρονίων (DEER) μας επιτρέπουν να υπολογίσουμε αποστάσεις ανάμεσα σε αμινοξικά κατάλοιπα και τέλος η κρυο-ηλεκτρονική μικροσκοπία και η σκέδαση ακτίνων Χ μικρών γωνιών (SAXS) είναι οι τεχνικές μέσω των οποίων μπορούμε να αποκτήσουμε πληροφορίες για το σχήμα βιομορίων. Αναλύω την σχετικότητα όλων των προαναφερθέντων τεχνικών για το πεδίο της ολοκληρωτικής μοντελοποίησης και παραθέτω παραδείγματα εφαρμογών τους σε περιπτώσεις μοντελοποίησης ενδιαφέροντών ή προκλητικών συστημάτων. Ένα επιπλέον εστιακό σημείο αυτού του κεφαλαίου είναι η επισκόπηση κάποιων υπολογιστικών μεθόδων οι οποίες έχουν σημειώσει σημαντική πρόοδο πρόσφατα, και συγκεκριμένα γύρω από την χρήση εξελικτικών δεδομένων με τη μορφή πληροφοριών συνεξέλιξης (coevolution), εξελίξεις οι οποίες σχετίζονται με την μοντελοποίηση μεμβρανικών πρωτεϊνών και εφαρμογές αδρών (coarse-grained) πεδίων ισχύος (force fields). Στο Κεφάλαιο 2, περιγράφω ένα πρόσφατα δημοσιευμένο σετ δεδομένων το οποίο απαρτίζεται εξ ολοκλήρου από σύμπλοκα μεμβρανικών πρωτεϊνών. Είναι το πρώτο, και από όσο γνωρίζω, μοναδικό του είδους του και με αυτόν τον τρόπο παρέχει ένα στοιχείο κομβικής σημασίας για περαιτέρω εξέλιξη αλγορίθμων μοριακής αγκυροβόλησης μεμβρανικών πρωτεϊνών. Αυτό το σετ το οποίο απαρτίζεται από μοναδικά (μη επαναλαμβανόμενα) σύμπλοκα αποτελείται εξ ολοκλήρου από διαμεμβρανικά σύμπλοκα α-ελίκων και β-βαρελιών, και καλύπτει μία ευρεία γκάμα δυσκολίας, από σύμπλοκα στην προσδεδεμένη τους κατάσταση (περιπτώσεις στις οποίες και τα δύο αλληλεπιδρώντα μόρια έχουν απομονωθεί από το σύμπλοκο αναφοράς) μέχρι σύμπλοκα υψηλής δυσκολίας, μη προσδεδεμένες περιπτώσεις με σημαντικές αλλαγές στην αλληλεπιδρώσα επιφάνεια. Με βάση αυτό το σετ, προσδιορίσαμε την απόδοση του HADDOCK για σύμπλοκα τέτοιου τύπου. Πέρα από το σετ, προσφέρουμε επίσης όλα τα μοντέλα τα οποία δημιουργήθηκαν με το HADDOCK κατά την διάρκεια της διαδικασίας αυτής. Το Κεφάλαιο 3 είναι το τελευταίο το οποίο αφορά μοντελοποίηση μεμβρανικών πρωτεϊνών. Σε αυτό το κεφάλαιο περιγράφω ένα πρωτόκολλο για το HADDOCK, το οποίο είναι ακόμα υπό βελτίωση, το οποίο αναπαριστά την κυτταρική μεμβράνη με ένα σχήμα το οποίο αποτελείται από στρώματα από σφαίρες. Ορίζουμε περιορισμούς ανάμεσα στις σφαίρες αυτές και τους Cα άνθρακες των υπομονάδων του συμπλόκου ώστε να τις οδηγήσουμε στην «μεμβράνη». Συγκρίνω την απόδοση αυτού του πρωτοκόλλου με ένα στο οποίο χρησιμοποιούμε μόνο έναν περιορισμό ανάμεσα στο κέντρο βάρους των διαμεμβρανικών τμημάτων των δύο υπομονάδων. Η απόδοση του πρωτοκόλλου είναι χαμηλότερη των προσδοκιών συγκριτικά με την απλή μέθοδο η οποία χρησιμοποιεί μόνο τον ένα απλό περιορισμό ανάμεσα στις δύο υπομονάδες και θα χρειαστούν επιπλέον δοκιμές προκειμένου να οριστικοποιηθεί. Τα Κεφάλαια 4 ως και 6 αποτελούν το δεύτερο μισό της διατριβής και περιστρέφονται γύρω από την μοριακή αγκυροβόληση πρωτεϊνών και μικρών μορίων. Στο Κεφάλαιο 4, συζητώ την συμμετοχή μας σε ένα τυφλό πείραμα – το Grand Challenge που οργανώθηκε το 2016 από την ομάδα D3R ( Drug Design Data Resource) και στο οποίο ο στόχος ήταν η πρόβλεψη της δομής 36 συμπλόκων πρωτεϊνών-μικρών μορίων για τον φαρμακευτικού ενδιαφέροντος υποδοχέα Farnesoid X. Το πρωτόκολλο μας απαρτιζόταν από τα ακόλουθα στάδια: i) Εντοπισμός σχετικών πρωτεϊνικών δομών στην PDB και δημιουργία ενός σετ αντιπροσωπευτικών δομών μετά από ανάλυση, ii) δημιουργία ενός σετ για τα μικρά μόρια ακολουθώντας παρόμοια ανάλυση και iii) μοριακή αγκυροβόληση χρησιμοποιώντας κατάλοιπα τα οποία αναγνωρίστηκαν στο στάδιο (i). Παρά τα εξαιρετικά αποτελέσματα για μερικές περιπτώσεις, η συνολική μας απόδοση δεν ήταν ιδιαίτερα καλή σε σχέση με τους υπόλοιπους συμμετέχοντες. Ο κύριος παράγοντας ο οποίος επηρέασε αρνητικά την απόδοση μας ήταν το πρωτόκολλο επιλογής πρωτεϊνικών υποδοχέων πριν την μοριακή αγκυροβόληση. Αντικαθιστώντας αυτό το κομμάτι του πρωτοκόλλου με την επιλογή ενός υποδοχέα με βάση την ομοιότητα ανάμεσα στο προσδεδεμένο του μικρό μόριο και τα μικρά μόρια ενδιαφέροντος η διαδικασία της μοριακής αγκυροβόλησης οδήγησε σε καλύτερα αποτελέσματα. Στο ακόλουθο κεφάλαιο – το Κεφάλαιο 5 – περιγράφω την συμμετοχή μας στο τυφλό πείραμα το οποίο διοργανώθηκε για την χρονιά 2017. Πέρα από την επιλογή ενός μόνο υποδοχέα με βάση την ομοιότητα των μικρών μορίων, βελτιώσαμε την διαδικασία επιλογής δομών μικρών μορίων πριν την μοριακή αγκυροβόληση: Οι δομές μικρών μορίων επιλέχθηκαν με βάση την ομοιότητα του σχήματος του με το σχήμα του προσδεδεμένου μικρού μορίου σε κάθε υποδοχέα. Επίσης χρησιμοποιήσαμε την σχηματική ομοιότητα για να τοποθετήσουμε τις επιλεγμένες δομές στην περιοχή πρόσδεσης του υποδοχέα, υπερπηδώντας το πρώτο στάδιο της μοριακής αγκυροβόλησης και χρησιμοποιώντας το τελευταίο στάδιο του HADDOCK το οποίο απλά βελτιώνει τις δομές. Η ενσωμάτωση των σχηματικών δεδομένων στο πρωτόκολλο μας έχει ξεκάθαρη επιρροή στην απόδοσή του: Η πρόβλεψη μας (24 σύμπλοκα πρωτεϊνών-μικρών μορίων) αξιολογήθηκε ως μία από τις καλύτερες και εντός τυπικής απόκλισης από την κορυφαία. Το Κεφάλαιο 6 αντιπροσωπεύει την λογική κατάληξη του κομματιού της διατριβής το οποίο ασχολείται με την μοριακή αγκυροβόληση μικρών μορίων. Σε αυτό το κεφάλαιο περιγράφω ένα καινούριο πρωτόκολλο για το HADDOCK το οποίο χρησιμοποιεί σχηματικά δεδομένα, τα οποία αναγνωρίστηκαν ως πολύ σημαντικά στο προηγούμενο κεφάλαιο. Το ριζοσπαστικό στοιχείο αυτού του πρωτοκόλλου είναι ο τρόπος με τον οποίο το σχήμα των μικρών μορίων αναπαρίσταται, με τα βαρέα άτομα (όλα πλην του υδρογόνου) του προσδεδεμένου μικρού μορίου να μεταμορφώνονται σε σφαίρες όπως αυτές που χρησιμοποιούνται για την αναπαράσταση της κυτταρικής μεμβράνης στο Κεφάλαιο 3. Όπως και σε εκείνο το πρωτόκολλο, δημιουργούνται περιορισμοί ανάμεσα στα άτομα των μικρών μορίων και τις σφαίρες του σχήματος. Με την χρήση αυτών των περιορισμών δεν χρειάζεται να επιλέξουμε δομές μικρών μορίων πριν την μοριακή αγκυροβόληση, αλλά χρησιμοποιούμε όλες τις δομές που δημιουργήθηκαν, αυξάνουμε τον αριθμό των μοντέλων που το HADDOCK θα δημιουργήσει και το αφήνουμε να επιλέξει αυτές που μοιάζουν περισσότερο με τις φυσικές. Αυτό το πρωτόκολλο λειτουργεί καλύτερα από αυτό το οποίο περιεγράφηκε στο προηγούμενο κεφάλαιο. Οι σχηματικοί περιορισμοί μας επιτρέπουν να επιβάλλουμε σημαντικές αλλαγές στην δομή των μικρών μορίων προς την κατεύθυνση των φυσικών δομών. Καθώς τώρα πραγματοποιούμε ολόκληρη την διαδικασία της μοριακής αγκυροβόλησης μπορούμε να ενσωματώσουμε επιπλέον πληροφορίες στην προσομοίωση – κάτι το οποίο δεν ήταν δυνατόν με το πρωτόκολλο που περιγράφεται στο προηγούμενο κεφάλαιο καθώς ήταν μία απλή βελτίωση των δομών. Στο τελευταίο κεφάλαιο – το Κεφάλαιο 7 – πραγματοποιώ μία ανασκόπηση των κύριων συμπερασμάτων της παρούσας διατριβής και προσφέρω μερικές κριτικές απόψεις για τις δυσκολίες τις οποίες αντιμετωπίζει το πεδίο και προτείνω ερευνητικές προοπτικές οι οποίες θεωρώ ότι χρήζουν προσοχής στο μέλλον.
περισσότερα
Περίληψη σε άλλη γλώσσα
All cells, whether prokaryotic or eukaryotic, are finely tuned biochemical machines. In broad terms, genetic information is encoded in the nucleic acid sequence and is translated in functionally active biomolecules (proteins or other nucleic acids). These biomolecules then perform the multitude of functions the cell needs in order to maintain its homeostatic status. Biomolecules do not exist or perform their functions in isolation: They always act on – or together with – other molecules whether that is an enzyme catalysing a reaction involving a substrate, an activator protein acting on its target or a large collection of biomolecules coming together to create a large macromolecular machine such as the ribosome. Understanding cellular mechanisms in depth, therefore, requires understanding the makeup and function of these biomolecular complexes. For most types of complexes, truly understanding their function relies upon being able to obtain high-quality structures or models of the compl ...
All cells, whether prokaryotic or eukaryotic, are finely tuned biochemical machines. In broad terms, genetic information is encoded in the nucleic acid sequence and is translated in functionally active biomolecules (proteins or other nucleic acids). These biomolecules then perform the multitude of functions the cell needs in order to maintain its homeostatic status. Biomolecules do not exist or perform their functions in isolation: They always act on – or together with – other molecules whether that is an enzyme catalysing a reaction involving a substrate, an activator protein acting on its target or a large collection of biomolecules coming together to create a large macromolecular machine such as the ribosome. Understanding cellular mechanisms in depth, therefore, requires understanding the makeup and function of these biomolecular complexes. For most types of complexes, truly understanding their function relies upon being able to obtain high-quality structures or models of the complex. Traditional structure determination techniques such as X-ray crystallography, Nuclear Magnetic Resonance (NMR) spectroscopy and cryo-Electron Microscopy (cryo-EM) have been used to determine the structure of thousands of biomolecules and biomolecular complexes. As of October 2019, the Protein Data Bank (PDB), the public repository of solved structures, counts more than 156000 entries. However, if one were to determine the unique entries in the database and then further focus on protein-protein complexes rather than free structures, the resulting number would only be a fraction of that (around 6000-7000 non-redundant biologically relevant complexes). With the protein-protein interactions in the cell estimated to be in the hundreds of thousands it quickly becomes clear that there is a significant gap between the number of biomolecular complexes with solved structures and the total number of complexes identified from interactome high-throughput studies. Next to the experimental methods mentioned above, another way of obtaining structural models for these complexes, the necessary step to understand the molecular mechanisms at play, is computational modelling. The field of computational modelling that deals with biomolecular complexes, which is the subject of this thesis, is integrative modelling, and in particular, biomolecular docking. These, like all subfields of computational simulation, share some of the same challenges, specifically sampling – or how to generate poses which resemble those of native complexes – and scoring – or how to identify good (or near-native) from wrong models in a large pool of models. Another challenge is about the way in which data are integrated into the simulations, or the need to weight those data in a way that allows for multiple data sources to be efficiently used in the same simulation while also reflecting the experimental uncertainties. This thesis focuses on two additional areas of interest: Docking of transmembrane TM protein complexes and protein-small molecule docking. Both areas are of great interest, both for academic and pharmaceutical research, as TM receptors constitute most drug targets and the majority of drugs on the market today are small compounds. The first half of this thesis pertains to membrane protein modelling, whereas the second half focuses on the modelling of protein-small molecule complexes. In the introductory Chapter, I provide an overview of the state of the integrative modelling field, of the ways in which data from diverse experimental sources can be used by modelling frameworks, and of recent advances in specific areas of interest. The thesis begins with the General Introduction which gently introduces some of the core concepts that are later expanded upon in the following chapters. It also briefly introduces the subject of each chapter. The main part of the thesis consists of Chapters 1 through 6. In Chapter 1, I provide an overview of the state of the field of integrative modelling with a particular emphasis on the types of data that can be used by integrative modelling frameworks such as HADDOCK (High Ambiguity Driven DOCKing), ROSETTA or IMP (Integrative Modelling Platform). The experimental methods that are discussed fall into one of three broad categories depending on the type of data that can be obtained from them: Interface-mapping techniques, techniques providing some kind of distance information between residues and shape-based techniques. Mutagenesis, HDX and NMR (when deriving chemical shift perturbations from titration experiments) are the interface-mapping techniques that are discussed, crosslinking, FRET and DEER the distance-based ones and cryo-EM and SAXS the shape-based techniques. For all these, I evaluate their relevance for the field of integrative modelling and provide examples of their application in modelling interesting and challenging targets. An additional focal point of this chapter is the evaluation of some computational methods in which significant progress has been made recently, namely the use of evolutionary information in the form of coevolution data in docking, advances related to the modelling of membrane proteins and applications of coarse-grained forcefields. In Chapter 2, I describe a recently published benchmark of membrane protein complexes. It is the first, and to the best of my knowledge, the only one of its kind, thus addressing a key missing element for further development of membrane protein docking algorithms. This non-redundant dataset consists entirely of transmembrane α-helical and β-barrel complexes, covering varying difficulty ranges from bound complexes (cases in which both bound components were extracted from the reference complex) to difficult, unbound cases with significant conformational rearrangements at the interface. Using this dataset, we define the baseline performance of HADDOCK for this type of complexes. In addition to the dataset itself we also make available a decoy set consisting of HADDOCK models produced during the benchmarking process. Chapter 3 is the last chapter which focuses on membrane protein modelling. In that Chapter I describe a protocol for HADDOCK, still under development, that implicitly represents the membrane bilayer by a shape consisting of layers of beads. Restraints are defined between these beads and Cα carbons of the subunits of the complex to drive them to the “membrane”. I compare the performance of these shape-restrained runs with one where a single centre-of-mass restraint is defined between the transmembrane segments of the two subunits. The performance of the shape runs is lower than expected compared to the simple transmembrane centre-of-mass restraint ones. Further work will be required to optimise this new approach. Chapters 4 through 6 constitute the second half of the thesis and revolve around protein-small molecule docking. In Chapter 4, I discuss our participation in a blind docking experiment – the 2016 iteration of the Grand Challenge experiment organised by the D3R consortium in which we had to model 36 protein-ligand complexes for the pharmaceutically relevant Farnesoid X receptor. Our small molecule docking protocol consists of the following steps: i) Identification of relevant protein receptor templates in the PDB and creation of an ensemble after clustering and selecting representative structures, ii) creation of a ligand ensemble after conformer generation and clustering of the resulting conformers and iii) docking using residues identified from the receptor templates. Despite excellent results for some cases, our overall performance was not so good compared to the other participants. We could identify the main limiting factor affecting the performance – namely the selection of the receptor template related to conformational changes taking place upon binding. Replacing the ensemble part of the protocol with the selection of a single template based on the similarity of its bound ligand with the target compound to dock does indeed leads to better results.In the following Chapter – Chapter 5 – I describe our participation in the following years’ Grand Challenge. In addition to selecting a single receptor template based on compound similarity we also revisit the conformer selection procedure: Ligand conformations for docking are selected based on their 3D shape similarity with the bound ligand present in the selected template. We also use the shape similarity to superimpose the selected conformers in the binding pocket of the receptor, bypass the initial stage of the docking protocol and directly proceed to refine the models using the water refinement stage of HADDOCK. The incorporation of shape information in our protocol has a significant impact on our success rate: Our submission (24 protein-ligand complexes predicted) was evaluated as one of the best within standard deviation of the top performing participant. Chapter 6 represents the logical conclusion of the small molecule docking part of the thesis. In that Chapter I describe a new HADDOCK protocol that makes use of the shape information which was identified as highly relevant in the preceding chapter. The innovative aspect of this protocol is the way the ligand shape is represented with the heavy atoms of the template compound being transformed into shape beads as used for the representation of the membrane described in Chapter 3. Similar to that protocol, restraints are then defined between the shape beads and the atoms of the generated ligand conformers. With the use of those shape restraints we don’t need to pre-select conformations, but instead use all 500 generated ones, increase the sampling and let HADDOCK select the near-native ones. This protocol outperforms the one described in the preceding chapter. The shape restraints allow to induce rather large conformational changes in the ligand toward its bound form. In addition, since we are now performing a full docking run, we can integrate any additional information in the simulation – something which was not possible in the previous protocol as it was a simple refinement. In the last Chapter – Chapter 7 – I summarise the main findings of this thesis and offer critical perspectives for the challenges the field is facing as well as some potential avenues worth exploring in the future.
περισσότερα