Ανάλυση χειρουργικών δεξιοτήτων με τεχνικές υπολογιστικής όρασης και τεχνητής νοημοσύνης

Η αξιολόγηση και η βελτίωση των χειρουργικών δεξιοτήτων αποτελούν θεμελιώδεις πυλώνες για τη διασφάλιση της ποιότητας της χειρουργικής φροντίδας και την ασφάλεια των ασθενών. Οι παραδοσιακές μέθοδοι εκπαίδευσης και αξιολόγησης, οι οποίες βασίζονται κυρίως στην υποκειμενική παρατήρηση από έμπειρους εκπαιδευτές, παρουσιάζουν περιορισμούς όπως η έλλειψη αντικειμενικότητας, η δαπάνη πολύτιμου χρόνου και η αδυναμία παροχής λεπτομερούς και ποσοτικοποιημένης ανατροφοδότησης. Η παρούσα διδακτορική διατριβή εντάσσεται στο πεδίο της Επιστήμης Χειρουργικών Δεδομένων (Surgical Data Science) και διερευνά την εφαρμογή προηγμένων τεχνικών ϒπολογιστικής Όρασης (Computer Vision) και Τεχνητής Νοημοσύνης (Articial Intelligence - AI) για την αυτοματοποιημένη ανάλυση και αξιολόγηση χειρουργικών δεξιοτήτων. Αρχικά, η διατριβή εστιάζει στην αναγνώριση χειρουργικών χειρονομιών (gesture recognition) σε πραγματικό χρόνο (online) σε λαπαροσκοπικές εκπαιδευτικές ασκήσεις. Παρουσιάζεται ένα νέο σύνολο βίντεο από 80 εκπαιδευτικές συνεδρίες (40 ανά άσκηση: Peg Transfer και Knot Tying) και προτείνεται μια υβριδική αρχιτεκτονική (C3DTrans) που συνδυάζει τρισδιάστατα Συνελικτικά Νευρωνικά Δίκτυα (3D CNNs) για την εξαγωγή χωροχρονικών χαρακτηριστικών και δίκτυα Transformers για τη μοντελοποίηση μακροχρόνιων εξαρτήσεων. Το προτεινόμενο μοντέλο έχει σχεδιαστεί για αιτιατή (causal) εξαγωγή συμπερασμάτων, επιτρέποντας την online πρόβλεψη των χειρονομιών κατά τη διάρκεια της εκτέλεσης. Ιδιαίτερη έμφαση δίνεται στην αντιμετώπιση της έλλειψης μεγάλου όγκου σχολιασμένων δεδομένων μέσω της εισαγωγής τεχνικών αυτο-επιβλεπόμενης μάθησης (Self-Supervised Learning), συγκεκριμένα της πρόβλεψης επόμενου καρέ (next frame prediction). Η αξιολόγηση στις ασκήσεις Peg Transfer και Knot Tying κατέδειξε εξαιρετική απόδοση, με την ακρίβεια σε επίπεδο χειρονομίας να φτάνει το 97,5% και 97,9% αντίστοιχα. Παράλληλα, η χρήση αυτοεπιβλεπόμενης μάθησης επέτρεψε τη διατήρηση υψηλής επιχειρησιακής απόδοσης ακόμη και με σημαντικά λιγότερα σχολιασμένα δεδομένα. Τέλος, το μοντέλο απέδωσε ανταγωνιστικά αποτελέσματα (75,8% ακρίβεια) στο διεθνώς αναγνωρισμένο σύνολο δεδομένων JIGSAWS. Στη συνέχεια, η έρευνα επεκτείνεται στην αξιολόγηση δεξιοτήτων (skill assessment) στην ανοικτή χειρουργική, ένα πεδίο που στερείται εγγενών πηγών ψηφιακής εικόνας. Δημιουργήθηκε ένα νέο πολυτροπικό σύνολο δεδομένων από 20 συμμετέχοντες (φοιτητές, ειδικευόμενους και έμπειρους) κατά την εκτέλεση τριών βασικών ασκήσεων: δεσίματος κόμπου (Knot Tying), συνεχούς (Continuous Suturing) και διακεκομμένης ραφής (Interrupted Suturing). Η καταγραφή περιλάμβανε βίντεο εγωκεντρικής προοπτικής (egocentric video) και δεδομένα κίνησης από ηλεκτρομαγνητικούς αισθητήρες. Για τη λήψη της αντικειμενικής βαθμολογίας (ground truth) βάσει του προτύπου OSATS, δύο έμπειροι χειρουργοί αξιολόγησαν ανεξάρτητα τις εκτελέσεις. Αναπτύχθηκε και αξιολογήθηκε ένα πλαίσιο Βαθιάς Μάθησης (Deep Learning) που αξιοποιεί το μοντέλο ResNet50 σε συνδυασμό με διάφορα μοντέλα χρονικής ανάλυσης (TCN, LSTM, Transformer) για την αυτόματη πρόβλεψη της βαθμολογίας. Τα αποτελέσματα κατέδειξαν την υπεροχή των αρχιτεκτονικών που βασί- ζονται σε Transformer, οι οποίες πέτυχαν υψηλή συσχέτιση με τη συναινετική βαθμολογία των ειδικών, συγκεκριμένα ρ = 0, 90 για το Knot Tying, ρ = 0, 88 για το Continuous Suturing και ρ = 0, 84 για το Interrupted Suturing. Αξιοσημείωτο είναι ότι η συσχέτιση του μοντέλου με τη συναινετική βαθμολογία βρέθηκε να είναι συγκρίσιμη ή, σε ορισμένες εργασίες, ανώτερη από τη συσχέτιση μεταξύ των ίδιων των έμπειρων χειρουργών (ρ = 0, 90 για το Knot Tying, ρ = 0, 76 για το Continuous Suturing και ρ = 0, 77 για το Interrupted Suturing), αποδεικνύοντας την ικανότητα του μοντέλου να συλλαμβάνει σύνθετα μοτίβα δεξιότητας. Επιπροσθέτως, η διατριβή παρουσιάζει συμπληρωματική έρευνα που αφορά την ποσοτική ανάλυση της χειρουργικής επίδοσης μέσω λεπτομερούς σχολιασμού βίντεο, αναδεικνύοντας σημαντικές μετρικές διαφοροποίησης μεταξύ αρχαρίων και έμπειρων. Τέλος, παρουσιάζονται δύο μελέτες για την αυτόματη αξιολόγηση της αγγειοβρίθειας της χοληδόχου κύστης ως δείκτη εγχειρητικής δυσκολίας. Η πρώτη εφαρμόζει κλασικές μεθόδους Πολλαπλής Μάθησης Στιγμιοτύπων (MIL), ενώ η δεύτερη προτείνει μια εξελιγμένη αρχιτεκτονική MICNN με μηχανισμούς προσοχής, επιτυγχάνοντας υψηλή ακρίβεια (92,1%) στην πρόβλεψη των κρίσεων των ειδικών και παρακάμπτοντας την υποκειμενικότητα και τη χαμηλή συμφωνία μεταξύ των βαθμολογητών. Συνοψίζοντας, η παρούσα διατριβή συνεισφέρει στην ανάπτυξη αντικειμενικών και αυτοματοποιημένων συστημάτων αξιολόγησης, αξιοποιώντας σύγχρονες μεθόδους μηχανικής μάθησης. Τα αποτελέσματα υποδεικνύουν ότι τα συστήματα αυτά έχουν τη δυνατότητα να ενισχύσουν τη χειρουργική εκπαίδευση, παρέχοντας αξιόπιστη και άμεση ανατροφοδότηση, και θέτουν τις βάσεις για την ενσωμάτωση ευφυών συστημάτων υποβοήθησης στη σύγχρονη χειρουργική αίθουσα.

περισσότερα

Περίληψη σε άλλη γλώσσα

The assessment and improvement of surgical skills are fundamental pillars for ensuring the quality of surgical care and patient safety. Traditional training and assessment methods, which rely mainly on subjective observation by experienced instructors, present limitations such as lack of objectivity, expenditure of valuable time, and inability to provide detailed and quantied feedback. The present doctoral thesis falls within the eld of Surgical Data Science and investigates the application of advanced Computer Vision and Articial Intelligence (AI) techniques for the automated analysis and assessment of surgical skills. Initially, the thesis focuses on online surgical gesture recognition in laparoscopic training tasks. A new video dataset of 80 surgical sessions (40 per task: Peg Transfer and Knot Tying) is presented, and a hybrid architecture (C3DTrans) is proposed, combining 3D Convolutional Neural Networks (3D CNNs) for extracting spatiotemporal features and Transformers for modeling long-term dependencies. The proposed model is designed for causal, real-time inference, enabling the online prediction of surgical gestures as the video stream unfolds. Particular emphasis is placed on addressing the lack of large volumes of annotated data through the introduction of Self-Supervised Learning techniques, specically next frame prediction. Evaluation on the Peg Transfer and Knot Tying tasks demonstrated excellent performance, with gesture-level accuracy reaching 97.5% and 97.9%, respectively. Furthermore, Self-Supervised Learning enabled the model to maintain high performance even with signicantly reduced annotated data. Finally, the model yielded competitive results (75.8% accuracy) on the benchmark JIGSAWS dataset, conrming its generalizability. Subsequently, the research extends to skill assessment in open surgery, a eld lacking inherent sources of digital imagery. A new multimodal dataset was created from 20 participants (students, residents, and experts) performing three fundamental tasks: Knot Tying, Continuous Suturing, and Interrupted Suturing. Data collection included egocentric video and motion data from electromagnetic sensors. For establishing the ground truth based on the OSATS scale, two expert surgeons independently annotated the performances. A Deep Learning framework was developed and evaluated, utilizing the ResNet50 model in combination with various temporal analysis models (TCN, LSTM, Transformer) for the automatic prediction of the score. The results demonstrated the superiority of Transformer-based architectures, which achieved high correlation with the consensus score of experts, specically ρ = 0.90 for Knot Tying, ρ = 0.88 for Continuous Suturing, and ρ = 0.84 for Interrupted Suturing. Notably, the model’s correlation with the expert consensus was found to be comparable to or, in certain tasks, exceeding the inter-rater correlation between the two expert surgeons themselves (ρ = 0.90 for Knot Tying, ρ = 0.76 for Continuous Suturing, and ρ = 0.77 for Interrupted Suturing), proving the model’s ability to capture complex skill patterns. Additionally, the thesis presents complementary research regarding quantitative analysis of surgical performance through detailed video annotation, highlighting signicant dierentiating metrics between novices and experts. Finally, two studies are presented for the automated assessment of gallbladder vascularity as an indicator of surgical diculty. The rst study applies classical Multiple-Instance Learning (MIL) methods, while the second proposes an advanced MICNN architecture with attention mechanisms, achieving high accuracy (92.1%) in predicting expert judgments and bypassing the subjectivity and low inter-rater agreement typically observed in clinical evaluations. In summary, the present thesis contributes to the development of objective and automated assessment systems, leveraging modern machine learning methods. The results indicate that these systems have the potential to enhance surgical training by providing reliable and immediate feedback, and lay the foundations for integrating intelligent assistance systems into the modern operating room.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (50.52 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/61641
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/61641
ND	61641
Εναλλακτικός τίτλος	Surgical skill analysis using computer vision and artificial intelligence techniques
Συγγραφέας	Γαζής, Αθανάσιος (Πατρώνυμο: Παναγιώτης)
Ημερομηνία	04/2026
Ίδρυμα	Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών (ΕΚΠΑ). Σχολή Επιστημών Υγείας. Τμήμα Ιατρικής. Τομέας Μορφολειτουργικός. Εργαστήριο Ιατρικής Φυσικής
Εξεταστική επιτροπή	Λουκάς Κωνσταντίνος Καραΐσκος Παντελής Σχίζας Δημήτριος Σεϊμένης Ιωάννης Παπαϊωάννου Θεόδωρος Κύκαλος Στυλιανός Κωστόπουλος Σπυρίδων
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Τεχνητή νοημοσύνη
Λέξεις-κλειδιά	Επιστήμη Χειρουργιϰών Δεδομένων; Υπολογιστική όραση; Τεχνητή νοημοσύνη; Αναγνώριση Χειρουργιϰών Χειρονομιών; ξιολόγηση Χειρουργιϰών Δεξιοτή- των; Λαπαροσκοπική χειρουργική; Ανοιϰτή Χειρουργιϰή; Βαθιά μάθηση; Αυτο-επιβλεπόμενη μάθηση
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

"Ανάλυση χειρουργικών δεξιοτήτων με τεχνικές υπολογιστικής όρασης και τεχνητής νοημοσύνης"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .