Περίληψη
Η παρούσα διδακτορική διατριβή αποσκοπεί στην επίτευξη τριών βασικών στόχων. Ο πρώτος στόχος αφορά στην ανάπτυξη και διερεύνηση της ψυχομετρικής ποιότητας της τράπεζας στοιχείων ενός υπολογιστικού συστήματος προσαρμοστικής αξιολόγησης (Computerized Adaptive Testing - CAT), του Numetrive, το οποίο αξιολογεί τον αριθμητικό συλλογισμό. Το Numetrive, στοχεύει στην ακριβή και αξιόπιστη εκτίμηση της ικανότητας των εξεταζόμενων, προσαρμόζοντας δυναμικά τη διαδικασία της αξιολόγησης στις δυνατότητές τους. Ο δεύτερος στόχος αφορά στη διερεύνηση της αποτελεσματικότητας και της απόδοσης του αλγοριθμικού συνδυασμού που συνθέτει σύστημα Numetrive. Και τέλος, ο τρίτος στόχος επικεντρώνεται στη διερεύνηση της εγκυρότητας του ψυχομετρικού εργαλείου Numetrive, προκειμένου να εξακριβωθεί κατά πόσον το εργαλείο αξιολογεί την εννοιολογική κατασκευή για την οποία σχεδιάστηκε. Αρχικά, αναπτύχθηκε μια τράπεζα στοιχείων που αποτελείται από 174 στοιχεία, τα οποία βαθμονομήθηκαν με το λογιστικό μοντέλο των δύο ...
Η παρούσα διδακτορική διατριβή αποσκοπεί στην επίτευξη τριών βασικών στόχων. Ο πρώτος στόχος αφορά στην ανάπτυξη και διερεύνηση της ψυχομετρικής ποιότητας της τράπεζας στοιχείων ενός υπολογιστικού συστήματος προσαρμοστικής αξιολόγησης (Computerized Adaptive Testing - CAT), του Numetrive, το οποίο αξιολογεί τον αριθμητικό συλλογισμό. Το Numetrive, στοχεύει στην ακριβή και αξιόπιστη εκτίμηση της ικανότητας των εξεταζόμενων, προσαρμόζοντας δυναμικά τη διαδικασία της αξιολόγησης στις δυνατότητές τους. Ο δεύτερος στόχος αφορά στη διερεύνηση της αποτελεσματικότητας και της απόδοσης του αλγοριθμικού συνδυασμού που συνθέτει σύστημα Numetrive. Και τέλος, ο τρίτος στόχος επικεντρώνεται στη διερεύνηση της εγκυρότητας του ψυχομετρικού εργαλείου Numetrive, προκειμένου να εξακριβωθεί κατά πόσον το εργαλείο αξιολογεί την εννοιολογική κατασκευή για την οποία σχεδιάστηκε. Αρχικά, αναπτύχθηκε μια τράπεζα στοιχείων που αποτελείται από 174 στοιχεία, τα οποία βαθμονομήθηκαν με το λογιστικό μοντέλο των δύο παραμέτρων (2PLM) και ύστερα εξισωθήκαν με την μέθοδο της ταυτόχρονης βαθμονόμησης ώστε να τοποθετηθούν σε μία κοινή μετρική κλίμακα. Τα στοιχεία της τελικής τράπεζας παρουσιάζουν παραμέτρους δυσκολίας που κυμαίνονται από -3,4 έως 2,7 λογιστικές μονάδες (logits), και παραμέτρους διακριτικότητας που εκτείνονται από 0,51 έως 1,6. Εν συνέχεια, η συγκεκριμένη τράπεζα στοιχείων χρησιμοποιήθηκε για την αξιολόγηση της αποτελεσματικότητας του αλγοριθμικού συνδυασμού που συνιστά το σύστημα Numetrive μέσω Monte Carlo προσομοιώσεων. Το Numetrive αποτελείται από έναν μοναδικό συνδυασμό αλγορίθμων που έχουν επιλεγεί για να διασφαλίσουν ακρίβεια στην μέτρηση της ικανότητας θ, χαμηλή έκθεση των στοιχείων και σύντομες αξιολογήσεις. Ο αλγοριθμικός συνδυασμός του Numetrive αποτελείται από τους αλγόριθμους της Μέγιστης Πιθανοφάνειας με Όρια (Maximum Likelihood Estimation with Fences - MLEF) για τη βαθμολόγηση των εξεταζόμενων, την συνδυαστική μέθοδο της Προοδευτικής Περιοριστικής Στρατηγικής του Τυπικού Σφάλματος (Progressive Restricted Standard Error - PR-SE) για την επιλογή και τον έλεγχο έκθεσης των στοιχείων, και το τυπικό σφάλμα μέτρησης (SE) ως κανόνα τερματισμού της αξιολόγησης του συστήματος. Σύμφωνα με τα αποτελέσματα της μελέτης προσομοίωσης, η ακρίβεια στην εκτίμηση της ικανότητας των συμμετεχόντων ήταν εξαιρετικά υψηλή, όπως υποδεικνύεται από διάφορους στατιστικούς δείκτες. Επιπλέον, η μελέτη ανέδειξε ότι ο μέσος όρος του αριθμού των στοιχείων που χορηγούνται από το σύστημα Numetrive είναι εξαιρετικά χαμηλός, καθώς κατά μέσο όρο χορηγήθηκαν μόλις 13,6 στοιχεία. Ταυτόχρονα, τα ποσοστά έκθεσης των στοιχείων παρέμειναν σε σημαντικά χαμηλά επίπεδα. Στη συνέχεια, πραγματοποιήθηκαν πολλαπλές προσομοιώσεις Monte Carlo για να αξιολογηθεί η απόδοση του Numetrive σε σύγκριση με άλλους αλγοριθμικούς συνδυασμούς, χρησιμοποιώντας διαφορετικές μεθόδους ελέγχου έκθεσης στοιχείων. Το σύστημα Numetrive, χρησιμοποιώντας τη μέθοδο PR-SE, απέδωσε καλύτερα από όλους τους υπόλοιπους αλγοριθμικούς συνδυασμούς. Χρησιμοποίησε ολόκληρη την τράπεζα στοιχείων, διατηρώντας ταυτόχρονα το χαμηλότερο ποσοστό έκθεσης. Επιπλέον, χορήγησε πολύ λίγα στοιχεία, εξασφαλίζοντας υψηλή ακρίβεια μέτρησης, όπως υποδεικνύεται από διάφορους στατιστικούς δείκτες. Τέλος, πραγματοποιήθηκε μελέτη εγκυρότητας που παρείχε ισχυρές ενδείξεις τόσο για τη συγχρονική εγκυρότητα όσο και για την συγκλίνουσα και αποκλίνουσα εγκυρότητα του συστήματος Numetrive.
περισσότερα
Περίληψη σε άλλη γλώσσα
This doctoral dissertation is centered around three main objectives. The first objective focuses on the development and evaluation of the psychometric quality of the item bank of Numetrive, a newly developed computerized adaptive testing (CAT) system that measures numerical reasoning. Numetrive aims to accurately and reliably estimate the ability θ of examinees' ability by adapting the assessment process to their capabilities. The second objective concerns the psychometric evaluation and investigation of the effectiveness and performance of the algorithmic combination that constitutes the Numetrive. Finally, the third objective is to investigate the validity of the Numetrive and determine whether it accurately evaluates the conceptual construct for which it was designed. Initially, an item bank consisting of 174 items was developed concurrently equated and calibrated using the two-parameter logistic model (2PLM), with item difficulties ranging between – 3,4 and 2,7 and discriminations ...
This doctoral dissertation is centered around three main objectives. The first objective focuses on the development and evaluation of the psychometric quality of the item bank of Numetrive, a newly developed computerized adaptive testing (CAT) system that measures numerical reasoning. Numetrive aims to accurately and reliably estimate the ability θ of examinees' ability by adapting the assessment process to their capabilities. The second objective concerns the psychometric evaluation and investigation of the effectiveness and performance of the algorithmic combination that constitutes the Numetrive. Finally, the third objective is to investigate the validity of the Numetrive and determine whether it accurately evaluates the conceptual construct for which it was designed. Initially, an item bank consisting of 174 items was developed concurrently equated and calibrated using the two-parameter logistic model (2PLM), with item difficulties ranging between – 3,4 and 2,7 and discriminations spanning from 0,51 up to 1,6. Subsequently, this item bank was used in the psychometric evaluation of the algorithmic combination that constitutes the Numetrive system through Monte Carlo simulations. Numetrive consists of a unique combination of algorithms selected to ensure accuracy in measuring the ability (θ), low item exposure, and brief assessments. The algorithmic combination includes maximum likelihood estimation with fences (MLEF) for θ estimation, Progressive Restricted Standard Error (PR-SE) (McClarty et al., 2006) for item selection and exposure control, and the standard error (SE) as the stopping rule for the system's assessment. According to the simulation study results, the accuracy of the ability estimation for participants was extremely high, as indicated by various statistical indices. Moreover, the study revealed that the average number of items administered by the Numetrive was extremely low, with an average of only 13.6 items. At the same time, item exposure rates remained significantly low. Subsequently, multiple Monte Carlo simulations were conducted to evaluate the performance of Numetrive in comparison to different algorithmic combinations using various exposure control methods. The Numetrive, employing the PR-SE method, outperformed all other systems. It utilized the entire item bank while maintaining the lowest exposure rate. Additionally, it administered very few items while ensuring high measurement accuracy, as indicated by various statistical indices. Finally, a validity study was performed to evaluate the concurrent, convergent, and divergent validity of the newly developed CAT system. Findings verified Numertive's robustness and applicability in the evaluation of numerical reasoning.
περισσότερα