Περίληψη
Εισαγωγή και Σκοπός: Οι παραδοσιακές μέθοδοι αξιολόγησης με «χαρτί και μολύβι» (Paper and Pencil, P&P) στην Τριτοβάθμια Εκπαίδευση παρουσιάζουν σημαντικούς περιορισμούς ως προς την ακρίβεια, την αποδοτικότητα και τον ψυχολογικό αντίκτυπο, ιδιαίτερα σε αντικείμενα όπως η Στατιστική. Σκοπός της παρούσας διδακτορικής διατριβής ήταν η ολιστική διερεύνηση της Μηχανογραφημένης Προσαρμοστικής Αξιολόγησης (Computerized Adaptive Testing, CAT) ως εναλλακτικής λύσης, εστιάζοντας στις ψυχομετρικές, ψυχολογικές και μεταγνωστικές διαστάσεις της συγκεκριμένης διαδικασίας. Μεθοδολογία: Η έρευνα διεξήχθη σε δύο κύριες φάσεις. Στην πρώτη φάση (Βαθμονόμηση), αναπτύχθηκε η τράπεζα ερωτήσεων (item bank) μέσω ψυχομετρικής ανάλυσης δεδομένων από ένα μεγάλο αρχικό δείγμα (Ν=680) φοιτητών/τριών , ώστε να εκτιμηθούν οι παράμετροι της Θεωρίας Απόκρισης Ερωτήματος (Item Response Theory, IRT) –και συγκεκριμένα η δυσκολία και η διάκριση των ερωτήσεων– βάσει του Λογιστικού Μοντέλου Δύο Παραμέτρων (2-Parameter Logist ...
Εισαγωγή και Σκοπός: Οι παραδοσιακές μέθοδοι αξιολόγησης με «χαρτί και μολύβι» (Paper and Pencil, P&P) στην Τριτοβάθμια Εκπαίδευση παρουσιάζουν σημαντικούς περιορισμούς ως προς την ακρίβεια, την αποδοτικότητα και τον ψυχολογικό αντίκτυπο, ιδιαίτερα σε αντικείμενα όπως η Στατιστική. Σκοπός της παρούσας διδακτορικής διατριβής ήταν η ολιστική διερεύνηση της Μηχανογραφημένης Προσαρμοστικής Αξιολόγησης (Computerized Adaptive Testing, CAT) ως εναλλακτικής λύσης, εστιάζοντας στις ψυχομετρικές, ψυχολογικές και μεταγνωστικές διαστάσεις της συγκεκριμένης διαδικασίας. Μεθοδολογία: Η έρευνα διεξήχθη σε δύο κύριες φάσεις. Στην πρώτη φάση (Βαθμονόμηση), αναπτύχθηκε η τράπεζα ερωτήσεων (item bank) μέσω ψυχομετρικής ανάλυσης δεδομένων από ένα μεγάλο αρχικό δείγμα (Ν=680) φοιτητών/τριών , ώστε να εκτιμηθούν οι παράμετροι της Θεωρίας Απόκρισης Ερωτήματος (Item Response Theory, IRT) –και συγκεκριμένα η δυσκολία και η διάκριση των ερωτήσεων– βάσει του Λογιστικού Μοντέλου Δύο Παραμέτρων (2-Parameter Logistic, 2PL). Στη δεύτερη φάση (Κύρια Μελέτη), 213 προπτυχιακοί φοιτητές/τριες Παιδαγωγικού Τμήματος συμμετείχαν σε έναν οιονεί-πειραματικό σχεδιασμό επαναλαμβανόμενων μετρήσεων με αντιστάθμιση. Οι συμμετέχοντες εξετάστηκαν τόσο με παραδοσιακό γραπτό διαγώνισμα (P&P) όσο και με το βαθμονομημένο σύστημα CAT. Συλλέχθηκαν δεδομένα επίδοσης, χρόνου, άγχους και αντιλήψεων. Οι αναλύσεις της δεύτερης φάσης περιλάμβαναν συγκριτικούς ελέγχους, Διερευνητική Παραγοντική Ανάλυση (Exploratory Factor Analysis, EFA) και Επιβεβαιωτική Παραγοντική Ανάλυση (Confirmatory Factor Analysis, CFA), καθώς και Λογιστική και Γραμμική Παλινδρόμηση. Αποτελέσματα: Τα ευρήματα κατέδειξαν τη σαφή υπεροχή του CAT. Ψυχομετρικά, ήταν εξαιρετικά πιο αποδοτικό (μείωση χρόνου 83%), επιτυγχάνοντας ακρίβεια με ~10 ερωτήσεις. Οι φοιτητές/τριες πέτυχαν σημαντικά υψηλότερη επίδοση στο CAT (M=5.40) έναντι του P&P (M=1.92), καθώς ο αλγόριθμος υπερνίκησε τα «φαινόμενα δαπέδου» του P&P. Ψυχολογικά, το CAT προκάλεσε σημαντικά λιγότερο άγχος, αύξησε την αυτοπεποίθηση και προτιμήθηκε από την πλειοψηφία (55.4%). Η ψυχομετρική ανάλυση (EFA και CFA) ανέδειξε και τεκμηρίωσε ένα μοντέλο τριών παραγόντων της εμπειρίας CAT, διακρίνοντας τις διαστάσεις «Πρακτικότητα» (F1), «Εμπιστοσύνη» (F2) και «Συναίσθημα» (F3), με εξαιρετική προσαρμογή του μοντέλου στα δεδομένα (π.χ., CFI=.976, SRMR=.036). Η Λογιστική Παλινδρόμηση (μοντέλο Push-Pull, AUC=0.968) έδειξε ότι η προτίμηση για το CAT προβλέπεται από τη χαμηλή επίδοση στο P&P και το υψηλό άγχος στο P&P (παράγοντες Ώθησης), καθώς και από την υψηλή Εμπιστοσύνη (F2) στη μέθοδο CAT και τον περισσότερο χρόνο στο CAT (παράγοντες Έλξης). Η Γραμμική Παλινδρόμηση (Προσαρμοσμένο R²=0.588) έδειξε ότι η επίδοση στο CAT προβλέπεται ισχυρά από την πραγματική γνώση (όπως μετρήθηκε από την επίδοση στο P&P), τον χρόνο εξέτασης στο CAT, το πλήθος των ερωτήσεων (αρνητικά) και την αντιληπτή επίδοση των φοιτητών στο CAT. Η χαμηλή προβλεπτική ισχύς της υποκειμενικής εμπειρίας από μόνη της υποστηρίζει την αντικειμενικότητα της μέτρησης του CAT, καθώς η επίδοση καθορίστηκε σχεδόν αποκλειστικά από αντικειμενικούς παράγοντες (γνώση, συμπεριφορά) και όχι από τις υποκειμενικές συναισθηματικές αντιλήψεις των φοιτητών. Τέλος, η έρευνα ανέδειξε την ανάγκη εξισορρόπησης μεταξύ της ψυχομετρικής βελτιστοποίησης και της ψυχολογικής εμπειρίας των εξεταζόμενων, τεκμηριώνοντας τη «Μεταγνωσιακή Απαισιοδοξία» (συστηματική υποτίμηση επίδοσης στο CAT) και το «Παράδοξο του Φοιτητή Υψηλής Ικανότητας» (χαμηλότερη προτίμηση παρά την υψηλή επίδοση). Συμπεράσματα και Συνεισφορά: Η διατριβή τεκμηριώνει ότι το CAT αποτελεί ανώτερη μέθοδο αξιολόγησης, ικανή να ενισχύσει την ακρίβεια και τη δικαιοσύνη, μειώνοντας παράλληλα το άγχος και αυξάνοντας την αυτοπεποίθηση των αξιολογούμενων. Η πρωτότυπη συνεισφορά έγκειται στην ανάπτυξη και αρχική ψυχομετρική τεκμηρίωση (μέσω EFA και CFA) του μοντέλου εμπειρίας CAT, στην εμπειρική ανάδειξη των ψυχολογικών και μεταγνωστικών συνεπειών του αλγοριθμικού σχεδιασμού, και στην ποσοτικοποίηση των παραγόντων (Push-Pull) που καθορίζουν την αποδοχή και την επιτυχία σε προσαρμοστικά περιβάλλοντα.
περισσότερα
Περίληψη σε άλλη γλώσσα
Introduction and Purpose: Traditional assessment methods (Paper and Pencil, P&P) in Higher Education present significant limitations regarding accuracy, efficiency, and psychological impact, particularly in subjects like Statistics. The purpose of this doctoral dissertation was the holistic investigation of Computerized Adaptive Testing (CAT) as an alternative, examining psychometric, psychological, and metacognitive dimensions. Methodology: The research was conducted in two main phases. In the first phase (Calibration), an item bank was developed through the psychometric analysis of data from a large initial sample (N=680), estimating the Item Response Theory (IRT) parameters (difficulty, discrimination) of the items based on the 2-Parameter Logistic (2PL) model. In the second phase (Main Study), 213 undergraduate students from a Department of Education participated in a quasi-experimental, within-subjects, counterbalanced design. Participants were assessed using both a traditional (P ...
Introduction and Purpose: Traditional assessment methods (Paper and Pencil, P&P) in Higher Education present significant limitations regarding accuracy, efficiency, and psychological impact, particularly in subjects like Statistics. The purpose of this doctoral dissertation was the holistic investigation of Computerized Adaptive Testing (CAT) as an alternative, examining psychometric, psychological, and metacognitive dimensions. Methodology: The research was conducted in two main phases. In the first phase (Calibration), an item bank was developed through the psychometric analysis of data from a large initial sample (N=680), estimating the Item Response Theory (IRT) parameters (difficulty, discrimination) of the items based on the 2-Parameter Logistic (2PL) model. In the second phase (Main Study), 213 undergraduate students from a Department of Education participated in a quasi-experimental, within-subjects, counterbalanced design. Participants were assessed using both a traditional (P&P) test and the calibrated CAT system. Data collected included performance, time, anxiety, and perceptions. Phase 2 analyses included comparative tests, Exploratory Factor Analysis (EFA) and Confirmatory Factor Analysis (CFA), as well as Logistic and Linear Regression. Results: The findings demonstrated the clear superiority of CAT. Psychometrically, it was significantly more efficient (83% time reduction), achieving accuracy with ~10 items. Students achieved significantly higher performance in CAT (M=5.40) compared to P&P (M=1.92), as the algorithm overcame the "floor effects" of the P&P test. Psychologically, CAT induced significantly less anxiety, increased self-confidence, and was preferred by the majority (55.4%). Psychometric analysis (EFA and CFA) revealed and validated a three-factor model of the CAT experience, distinguishing the dimensions of "Practicality" (F1), "Trust" (F2), and "Affect" (F3), with excellent model fit to the data (e.g., CFI=.976, SRMR=.036). Logistic Regression (Push-Pull model, AUC=0.968) showed that preference for CAT is predicted by low P&P performance and high P&P anxiety (Push factors), as well as by high Trust (F2) in the CAT method and more time spent in CAT (Pull factors). Linear Regression (Adjusted R²=0.588) indicated that performance in CAT is strongly predicted by knowledge (as measured by P&P performance), test time in the CAT, number of items (negatively), and the student's perceived performance in the CAT. The low predictive power of subjective experience alone supports the objectivity of CAT measurement, as performance was determined almost exclusively by objective factors (knowledge, behavior) rather than by students' affective perceptions. Finally, the research highlighted the trade-off between psychometric optimization and the psychological experience of the examinees, documenting "Metacognitive Pessimism" (systematic underestimation of performance in CAT) and the "Paradox of the High-Ability Student" (lower preference despite high performance). Conclusions and Contribution: This dissertation substantiates that CAT is a superior assessment method, capable of enhancing accuracy and fairness while reducing anxiety and increasing self-confidence of the examinees. The original contribution lies in the development and initial psychometric validation (via EFA and CFA) of the CAT experience model, the empirical demonstration of the psychological and metacognitive consequences of algorithmic design, and the quantification of factors (Push-Pull) determining acceptance and success in adaptive environments.
περισσότερα