Περίληψη
Εισαγωγή: Η ανάπτυξη της επιστήμης της πληροφορικής (Informatics), με ανακάλυψη τεχνικών και εργαλείων σε επίπεδο γλώσσας μηχανής, έχει συντελέσει στην περαιτέρω ανάπτυξη πολλών άλλων επιστημονικών κλάδων όπως είναι αυτοί της Ιατρικής, της Βιολογίας, της Βιομετρίας, της Στατιστικής κτλ (Sim et al, 2012; Wong, 2016). Σε αρκετές περιπτώσεις, η παράλληλη ανάπτυξη δύο διακριτών κλάδων οδήγησε στη δημιουργία νέων επιστημονικών περιοχών, όπως για παράδειγμα, η εφαρμογή της Πληροφορικής και της Στατιστικής σε Βιο-Ιατρικές επιστήμες οδήγησε στους διακριτούς αλλά άρρηκτα συνδεδεμένους επιστημονικούς κλάδους της Βιο-πληροφορικής (Bioinformatics) και της Βιο-στατιστικής (Biostatistics) (Moody, 2004; Indrayan, 2012.). Η Βιο-στατιστική και η Βιο-πληροφορική είναι σχετικά πρόσφατοι επιστημονικοί τομείς, όμως, είναι γοργά αναπτυσσόμενοι τα τελευταία χρόνια. Στις Βιο-ιατρικές επιστήμες γίνεται χρήση κλιμάκων/δεικτών που στόχο έχουν την ακριβή, έγκυρη και αξιόπιστη μέτρηση ενός κλινικού ή συμπεριφοριστ ...
Εισαγωγή: Η ανάπτυξη της επιστήμης της πληροφορικής (Informatics), με ανακάλυψη τεχνικών και εργαλείων σε επίπεδο γλώσσας μηχανής, έχει συντελέσει στην περαιτέρω ανάπτυξη πολλών άλλων επιστημονικών κλάδων όπως είναι αυτοί της Ιατρικής, της Βιολογίας, της Βιομετρίας, της Στατιστικής κτλ (Sim et al, 2012; Wong, 2016). Σε αρκετές περιπτώσεις, η παράλληλη ανάπτυξη δύο διακριτών κλάδων οδήγησε στη δημιουργία νέων επιστημονικών περιοχών, όπως για παράδειγμα, η εφαρμογή της Πληροφορικής και της Στατιστικής σε Βιο-Ιατρικές επιστήμες οδήγησε στους διακριτούς αλλά άρρηκτα συνδεδεμένους επιστημονικούς κλάδους της Βιο-πληροφορικής (Bioinformatics) και της Βιο-στατιστικής (Biostatistics) (Moody, 2004; Indrayan, 2012.). Η Βιο-στατιστική και η Βιο-πληροφορική είναι σχετικά πρόσφατοι επιστημονικοί τομείς, όμως, είναι γοργά αναπτυσσόμενοι τα τελευταία χρόνια. Στις Βιο-ιατρικές επιστήμες γίνεται χρήση κλιμάκων/δεικτών που στόχο έχουν την ακριβή, έγκυρη και αξιόπιστη μέτρηση ενός κλινικού ή συμπεριφοριστικού χαρακτηριστικού ενός ατόμου (McDowell, 2006). Οι κλίμακες χρησιμοποιούνται σε διάφορους επιστημονικούς τομείς όπως είναι η εκπαίδευση, η οικονομία, η βιομετρία, η ψυχομετρία και η ιατρική και αποσκοπούν στη μέτρηση διαφόρων κλινικών χαρακτηριστικών, τα οποία πρακτικά είναι δύσκολο να μετρηθούν ποσοτικά (Kant, 1996; Streiner & Norman, 2008). Οι κλίμακες (Scales) είναι ποσοτικές τυχαίες μεταβλητές, συνεχείς ή διακριτές, που ακολουθούν γνωστή ή άγνωστη κατανομή, και στόχο έχουν να αποτιμούν βιοχημικά (π.χ. Επίπεδο Ορού Σακχάρου, Επίπεδο Χοληστερόλης, κτλ), κλινικά (π.χ. Αίσθηση Πόνου, Κατάθλιψη, κτλ) ή συμπεριφοριστικά χαρακτηριστικά (π.χ. Γενικό Διαιτητικό Πρότυπο, Βαθμός Υιοθέτησης Μεσογειακής Διατροφής, κτλ) των ατόμων ενός πληθυσμού (Beck, 1961; Huskisson 2012; Bach, 2006). Οι κλίμακες κατασκευάζονται από το μη σταθμισμένο ή σταθμισμένο αριθμητικό άθροισμα m μεταβλητών. Οι m μεταβλητές αντιπροσωπεύουν διαφορετικές πτυχές της κατάστασης ενός ατόμου (π.χ. εκπαιδευτικό επίπεδεο, οικονομική κατάσταση, πάθηση, υιοθέτηση διατροφικού προτύπου, κτλ) που στοχεύει να αποτιμήσει ο δείκτης με σκοπό τον ορθό και έγκυρο διαχωρισμό (classification) (Bansal & Pepe, 2013). Η μεθοδολογία κατασκευής των κλιμάκων δεν είναι μονοσήμαντα καθιερωμένη στη διεθνή βιβλιογραφία, καθώς δεν υπάρχει πλαίσιο που να περιλαμβάνει σαφείς οδηγίες για όλα τα στάδια κατασκευής τους, όπως π.χ. ο αριθμός των μεταβλητών που απαιτούνται ή τον τρόπο βαθμονόμησης αυτών (Panagiotakos, 2009). Σκοπός: Σκοπός της παρούσας διδακτορικής διατριβής είναι η ποσοτική διερεύνηση, με χρήση θεωρητικής ή/και αναλυτικής αποδεικτικής διαδικασίας, της σχέσης μεταξύ της ακρίβειας των κλιμάκων και συγκεκριμένων δομικών χαρακτηριστικών, όπως είναι: α) Ο αριθμός k των διαμερίσεων/διαιρέσεων των m διακριτών συνιστωσών μεταβλητών, στην περίπτωση μιας διακριτής κλίμακας (μια κλίμακα που δημιουργείται από διακριτές συνιστώσες μεταβλητές), (Bersimis F. et al, 2013). β) Το εύρος l του στηρίγματος/πεδίου ορισμού των m συνεχών συνιστωσών μεταβλητών, στην περίπτωση μιας συνεχούς κλίμακας (μια κλίμακα που δημιουργείται από συνεχείς συνιστώσες μεταβλητές), (Bersimis F. et al, 2016). γ) Η απόδοση σταθμίσεων wi στις συνιστώσες μεταβλητές μιας κλίμακας. Η τιμή της στάθμισης εκφράζει το βαθμό συσχέτισης ανάμεσα στις συνιστώσες μεταβλητές και το χαρακτηριστικό Y που η κλίμακα στοχεύει να αξιολογήσει (Bersimis F. et al, 2017). δ) Ο αριθμός m των συνιστωσών μεταβλητών μιας κλίμακας (Bersimis F. et al, 2017). Από τις προαναφερθείσες επιμέρους διερευνήσεις, ολιστικός σκοπός της διδακτορικής διατριβής αυτής είναι να σχηματιστεί ένα προτεινόμενο μεθοδολογικό υπόβαθρο για την κατασκευή κλιμάκων με υψηλή διαχωριστική/διακριτική ικανότητα και προβλεπτική ακρίβεια. Υλικό-Μέθοδος: Στην παρούσα διατριβή χρησιμοποιούνται θεωρητικές αποδείξεις με χρήση στοιχείων άλγεβρας και ανάλυσης, καθώς επίσης και πλήθος σεναρίων με προσομοιωμένα δεδομένα. Πιο συγκεκριμένα, στην περίπτωση της διερεύνησης της ευαισθησίας ως προς τον αριθμό k των διαιρέσεων/διαμερίσεων των διακριτών συνιστωσών για μεταβλητές που ακολουθούν άγνωστη κατανομή ή την ομοιόμορφη, αποδεικνύονται θεωρητικά οι αντίστοιχες προτάσεις με χρήση στοιχείων άλγεβρας (Ακολουθίες και Σειρές). Θεωρητικές αποδείξεις χρησιμοποιούνται επίσης στην περίπτωση της διερεύνησης της ευαισθησίας ως προς το εύρος l του στηρίγματος των συνεχών συνιστωσών μεταβλητών, για ομοιόμορφα ή κανονικά κατανεμημένες μεταβλητές, με χρήση στοιχείων ανάλυσης (Ολοκληρωτικός Λογισμός). Στην περίπτωση της διερεύνησης της χρήσης σταθμίσεων σε κλίμακες, με χρήση προσομοίωσης (Monte Carlo) δημιουργήθηκε ένα σύνολο 1.000 αρχείων με διαφοροποίηση ως προς τις παραμέτρους των χρησιμοποιούμενων κατανομών, ως προς τον αριθμό m των συνιστωσών μεταβλητών, ως προς το μέγεθος n των δειγμάτων (π.χ. 100, 1.000, 10.000 κτλ), ως προς την αναλογία μεταξύ ατόμων με κάποιο χαρακτηριστικό και ατόμων που δεν διαθέτουν το χαρακτηριστικό (1:3, 1:4, κτλ) (Sheldon, 2006). Πιο συγκεκριμένα, έγινε χρήση της ομοιόμορφης και της κανονικής κατανομής με ποικιλία παραμετροποίησης για κάθε σενάριο. Επίσης γίνεται χρήση τροποποιημένων κατανομών ώστε να προσεγγίζουν τις εμπειρικές κατανομές από διάφορα χαρακτηριστικά του εκπαιδευτικού, του οικονομικού και του ιατρο-βιολογικού χώρου. Στα πλαίσια αυτής της διατριβής κατασκευάστηκαν εννέα κλίμακες Τi, i=0, 1,2,,…,8 με διαφορετική μεθοδολογία στάθμισης η κάθε μια. Για την κλίμακα Τ0 δεν χρησιμοποιήθηκε στάθμιση, οπότε παράγεται από το απλό αλγεβρικό άθροισμα των μεταβλητών Χj, j=1,2,..,m, κατόπιν τυποποίησης τους. Οι σταθμίσεις προέκυψαν από την εφαρμογή της λογιστικής παλινδρόμησης και της διαχωριστικής ανάλυσης με εξαρτημένη μεταβλητή την Υ που εκφράζει την κατάσταση ενός ατόμου και ανεξάρτητες τις επεξηγηματικές συνιστώσες μεταβλητές Χj, j=1, 2,..,m.. Η διαγνωστική ακρίβεια της εκάστοτε κλίμακας, αξιολογείται υπολογίζοντας το εμβαδόν (AUC) της επιφάνειας κάτω από την (ROC) καμπύλη λειτουργικών χαρακτηριστικών, την ευαισθησία (Sensitivity - True Positive Ratio), την ειδικότητα τους (Specificity - True Negative Ratio), την ακρίβεια (Accuracy - True Ratio), την θετική και αρνητική προγνωστική αξία (Positive/Negative Predictive Value). Με χρήση προσομοίωσης αξιολογείται επίσης η προβλεπτική τους ικανότητα και οι σταθμισμένες κλίμακες αξιολογούνται στην περίπτωση πραγματικών διαιτολογικών δεδομένων, από τη μελέτη ATTICA, και δημιουργούνται χρησιμοποιώντας 5 συνιστώσες, οι οποίες επιλέγονται τυχαία από το γενικό πρότυπο της Μεσογειακής διατροφής. Αποτελέσματα: Η θεωρητική απόδειξη, τόσο στην περίπτωση των διακριτών κλιμάκων, όσο και στην περίπτωση των συνεχών κλιμάκων, παρουσιάζει ότι η διαγνωστική ακρίβεια μιας κλίμακας, μετρούμενη μέσω της συνάρτησης ευαισθησίας, βελτιώνεται όταν ο αριθμός k των διαμερίσεων (διαιρέσεων) των διακριτών μεταβλητών αυξάνει ή όταν το εύρος l του στηρίγματος (πεδίου ορισμού) των συνεχών μεταβλητών γίνεται πιο ευρύ. Ο βαθμός συσχέτισης των συνιστωσών μεταβλητών με την εξαρτημένη βρέθηκε να επηρεάζει τη διαγνωστική ακρίβεια μιας κλίμακας. Πιο συγκεκριμένα, χρησιμοποιήθηκαν αρχικά σετ προσομοιωμένων δεδομένων από συσχετισμένες μεταβλητές με διαφορετικό συντελεστή συσχέτισης με την εξαρτημένη μεταβλητή. Η διαγνωστική ακρίβεια των σταθμισμένων κλιμάκων είναι υψηλότερη σε σχέση με αυτή της μη-σταθμισμένης κλίμακας. Η διαγνωστική ακρίβεια της κλίμακας βελτιώνεται επίσης στην περίπτωση που ο αριθμός m των συνιστωσών μεταβλητών αυξάνεται. Τα παραπάνω αποτελέσματα εφαρμόστηκαν και επαληθεύτηκαν σε κλίμακα που εκφράζει διατροφολογικό δείκτη, βασιζόμενο σε συνιστώσες μεταβλητές του MedDietScore, σε δείγμα 981 ανδρών και γυναικών, αναφορικά με τους παράγοντες καρδιαγγειακού κινδύνου (δηλαδή, παχυσαρκία, σακχαρώδη διαβήτη, υπέρταση, υπερχοληστερολαιμία), μετά από έλεγχο για πιθανούς συγχυτικούς παράγοντες. Συμπεράσματα: Οι κλίμακες χρησιμοποιούνται ευρέως σε διαφόρους επιστημονικούς κλάδους, ειδικότερα στο χώρο της εκπαίδευσης, της οικονομίας και της υγείας, για την ανίχνευση χαρακτηριστικών ή στάσεων που είναι δύσκολο να ανιχνευθούν (Kant, 1996). Η ακριβής μέτρηση κάποιου χαρακτηριστικού, με τη χρήση μιας σύνθετης κλίμακας στο χώρο της υγείας, προσφέρει τη δυνατότητα έγκαιρης και ορθής διάγνωσης μιας νόσου, με συνέπεια την καταλληλότερη θεραπεία του ατόμου που νοσεί και κατ' επέκταση τη βελτίωση της ποιότητας της ζωής του. Σε αυτή τη διδακτορική διατριβή, προτείνονται μέθοδοι για τη βελτίωση της ακρίβειας κλιμάκων σχετικών με την υγεία που παρέχουν ωφελιμότητα σε επίπεδο δημόσιας υγείας με άμεσα αποτελέσματα τη χρήση λιγότερων κρατικών πόρων για τη θεραπεία των ασθενών ατόμων ενός πληθυσμού. Μια κλίμακα παρουσιάζει υψηλή διαχωριστική ικανότητα όταν ικανοποιούνται οι ακόλουθες συνθήκες: α) Ο αριθμός k των διαμερίσεων/διαιρέσεων των m διακριτών συνιστωσών μεταβλητών λαμβάνει τη μέγιστη δυνατή τιμή, χωρίς να εμφανίζεται το πρόβλημα της δυασταξινόμησης των ατόμων ενός πληθυσμού, στην περίπτωση μιας διακριτής σύνθετης κλίμακας (Bersimis F. et al, 2013). β) Το εύρος l του στηρίγματος/πεδίου ορισμού των m συνεχών συνιστωσών μεταβλητών γίνεται ευρύ, στην περίπτωση μιας συνεχούς σύνθετης κλίμακας, χωρίς να εμφανίζεται το πρόβλημα της δυσταξινόμησης των ατόμων ενός πληθυσμού (Bersimis F. et al, 2016). γ) Η στάθμιση wi στις συνιστώσες μεταβλητές μιας σύνθετης κλίμακας να προέρχεται από στατιστική μέθοδο ταξινόμησης, όπως είναι η Λογιστική Παλινδρόμηση ή η Διαχωριστική Ανάλυση (Bersimis F. et al, 2017). δ) Ο αριθμός m των συνιστωσών μεταβλητών μιας σύνθετης κλίμακας που σχετίζονται με το χαρακτηριστικό που αποτιμά η κλίμακα να είναι ο μέγιστος, δηλαδή να γίνεται χρήση όλων των συνιστωσών μεταβλητών που σχετίζονται με το αποτέλεσμα της υγείας (Bersimis F. et al, 2017).
περισσότερα
Περίληψη σε άλλη γλώσσα
Background/Introduction: The development of information science with the discovery of techniques and tools at the machine language level has contributed to the further development of many other disciplines such as Medicine, Biology, Biometrics, Statistics etc. (Sim et al., 2012; Wong, 2016). In several cases, the parallel development of two distinct branches has led to the creation of new scientific areas. For example, the application of Informatics and Statistics to Bio-Medical Sciences has led to the distinct but inextricably linked disciplines of Bioinformatics and Biostatistics (Moody, 2004; Indrayan, 2012). Bio-Statistics and Bio-Informatics are relatively recent scientific fields, however, they are rapidly growing in recent years. Biomedical sciences use mathematical scales to measure accurately and reliably a clinical or behavioral characteristic of a person (McDowell, 2006). Composite scales are used in a variety of scientific areas, such as biometrics, psychometry and medicine ...
Background/Introduction: The development of information science with the discovery of techniques and tools at the machine language level has contributed to the further development of many other disciplines such as Medicine, Biology, Biometrics, Statistics etc. (Sim et al., 2012; Wong, 2016). In several cases, the parallel development of two distinct branches has led to the creation of new scientific areas. For example, the application of Informatics and Statistics to Bio-Medical Sciences has led to the distinct but inextricably linked disciplines of Bioinformatics and Biostatistics (Moody, 2004; Indrayan, 2012). Bio-Statistics and Bio-Informatics are relatively recent scientific fields, however, they are rapidly growing in recent years. Biomedical sciences use mathematical scales to measure accurately and reliably a clinical or behavioral characteristic of a person (McDowell, 2006). Composite scales are used in a variety of scientific areas, such as biometrics, psychometry and medicine, and are designed to measure various clinical features, which are difficult to measure quantitatively (Kant, 1996; Streiner & Norman, 2008). Scales are quantitative, continuous or discrete, random variables that follow a known or unknown distribution, intending to evaluate biochemical (eg, Serum Serum Level, Cholesterol Level, etc ), Clinical (eg Sense of Pain, Depression, etc.) or behavioral characteristics (eg General Dietary Standard, Degree of Adoption of Mediterranean Diet, etc.) of individuals of a population (Beck, 1961; Huskisson 2012). Scales are derived from the simple (unweighted) or weighted algebraic sum of a set of m variables. The m variables express distinct components of the feature that the scale aims to estimate. Advanced health indices are also used as healthy/patient segregation tools and are widely used in physic-biological, psychometric and social science research (Bansal & Pepe, 2013). The methodology for the construction of scales is not unambiguously established in the international literature but involves a high degree of subjectivity of the researcher and depends on the type of the characteristic that the scale aims to assess (Panagiotakos, 2009). Aim: The purpose of this dissertation is to quantify the relationship between the diagnostic accuracy of composite scales and their specific structural characteristics, influencing their diagnostic accuracy, using a theoretical and/or analytical proofing process, such as: (A) The k number of partitions/divisions of m discrete component variables, in the case of a discrete composite scale (i.e. an index created by discrete component variables), (Bersimis F. et al, 2013). (B) The l range of the support/field of definition of m continuous component variables, in the case of a continuous composite scale (an index generated by continuous component variables), (Bersimis F. et al., 2016). (C) The performance of weights wi in the component variables of a composite scale. The weighting value expresses the degree of correlation between the component variables and the Y characteristic that the scale aims to evaluate (Bersimis F. et al., 2017). (D) The number m of the composite scale’s variables (Bersimis F. et al, 2017). From the aforementioned individual investigations, the holistic goal of this dissertation is to form a proposed methodological background for the construction of scales with high diagnostic ability and predictive precision. Material-Method: This thesis uses theoretical evidence using algebra and analysis elements, as well as a number of simulated data scenarios. More specifically, in the case of investigating the sensitivity of the number k of divisions/partitions of discrete components for variables that follow an unknown distribution or the uniform, the corresponding propositions using algebra elements (Sequences and Rows) are theoretically proved. Theoretical proof is also used in the case of exploration of the sensitivity of continuous indices for uniformly or normally distributed variables using analysis elements (Differential and Integral Calculus). In the case of investigating the use of weights in composite health indices using simulation (Monte Carlo), a set of 1,000 records were created with a differentiation in the parameters of the distributions used, in terms of the number m of the component variables, in terms of size of the samples (e.g., 100, 1,000, 10,000, etc.). More specifically, uniform and normal distribution were used with a variety of parameterization for each scenario. Also, modified distributions are used to approximate the empirical distributions of various characteristics of the medical-biological space. In the context of this thesis, nine scales Ti, i = 0, 1,2, ..., 8 were constructed with different weighting methodology each. For T0 no weighting was used, so it is derived from the simple algebraic sum of the variables Xj, j = 1,2, .., m. Weights were derived from the application of logistic regression and discriminant analysis with a dependent variable Y expressing the clinical condition of individuals and independent of the explanatory component variables Xj, j = 1, 2, .., m. The diagnostic accuracy of the scales was evaluated by calculating the surface area under the (ROC) receiver operating characteristic curve, Sensitivity (True Positive Ratio), Specificity (True Negative Ratio), Accuracy (True Ratio) Positive and Negative predictive value. Using simulation, their predictive capacity was also evaluated and weighted indices were evaluated in the case of actual dietary data from the ATTICA study and are generated using 5 components, which are randomly selected from the Mediterranean diet. Results: The theoretical evidence, both in the case of discrete indices and in the case of continuous scales, shows that the diagnostic accuracy of a scale measured by the sensitivity function, improves when the number k of the divisions of discrete variables increases or when the width l of the support (field of definition) of continuous variables becomes broader. The degree of correlation between the component variables was found to affect the accuracy of a scale. More specifically, initially a set of simulated data was used from correlated variables with a different correlation coefficient, and then the Principal Component Analysis was used to produce rectangular (uncorrelated) variables. An increase in the capacity of the scales was observed when using the unrelated variables produced. Accuracy of the scale is also improved if the number m of component variables increase too. The accuracy of the weighted scales is higher than the diagnostic accuracy of a non-weighted scale. The above results were applied to a nutritional scale based on MedDieScore component variables in a sample of 981 men and women in terms of cardiovascular risk factors (i.e. obesity, diabetes mellitus, hypertension, hypercholesterolemia) after screening for potential confounders. Conclusions: A composite scale presents high ability when the following conditions are met: A) The number k of the partitions/divisions of m discrete component variables takes the maximum possible value, without the problem of the misclassification of individuals of a population in the case of a discrete composite scale (Bersimis F. et al, 2013). B) The l range of the support/field of definition of the m continuous component variables, in the case of a continuous composite scale, without the problem of the misclassification of the individuals of a population (Bersimis F. et al., 2016). C) The weighting wi in the component variables of a composite scale is derived from a statistical classification method, such as Logistic Regression or Discriminant Analysis (Bersimis F. et al., 2017). D) The number m of composite health indicator variables is the maximum, i.e. all the variables associated with the outcome are used (Bersimis F. et al., 2017). Scales are widely used in various disciplines, particularly in the health sector, to detect features or attitudes that are difficult to be detected (Kant, 1996). Accurate measurement of a characteristic, using a composite scale, offers the possibility of early and accurate diagnosis of a disease, resulting in the most appropriate treatment of the diseased person who suffers and hence the improvement of the quality of his life. Extending past studies, this thesis proposes methods to improve the h scales’ diagnostic capabilities that provide public health benefits, with direct results in the use of less government resources to treat the sick in a population.
περισσότερα