Περίληψη
Ο διαχωρισμός των συνιστωσών της υδρολογικής αβεβαιότητας και η μείωση της τιμής τους αποτελεί, κατά την υδρολογική κοινότητα, ένα άλυτο πρόβλημα της υδρολογίας. Στην τρέχουσα διατριβή, εξετάζεται το ανωτέρω πρόβλημα επιστρατεύοντας την θεωρία της πληροφορίας για να αναλυθεί η υδρολογική αβεβαιότητα σε βασικές μετρήσιμες συνιστώσες. Έτσι προκύπτει το εξής ερευνητικό ερώτημα το οποίο επιχειρείται να απαντηθεί: Πως εξισώνουμε μαθηματικά τον κάθε τύπο υδρολογικής αβεβαιότητας με την έλλειψη της αντίστοιχης πληροφορίας ώστε να είναι μία μετρήσιμη ποσότητα; Θεωρείται, λοιπόν, πως η αβεβαιότητα είναι ένα κενό γνώσης (πληροφορίας) στην υδρολογική προσομοίωση, και αναλόγως της θέσης αυτού του κενού λαμβάνουμε διαφορετικούς τύπους αβεβαιότητας. Η τυχαία αβεβαιότητα ενός παρατηρημένου σετ δεδομένων αποτελεί την διαφορά πληροφορίας μεταξύ της διαθέσιμης (ωφέλιμης) πληροφορίας του σετ και της αναγκαίας πληροφορίας για την προσομοίωση της απορροής με επιλεγμένη ακρίβεια. Αντίστοιχα, η επιστημική αβ ...
Ο διαχωρισμός των συνιστωσών της υδρολογικής αβεβαιότητας και η μείωση της τιμής τους αποτελεί, κατά την υδρολογική κοινότητα, ένα άλυτο πρόβλημα της υδρολογίας. Στην τρέχουσα διατριβή, εξετάζεται το ανωτέρω πρόβλημα επιστρατεύοντας την θεωρία της πληροφορίας για να αναλυθεί η υδρολογική αβεβαιότητα σε βασικές μετρήσιμες συνιστώσες. Έτσι προκύπτει το εξής ερευνητικό ερώτημα το οποίο επιχειρείται να απαντηθεί: Πως εξισώνουμε μαθηματικά τον κάθε τύπο υδρολογικής αβεβαιότητας με την έλλειψη της αντίστοιχης πληροφορίας ώστε να είναι μία μετρήσιμη ποσότητα; Θεωρείται, λοιπόν, πως η αβεβαιότητα είναι ένα κενό γνώσης (πληροφορίας) στην υδρολογική προσομοίωση, και αναλόγως της θέσης αυτού του κενού λαμβάνουμε διαφορετικούς τύπους αβεβαιότητας. Η τυχαία αβεβαιότητα ενός παρατηρημένου σετ δεδομένων αποτελεί την διαφορά πληροφορίας μεταξύ της διαθέσιμης (ωφέλιμης) πληροφορίας του σετ και της αναγκαίας πληροφορίας για την προσομοίωση της απορροής με επιλεγμένη ακρίβεια. Αντίστοιχα, η επιστημική αβεβαιότητα μίας προσομοίωσης ορίζεται ως η διαφορά της διαθέσιμης πληροφορίας με την πληροφορία που επεξηγεί το μοντέλο. Συνεπώς, είναι απαραίτητο να αναπτυχθούν υπολογιστικές τεχνικές για τις ποσότητες της αναγκαίας, ωφέλιμης και επεξηγήσιμης πληροφορίας οι οποίες είναι γραμμικοί συνδυασμοί διαφορικών εντροπιών μίας, δύο ή πολλών μεταβλητών. Συνολικά, σχεδιάστηκαν επτά (7) υπολογιστικές ρουτίνες- εκτιμήτριες των διαφορικών εντροπιών, η λειτουργία των οποίων βασίζεται στην κατάτμηση ενός πεδίου ορισμού σε ισοπίθανες μονοδιάστατες ή δισδιάστατες κλάσεις. Στην περίπτωση μίας διαφορικής εντροπίας πολλών μεταβλητών, διεξάγεται ανάλυση ανεξαρτήτων συνιστωσών ώστε το υπολογιστικό πρόβλημα να αναχθεί στην εκτίμηση πλήθους μονοδιάστατων διαφορικών εντροπιών. Λόγω του ότι ο υπολογισμός της διαθέσιμης πληροφορίας ενός παρατηρημένου σετ δεδομένων εμφανίζει υπολογιστική αστάθεια, εξαιτίας των πολλαπλών αναλύσεων ανεξαρτήτων συνιστωσών που εμπλέκονται σε αυτόν, είναι απαραίτητη η σταθεροποίηση του. Για τον λόγο αυτόν, εισήχθη η έννοια της ικανότητας ενός μοντέλου που ταυτίζεται με την κατώτατη τιμή της διαθέσιμης πληροφορίας. Ταυτόχρονα, με την ελαχιστοποίηση της συνολικής αμοιβαίας πληροφορίας που μοιράζονται τα παραγόμενα μονοδιάστατα σήματα μίας ανάλυσης ανεξαρτήτων συνιστωσών, αξιολογείται η ποιότητα της κάθε ανάλυσης και απορρίπτονται οι ακατάλληλες λύσεις της. Συντάχθηκε κώδικας που υλοποιεί τις ανωτέρω υπολογιστικές διαδικασίες. Επιπλέον, ένα νέο θεωρητικό πλαίσιο προτάθηκε, στο οποίο η επιστημική αβεβαιότητα ενός μοντέλου διαχωρίζεται στην δομική και παραμετρική αβεβαιότητα της προσομοίωσης. Σε αυτό εμπλέκεται η έννοια της ικανότητας ενός μοντέλου, αφού εκτός από το κατώτατο όριο της διαθέσιμης πληροφορίας, εκφράζει και την μέγιστη δυνητική απόδοση του μοντέλου. Βάσει της έννοιας αυτής, ορίζονται οι καμπύλες δεδομένων-ικανότητας των μοντέλων, με τις οποίες δύναται να συγκριθεί η δομή δύο μοντέλων χωρίς να διεξαχθεί βαθμονόμηση και επαλήθευση τους. Όσον αφορά την παραμετρική αβεβαιότητα, αυτή ισούται με την μείωση της πληροφορίας που παράγει (επεξηγεί) ένα μοντέλο όταν ως παραμέτρους έχει ένα επιλεγμένο παραμετρικό σετ. Η παραμετρική αβεβαιότητα, λοιπόν, μπορεί να χρησιμοποιηθεί για την αξιολόγηση του σετ παραμέτρων που προκύπτει από την βαθμονόμηση. Επιπλέον, αναπτύσσεται ένα νέο μέτρο πιθανοφάνειας βασιζόμενο στην παραμετρική αβεβαιότητα για τον σχηματισμό διαστημάτων εμπιστοσύνης της προσομοιωμένης απορροής με την μέθοδο GLUE. Γίνεται έτσι κατανοητό πως το προτεινόμενο πλαίσιο ενσωματώνει στοιχεία της θεωρίας της πληροφορίας με την βαθμονόμηση των υδρολογικών μοντέλων. Επομένως, βασικές αρχές της βελτιστοποίησης, βαθμονόμησης και των γενετικών αλγορίθμων αναπτύσσονται στο σώμα της διατριβής. Ειδικότερα, γίνεται παρουσίαση των βασικών τελεστών που απαρτίζουν έναν γενετικό αλγόριθμο μαζί με τις διαφορετικές παραλλαγές τους. Παράλληλα, συντάσσεται ένας απλός ελιτιστικός γενετικός αλγόριθμος ο οποίος θα χρησιμοποιηθεί για την βαθμονόμηση μοντέλων και για την αναζήτηση του σετ παραμέτρων που μεγιστοποιεί την επεξηγήσιμη πληροφορία ενός μοντέλου. Λόγω των απαιτούμενων εκτεταμένων υπολογισμών, συντάχθηκε υπολογιστικός κώδικας που συνενώνει τον γενετικό αλγόριθμο βελτιστοποίησης με τα υδρολογικά μοντέλα προς βαθμονόμηση και με τους αλγορίθμους υπολογισμού και διάγνωσης της αβεβαιότητας. Οι προτεινόμενες θεωρητικές πληροφοριακές ποσότητες εφαρμόζονται σε συνθετικές και πραγματικές υδρολογικές λεκάνες όπου συγκρίνονται με «συμβατικά» μέτρα αξιολόγησης ώστε να πιστοποιηθεί η συνοχή των πρώτων. Στις συνθετικές λεκάνες εφαρμόζονται απλά μοντέλα μίας εξίσωσης τα οποία έχουν ελεγχόμενο δομικό σφάλμα. Επιπρόσθετα, τα ψευδοπαρατηρημένα δεδομένα των συνθετικών λεκανών παράγονται από την κανονική ή λογαριθμοκανονική κατανομή και εισάγεται σε αυτά ελεγχόμενο τυχαίο σφάλμα. Έτσι διακρίνεται πως οι πληροφοριακές ποσότητες της διαθέσιμης πληροφορίας και της μέγιστης ικανότητας, όταν εφαρμοστούν σε αυτές τις λεκάνες, επηρεάζονται κατ’ αντιστοιχία μόνο από το τυχαίο και δομικό σφάλμα, κατά τρόπο διαισθητικά αναμενόμενο. Αντίθετα, παραδοσιακοί δείκτες απόδοσης, όπως οι Nash-Sutcliffe Efficiency και Kling-Gupta Efficiency, επηρεάζονται τόσο από το δομικό όσο και από το τυχαίο σφάλμα, καθιστώντας τους ακατάλληλους για τον διαχωρισμό της αβεβαιότητας σε τυχαία, δομική και παραμετρική. Έπειτα, σε πραγματικές υδρολογικές λεκάνες της Ελλάδας και της Κύπρου διεξάγονται συνολικά τέσσερις εφαρμογές του προτεινόμενου πλαισίου. Ειδικότερα, οι εφαρμογές γίνονται για τις λεκάνες Μουζάκι, Πύλη και Σαρακίνα του Πηνειού ποταμού, για τις λεκάνες Μεσοχώρα και Συκιά του Αχελώου ποταμού και για την λεκάνη της Γερμασόγειας στην Κύπρο. Η πρώτη εφαρμογή αφορά την σύγκριση της διαθέσιμης πληροφορίας που φέρουν τα επιφανειακά σταθμισμένα σετ δεδομένων, όπως προκύπτουν από διαφορετικές τεχνικές. Επιπλέον, με την μεγιστοποίηση της διαθέσιμης πληροφορίας προκύπτει μία νέα επιφανειακή κατανομή βαρών για κάθε βροχομετρικό σταθμό ανά λεκάνη. Για κάθε επιφανειακή κατανομή βροχόπτωσης, υπολογίζεται η απόδοση NSE όλων των επιλεγμένων υδρολογικών μοντέλων με σκοπό να ελεγχθεί η ύπαρξη σχέσης μεταξύ της διαθέσιμης πληροφορίας και της απόδοσης NSE. Η δεύτερη εφαρμογή εστιάζει στην εκτίμηση της αβεβαιότητας σε μηνιαία και ημερήσια αδρομερή και ημι-κατανεμημένα μοντέλα. Στις επιφανειακά σταθμισμένες χρονοσειρές βροχόπτωσης εισάγεται τυχαίο κανονικό σφάλμα επιλεγμένης τυπικής απόκλισης. Στην συνέχεια, για διαφορετικά μεγέθη τυχαίου σφάλματος, εκτιμάται η τυχαία, επιστημική, δομική και παραμετρική αβεβαιότητα στην προσομοίωση της απορροής με πέντε (5) μηνιαία αδρομερή, τρία (3) ημερήσια αδρομερή και δύο (2) ημερήσια ημι-κατανεμημένα μοντέλα. Έτσι διερευνάται η σχέση μεταξύ του μεγέθους των εισαγόμενων τυχαίων σφαλμάτων, των ποσοτήτων πληροφορίας και των συμβατικών κριτηρίων αξιολόγησης της απόδοσης των μοντέλων. Παράλληλα, χαράσσονται οι καμπύλες δεδομένων-ικανότητας των μηνιαίων αδρομερών μοντέλων και αξιολογείται το κατά πόσο η σύγκριση των καμπυλών οδηγεί σε ορθά συμπεράσματα για την σχετική απόδοση της δομής τους. Η τρίτη εφαρμογή εξετάζει την υπολογιστική ακρίβεια της ρουτίνας που εφαρμόζεται για την εκτίμηση της διαθέσιμης πληροφορίας των παρατηρημένων δεδομένων. Δύο εκδοχές αυτής της ρουτίνας έχουν αναπτυχθεί. Η πρώτη είναι απλούστερη και ταχύτερη καθώς βασίζεται στο να λάβει τον μέσο όρο των λύσεων από πλήθος αναλύσεων ανεξαρτήτων συνιστωσών. Στην δεύτερη ρουτίνα επιλέγεται η λύση της ανάλυσης ανεξαρτήτων συνιστωσών με την χαμηλότερη συνολική αμοιβαία πληροφορία μεταξύ των σημάτων της. Επομένως, έτσι παράγονται θεωρητικά ορθότερες εκτιμήσεις της διαθέσιμης πληροφορίας και μειώνεται η τυπική απόκλιση των εκτιμώμενων τιμών της ποσότητας αυτής. Εφαρμογή αυτών των δύο ρουτινών γίνεται στις λεκάνες του Πηνειού και Αχελώου ποταμού, και πράγματι συμπεραίνουμε πως η δεύτερη πιο σύνθετη ρουτίνα έχει υψηλότερη ακρίβεια στον υπολογισμό της διαθέσιμης πληροφορίας, αλλά απαιτεί υψηλότερο υπολογιστικό κόστος. Στην τέταρτη εφαρμογή παράγονται διαστήματα εμπιστοσύνης της προσομοιωμένης απορροής με την μέθοδο GLUE, εφαρμόζοντας το προτεινόμενο μέτρο πιθανοφάνειας βασισμένο στην πληροφοριακή παραμετρική αβεβαιότητα. Το προτεινόμενο μέτρο συγκρίνεται με τρία (3) άλλα συμβατικά μέτρα πιθανοφάνειας τα οποία χρησιμοποιούνται ως σημείο αναφοράς της απόδοσης του πρώτου. Αυτό επιτυγχάνεται καταμετρώντας τον αριθμό των χρονικών βημάτων στα οποία η παρατηρημένη απορροή εμπίπτει εντός του διαστήματος εμπιστοσύνης της προσομοιωμένης απορροής. Η εφαρμογή γίνεται σε μηνιαία και ημερήσια αδρομερή και ημι-κατανεμημένα μοντέλα. Καταλήγουμε στο συμπέρασμα πως το προτεινόμενο μέτρο είναι ισοδύναμο με τα παραδοσιακότερα μέτρα πιθανοφάνειας, απαιτώντας όμως λιγότερες αυθαίρετες παραδοχές. Έτσι μειώνει την υποκειμενικότητα λόγω των επιλογών του υδρολόγου κατά την ανάλυση της παραμετρικής αβεβαιότητας της προσομοιωμένης απορροής. Από τις προαναφερόμενες εφαρμογές οδηγούμαστε στο συμπέρασμα πως οι προτεινόμενες έννοιες καταφέρνουν σε μεγάλο βαθμό να αξιολογήσουν την ποιότητα πληροφορίας που φέρουν τα παρατηρημένα δεδομένα σε μία λεκάνη απορροής. Τα μοντέλα τείνουν να αποδώσουν καλύτερα όταν σε αυτά εισρέει περισσότερη πληροφορία, ενώ διαφαίνεται πως υπάρχει μία μη γραμμική σχέση μεταξύ των πληροφοριακών ποσοτήτων και των στατιστικών μέτρων απόδοσης ενός μοντέλου. Μάλιστα, οι καμπύλες δεδομένων–ικανότητας αποδεικνύονται ισχυρό εργαλείο για τη σύγκριση μοντέλων: επιτρέπουν τον εντοπισμό του απλούστερου μοντέλου που παρέχει επαρκή απόδοση για συγκεκριμένο επίπεδο διαθέσιμης πληροφορίας. Συνοψίζοντας, η διατριβή συμβάλλει στην κατανόηση και ποσοτικοποίηση της αβεβαιότητας στην υδρολογική προσομοίωση, προσφέροντας ένα μαθηματικά συνεκτικό πλαίσιο βασισμένο στη θεωρία πληροφορίας. Το πλαίσιο επιτρέπει τον διαχωρισμό των πηγών αβεβαιότητας, τη συγκριτική αξιολόγηση υδρολογικών μοντέλων και την αξιολόγηση της ποιότητας των παρατηρημένων δεδομένων, παρέχοντας κατευθύνσεις για μελλοντικές εξελίξεις στο πεδίο.
περισσότερα
Περίληψη σε άλλη γλώσσα
The disentanglement of the components of hydrological uncertainty and the reduction of their magnitude is considered by the hydrological community to be an unsolved problem of hydrology. In the present dissertation, this problem is examined using information theory in order to analyze hydrological uncertainty into its fundamental measurable components. This leads to the following research question, which this dissertation attempts to address: How can each component of hydrological uncertainty be mathematically equated with the lack of its corresponding information so that it becomes a measurable quantity? Thus, uncertainty is regarded as a gap in knowledge (information) within hydrological simulation, and depending on the position of this gap, different sources of uncertainty arise. The aleatory uncertainty of an observed dataset represents the difference between the available (useful) information in the set and the required information needed for runoff simulation with a selected leve ...
The disentanglement of the components of hydrological uncertainty and the reduction of their magnitude is considered by the hydrological community to be an unsolved problem of hydrology. In the present dissertation, this problem is examined using information theory in order to analyze hydrological uncertainty into its fundamental measurable components. This leads to the following research question, which this dissertation attempts to address: How can each component of hydrological uncertainty be mathematically equated with the lack of its corresponding information so that it becomes a measurable quantity? Thus, uncertainty is regarded as a gap in knowledge (information) within hydrological simulation, and depending on the position of this gap, different sources of uncertainty arise. The aleatory uncertainty of an observed dataset represents the difference between the available (useful) information in the set and the required information needed for runoff simulation with a selected level of accuracy. Correspondingly, the epistemic uncertainty of a simulation is defined as the difference between the available information and the information explained by the model. Therefore, computational techniques must be developed for the quantities of required, available, and explainable information, which are linear combinations of differential entropies of one, two, or multiple variables. In total, seven (7) computational routines-estimators of differential entropies were designed, whose operation is based on partitioning a domain into equiprobable one-dimensional or two-dimensional bins. In the case of multivariate differential entropies, independent component analysis is conducted so that the computational problem is reduced to estimating several one-dimensional differential entropies. Since the calculation of available information for an observed dataset displays computational instability due to the multiple independent component analyses involved, it must be stabilized. For this reason, the concept of model capacity was introduced, which corresponds to the minimum possible value of available information. At the same time, by minimizing the total mutual information shared by the generated one-dimensional signals of an independent component analysis, the quality of each analysis is assessed, and unsuitable solutions are discarded. Code implementing the above computational procedures was developed. Furthermore, a new theoretical framework was proposed, in which the epistemic uncertainty of a model is separated into its structural and parametric uncertainty. The concept of model capacity is involved here as well, since apart from constituting the lower bound of available information, it also expresses the maximum potential performance of the model. Based on this concept, the data-capacity curves are defined, enabling comparison of the structure of two models without performing calibration and validation. Concerning parametric uncertainty, it equals the reduction of information produced (explained) by a model when its parameters are set to a selected parameter set. Parametric uncertainty can thus be used to evaluate the parameter set resulting from calibration. Additionally, a new likelihood measure based on parametric uncertainty is developed for constructing confidence intervals of simulated runoff with the GLUE method. Therefore, it becomes clear that the proposed framework integrates elements of information theory with the calibration of hydrological models. Hence, fundamental principles of optimization, calibration, and genetic algorithms are developed in the body of the thesis. In particular, the basic operators that constitute a genetic algorithm are presented along with their variants. Concurrently, a simple elitist genetic algorithm is constructed, which will be used for model calibration and for searching for the parameter set that maximizes the explainable information of a model. Due to the extensive computational requirements, a computational code was developed that combines the optimization genetic algorithm with the hydrological models to be calibrated and with the algorithms for computing and diagnosing uncertainty. The proposed theoretical informational quantities are applied to synthetic and real hydrological basins, where they are compared with “conventional” evaluation measures to confirm the consistency of the former. In the synthetic basins, simple single-equation models with controlled structural error are applied. Moreover, the pseudo-observed data of the synthetic basins are generated from the normal or lognormal distribution, and controlled random error is introduced in them. It occurs that the informational quantities of available information and maximum capacity, when applied to these basins, are affected respectively only by random and structural error, in an intuitively expected manner. In contrast, traditional performance indices, such as Nash-Sutcliffe Efficiency and Kling-Gupta Efficiency, are affected by both structural and random errors, making them unsuitable for separating uncertainty into aleatory, structural, and parametric components. Next, four applications of the proposed framework are carried out in real hydrological basins in Greece and Cyprus. Specifically, applications are conducted for the Mouzaki, Pyli, and Sarakina basins of the Pinios River, for the Mesochora and Sykia basins of the Achelous River, and for the Yermasogia basin in Cyprus. In the first application, the values of available information contained in area-weighted datasets resulting from different techniques are compared. Furthermore, by maximizing the available information, for each basin, a new areal distribution of the weights of each rain gauge is derived. For each areal rainfall distribution, the NSE performance of all selected hydrological models is computed in order to examine the existence of a relationship between available information and NSE performance. The second application focuses on estimating uncertainty in monthly and daily lumped and semi-distributed models. Random normal error with a selected standard deviation is introduced into the area-weighted rainfall time series. Then, for different magnitudes of random error, aleatory, epistemic, structural, and parametric components of uncertainty are estimated in the runoff simulation using five (5) monthly lumped, three (3) daily lumped, and two (2) daily semi-distributed models. Thus, the relationship among the magnitude of introduced random errors, the informational quantities, and the conventional performance criteria of the models is investigated. At the same time, the data–capacity curves are plotted for the monthly lumped models and assessed to determine whether comparing these curves leads to correct conclusions regarding the relative performance of their structures. The third application examines the computational accuracy of the routine used to estimate the available information of observed data. Two versions of this routine have been developed. The first is simpler and faster because it takes the average of the solutions from multiple independent component analyses. In the second routine, the solution with the lowest total mutual information among the signals is selected. Thus, theoretically more accurate estimates of available information are produced, and the standard deviation of the estimated values is reduced. Application of these two routines to the Pinios and Achelous basins indeed leads to the conclusion that the second, more complex routine has higher accuracy in computing available information but requires a higher computational burden. In the fourth application, confidence intervals of simulated runoff are generated using the GLUE method, applying the proposed likelihood measure based on informational parametric uncertainty. The proposed measure is compared with three (3) other conventional likelihood measures used as benchmarks for evaluating its performance. This is achieved by counting the number of time steps for which the observed runoff falls within the confidence interval of the simulated runoff. The application is conducted for monthly and daily lumped and semi-distributed models. The conclusion is that the proposed measure is equivalent to more traditional likelihood measures while requiring fewer arbitrary assumptions. Thus, it reduces subjectivity stemming from the hydrologist’s choices during the analysis of parametric uncertainty in simulated runoff.From the aforementioned applications, we conclude that the proposed concepts succeed in evaluating the quality of information contained in observed data within a runoff basin. Models tend to perform better when more information flows into them, while it appears that a nonlinear relationship exists between informational quantities and statistical performance measures of a model. Moreover, data-capacity curves prove to be a powerful tool for model comparison: they allow identification of the simplest model that provides adequate performance for a given level of available information. In summary, the dissertation contributes to the understanding and quantification of uncertainty in hydrological simulation, offering a mathematically coherent framework based on information theory. The framework enables the disentanglement of uncertainty sources, the comparative evaluation of hydrological models, and the assessment of the quality of observed data, contributing to future developments in the field.
περισσότερα