Περίληψη
Στην παρούσα διδακτορική διατριβή παρουσιάζεται ένα ολοκληρωμένο μεθοδολογικό πλαίσιο για την ανάπτυξη ενός αποκεντρωμένου συστήματος διαχείρισης κυκλοφορίας, το οποίο περιλαμβάνει τόσο περιμετρικό έλεγχο βασισμένο σε μεθόδους μάθησης όσο και έλεγχο σηματοδότησης στο εσωτερικό της περιμέτρου. Το προτεινόμενο σύστημα ρυθμίζει τις εξωγενείς εισροές και/ή τις διαπεριφερειακές μετακινήσεις με σκοπό την αποφυγή υπερκορεσμού και τη μεγιστοποίηση της αποδοτικότητας των μετακινήσεων σε επίπεδο περιοχής, ενώ ο έλεγχος σηματοδότησης εσωτερικά της περιμέτρου συμβάλλει στην αύξηση της λειτουργικής ικανότητας του δικτύου και ομογενοποιεί την κυκλοφορία. Αρχικά, αναπτύσσεται ένα γενικό πλαίσιο αποκέντρωσης που αξιοποιεί πολυπρακτορική μιμητική μάθηση, με στόχο τη μεταφορά της συμπεριφοράς ενός κεντρικοποιημένου, χωρίς μοντέλο, εκπαιδευμένου με ενισχυτική μάθηση περιμετρικού ελεγκτή (ειδικός) σε αποκεντρωμένους πράκτορες που λειτουργούν σε διαφορετικά χωρικά επίπεδα, και πιο συγκεκριμένα σε επίπεδο π ...
Στην παρούσα διδακτορική διατριβή παρουσιάζεται ένα ολοκληρωμένο μεθοδολογικό πλαίσιο για την ανάπτυξη ενός αποκεντρωμένου συστήματος διαχείρισης κυκλοφορίας, το οποίο περιλαμβάνει τόσο περιμετρικό έλεγχο βασισμένο σε μεθόδους μάθησης όσο και έλεγχο σηματοδότησης στο εσωτερικό της περιμέτρου. Το προτεινόμενο σύστημα ρυθμίζει τις εξωγενείς εισροές και/ή τις διαπεριφερειακές μετακινήσεις με σκοπό την αποφυγή υπερκορεσμού και τη μεγιστοποίηση της αποδοτικότητας των μετακινήσεων σε επίπεδο περιοχής, ενώ ο έλεγχος σηματοδότησης εσωτερικά της περιμέτρου συμβάλλει στην αύξηση της λειτουργικής ικανότητας του δικτύου και ομογενοποιεί την κυκλοφορία. Αρχικά, αναπτύσσεται ένα γενικό πλαίσιο αποκέντρωσης που αξιοποιεί πολυπρακτορική μιμητική μάθηση, με στόχο τη μεταφορά της συμπεριφοράς ενός κεντρικοποιημένου, χωρίς μοντέλο, εκπαιδευμένου με ενισχυτική μάθηση περιμετρικού ελεγκτή (ειδικός) σε αποκεντρωμένους πράκτορες που λειτουργούν σε διαφορετικά χωρικά επίπεδα, και πιο συγκεκριμένα σε επίπεδο περιοχών, συνόρων και επιμέρους διασταυρώσεων. Για την επίτευξη υψηλής απόδοσης μίμησης στο πλέον λεπτομερές επίπεδο αποκέντρωσης, εισάγεται ένα επίπεδο επικοινωνίας με εκμάθηση, μέσω του οποίου οι πράκτορες σε επίπεδο διασταύρωσης ανταλλάσσουν συμπαγή μηνύματα προκειμένου να ανακτήσουν την χαμένη πληροφορία σε επίπεδο δικτύου. Παράλληλα, εξετάζονται τεχνικές αραίωσης της επικοινωνίας ώστε να περιοριστεί ο επικοινωνιακός φόρτος. Επιπλέον, προτείνεται ένα ολοκληρωμένο πλαίσιο ενσωμάτωσης του ελεγκτή Max Pressure (MP), ο οποίος εφαρμόζεται στις εσωτερικές σηματοδοτούμενες διασταυρώσεις, στον περιμετρικό έλεγχο με σκοπό την αξιολόγηση της συνδυαστικής επίδρασης των δύο επιπέδων ελέγχου. Κατά την διαδικασία ενσωμάτωσης λαμβάνει μέρος η μερική εφαρμογή του ελεγκτή MP, η οποία βασίζεται σε μία συγκεντρωτική λογική όσον αφορά τις διασταυρώσεις, με σκοπό τη βελτιστοποίηση της λειτουργίας του δικτύου. Μετά την ενσωμάτωση, μια ευρετική μέθοδος μειώνει περαιτέρω τον αριθμό των διασταυρώσεων που εξοπλίζονται με ελεγκτή MP, εντός συγκεκριμένου ορίου ανοχής όσον αφορά την αποδοτικότητα του δικτύου, με σκοπό την μείωση του κόστους υλοποίησης. Όλες οι προτεινόμενες μέθοδοι αξιολογήθηκαν σε μικροσκοπική προσομοίωση μεγάλης κλίμακας, η οποία αναπαριστά σημαντικά χαρακτηριστικά πραγματικών αστικών δικτύων, όπως σύνθετες τοπολογίες, ποικίλα πρότυπα ζήτησης και ρεαλιστική γεωμετρία διασταυρώσεων. Τα αποτελέσματα είναι ιδιαίτερα ενθαρρυντικά και αναδεικνύουν την αποτελεσματικότητα του συνδυασμού ενισχυτικής και μιμητικής μάθησης καθώς οι αποκεντρωμένοι περιμετρικοί ελεγκτές που προέκυψαν προσεγγίζουν στενά την απόδοση του κεντρικοποιημένου ειδικού παρότι λειτουργούν με περιορισμένη πληροφορία και χωρίς επικοινωνία, ενώ οι παραλλαγές όπου υπάρχει επικοινωνία ανάμεσα στους πράκτορες στο επίπεδο διασταύρωσης βελτιώνουν περαιτέρω το επίπεδο μίμησης και τον συντονισμό. Επιπλέον, η προτεινόμενη λογική ενσωμάτωσης έχει την καλύτερη συνολική απόδοση και καταδεικνύεται ότι διαφορετικές λογικές ενσωμάτωσης μπορούν να οδηγήσουν σε διακριτά πρότυπα συμπεριφοράς του περιμετρικού ελεγκτή. Τέλος, η στοχευμένη εφαρμογή του ελεγκτή MP υπερέχει της καθολικής, χρησιμοποιώντας μόνο ένα ποσοστό των διαθέσιμων διασταυρώσεων.
περισσότερα
Περίληψη σε άλλη γλώσσα
In this doctoral dissertation, a complete methodological framework is presented for developing a decentralized traffic management system incorporating both learning-based perimeter control and internal traffic signal control. The overall system is able to regulate exogenous inflows and/or interregional transfers to prevent over-saturation, maximizing regional travel efficiency, while internal traffic signal control supports this by increasing the network’s operational capacity and achieving traffic homogenization. First, a general decentralization framework is developed that uses multi-agent imitation learning to transfer the behavior of a model-free and centralized reinforcement learning-based perimeter controller to decentralized agents which operate at different spatial levels, i.e., regions, boundaries, and individual intersections. To achieve high imitation efficiency at the most granular form of decentralization, a learnable communication layer is introduced where intersection-le ...
In this doctoral dissertation, a complete methodological framework is presented for developing a decentralized traffic management system incorporating both learning-based perimeter control and internal traffic signal control. The overall system is able to regulate exogenous inflows and/or interregional transfers to prevent over-saturation, maximizing regional travel efficiency, while internal traffic signal control supports this by increasing the network’s operational capacity and achieving traffic homogenization. First, a general decentralization framework is developed that uses multi-agent imitation learning to transfer the behavior of a model-free and centralized reinforcement learning-based perimeter controller to decentralized agents which operate at different spatial levels, i.e., regions, boundaries, and individual intersections. To achieve high imitation efficiency at the most granular form of decentralization, a learnable communication layer is introduced where intersection-level agents communicate through compact messages in order to recover the global context that is lost under local observation. Also, communication sparsification is examined to relieve communication overhead. An integrated framework is introduced that couples perimeter control with Max Pressure (MP) control applied to the internal signalized intersections to assess the combined effect of the two control layers. A partial MP deployment is considered during integration following an aggregated-based logic accounting for optimality while post-integration, to account for the implementation costs, a simulation-based heuristic further reduces the number of intersections that are equipped with MP within a given tolerance. All proposed methods were tested in large-scale microsimulation environments that reflect many characteristics of real urban networks, including complex topologies and demand patterns, and realistic intersection layouts. The results are promising and highlight the efficiency of combining reinforcement and imitation learning as the retrieved decentralized perimeter controllers were able to closely match the performance of a fully centralized expert while operating with limited information and no communication, and communication-enhanced variants further improved imitation behavior and coordination at the intersection-level decentralization case. Moreover, our integration logic produced the best overall performance, and we show that different integration logics can lead to distinct behavioral patterns of the perimeter controller. Finally, targeted deployment can outperform full-scale implementation while using only a fraction of the available intersections.
περισσότερα