Resource allocation and quality management in geo-distributed workflows

Καθώς ο όγκος των δεδομένων που αποθηκεύονται σε γεω-κατανεμημένα κέντρα δεδομένων αυξάνεται και η ανάγκη για γρήγορη ανάλυσή τους παραμένει, η επιλογή να συγκεντρωθούν σε μια κεντρική τοποθεσία πριν από την επεξεργασία τους καθίσταται σημαντικά αναποτελεσματική. Ως εκ τούτου, προκύπτει η ανάγκη ανάλυσης των δεδομένων πιο κοντά στις πηγές τους. Έχουν γίνει πολυάριθμες ερευνητικές προσπάθειες για τον προσδιορισμό της βέλτιστης ανάθεσης μιας τέτοιας ανάλυσης, που συνήθως απεικονίζεται ως Κατευθυνόμενο Άκυκλο Γράφημα που αποτελείται από πολλαπλές εργασίες, με σκοπό τη βελτιστοποίηση μετρικών. Επιπρόσθετα, η εμφάνιση του Διαδικτύου των Πραγμάτων και του edge computing όπου πολλαπλοί αισθητήρες παράγουν τεράστιες ποσότητες δεδομένων που πρέπει να αναλυθούν σε πραγματικό χρόνο σε κοντινές συσκευές, αντί για το cloud, επιφέρει πρόσθετες προκλήσεις, όπως ετερογένεια υλικού και δικτύου, και περιορισμούς ασφαλείας. Ακόμη και μετά την εύρεση ενός βελτιστοποιημένου πλάνου ανάθεσης εργασιών, ο χρόνος εκτέλεσης μπορεί να παραμένει υψηλός λόγω του όγκου των δεδομένων που αναλύονται. Επομένως, υπάρχει ανάγκη για ανάπτυξη τεχνικών που μειώνουν αυτό το μέγεθος, ενώ παράλληλα λαμβάνουν υπόψη την ποιότητα του αποτελέσματος, μέσω της μέτρησης των διαφορετικών διαστάσεων της ποιότητας των δεδομένων, όπως η πληρότητα. Η παρούσα διατριβή στοχεύει να αντιμετωπίσει αυτές τις προκλήσεις. Αρχικά, προτείνεται μια δι-κτιρτηριακή λύση ανάθεσης εργασιών σε γεω-κατανεμημένους πόρους. Οι τεχνικές που αναπτύχθηκαν λαμβάνουν υπόψη την ετερογένεια των συνδέσεων δικτύου, επιτυγχάνοντας κατά μέσο όρο 44.31% μείωση στο συνολικό χρόνο εκτέλεσης και ταυτόχρονα 50.12% μείωση της κίνησης δεδομένων σε σύγκριση με μία προηγμένη λύση. Επιπρόσθετα, ένα πρωτότυπο στο Apache Spark αποδεικνύει τις αποτελεσματικότητα σε ένα πραγματικό περιβάλλον. Στην συνέχεια, προτείνονται τεχνικές για ένα edge περιβάλλον που λαμβάνουν υπόψη την ετερογένεια των συσκευών και των συνδέσεων δικτύου και τους περιορισμούς ιδιωτικότητας των δεδομένων ενώ εισάγουν και εργασίες επαλήθευσης ποιότητας των δεδομένων. Η αξιολόγηση των προτεινόμενων τεχνικών μέσω προσομοιώσεων δείχνει βελτιώσεις όσον αφορά μια μετρική που λαμβάνει υπόψη τον χρόνο εκτέλεσης και τον έλεγχο ποιότητας, έως και 2.56 φορές σε σύγκριση με λύσεις τελευταίας τεχνολογίας. Επιπλέον, η προτεινόμενη λύση μειώνει τον χρόνο εκτέλεσης έως και 8 φορές στο 86.9% των περιπτώσεων σε σύγκριση με τον βασικό δρομολογητή του Apache Storm. Επιπλέον, υλοποιήθηκε μια εμπειρική μελέτη σχετικά με τα οφέλη απόδοσης και επεκτασιμότητας που μπορούν να επιφέρουν τα συστήματα ανάλυσης μεγάλων δεδομένων στην αξιολόγηση της ποιότητας. Επιπλέον, το πρόβλημα της ταυτόχρονης βελτιστοποίησης πολλαπλών ροών αντιμετωπίζεται με την υλοποίηση τεχνικών που αποφασίζουν για την ανάθεση εργασιών σε edge συσκευές και αντισταθμίζουν την μείωση ποιότητας με τον χρόνο εκτέλεσης. Τα αποτελέσματα της αξιολόγησης στο Apache Storm δείχνουν μειώσεις του χρόνου εκτέλεσης έως και 6 φορές με μέση επιτάχυνση 2.76 φορές σε σύγκριση με τον προηγμένο δρομολογητή Resource-Aware. Οι τεχνικές μεταφέρονται επίσης σε ένα πρόβλημα μετακίνησης δεδομένων εισόδου που βελτιστοποιεί περαιτέρω τον χρόνο εκτέλεσης των εφαρμογών, έως και μια τάξη μεγέθους. Τέλος, παρουσιάζεται ένα όραμα για το μέλλον των τεχνικών ανάλυσης μεγάλων δεδομένων σε edge συσκευές, όπου επισημαίνονται τα εναπομείναντα άλυτα προβλήματα καθώς και οι νέες προκλήσεις που επιφέρει η ανάπτυξη ακόμη πιο υπολογιστικά απαιτητικών εφαρμογών, όπως η βαθιά μάθηση, και προτείνεται ένας τρόπος για την αντιμετώπισή τους αξιοποιώντας επίσης τα αποτελέσματα της συγκεκριμένης διατριβής.

περισσότερα

Περίληψη σε άλλη γλώσσα

As the amount of data being stored in geographically distributed data centers is growing and the need to analyze them in a fast manner remains, the option to aggregate them in a central location before processing them becomes significantly inefficient. Therefore, the need to analyze data closer to where they are produced arises. Numerous research efforts have been made to determine the optimal placement of such analysis, usually depicted as a Directed Acyclic Graph (DAG) consisting of multiple steps, to minimize various performance objectives. Additionally, the emergence of Internet of Things and edge computing paradigm where multiple sensors produce massive amounts of data that need to be analyzed in real-time using near-by devices, rather than the cloud, incurs extra challenges such as severe hardware and network heterogeneity, privacy and security constraints. Even after an optimized resource allocation plan is devised, the latency may still be high due to the amount of data being analyzed. Thus, there is a need for development of techniques that reduce this size while also account for the quality-of-result, through measuring the different dimensions of data quality, such as completeness. This thesis aims to address these challenges. First, a multi-objective resource allocation solution for geo-distributed analytics is proposed. The developed techniques take into consideration the heterogeneity of the network links, achieving an average 44.31% reduction of the total running time and at the same time a 50.12% reduction of traffic compared to the state-of- the-art solution. Moreover, a prototype on Apache Spark showcases the performance gains in a real-world scenario. Next, techniques for an edge computing environment that consider the heterogeneity of edge devices and network links, and privacy constraints while incorporating data quality verification tasks, are proposed. Evaluation of the proposed techniques through simulations shows improvements in terms of an objective function that considers latency and extent of quality checks, up to 2.56X compared to state-of-the-art solutions. In addition, the proposed solution reduces latency by up to 8X in 86.9% of cases compared to the default Apache Storm scheduler. Moreover, an empirical study on the performance and scalability benefits that big data frameworks can bring to data quality assessment is conducted. Additionally, the problem of jointly optimizing multiple DAGs is tackled though employing a technique that decides on task placements that efficiently utilize edge devices and finds optimal trade-offs between quality reduction and latency. Evaluation results in Apache Storm show reductions of latency up to 6X with an average speedup of 2.76X compared to the advanced Resource-Aware scheduler. The techniques are also transferred to a data replication problem that further optimizes the applications’ latency, by up to an order of magnitude. Finally, a vision for next-generation, edge-enabled, big data analytics solutions is provided, where the remaining open issues as well as the new challenges posed by the deployment of even more data-intensive applications such as deep learning, are highlighted and a road-map for addressing them is presented, capitalizing also on the results and outcome of this thesis.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (2.15 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/53516
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/53516
ND	53516
Εναλλακτικός τίτλος	Ανάθεση πόρων και διαχείριση ποιότητας σε γεω-κατανεμημένες ροές εργασίας
Συγγραφέας	Μιχαηλίδου, Άννα-Βαλεντίνη (Πατρώνυμο: Αστέριος)
Ημερομηνία	2023
Ίδρυμα	Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής. Εργαστήριο Τεχνολογίας και Επεξεργασίας Δεδομένων
Εξεταστική επιτροπή	Γούναρης Αναστάσιος Παπαδόπουλος Απόστολος Τσίχλας Κωνσταντίνος Κωνσταντίνου Ιωάννης Σιούτας Σπυρίδων Βακάλη Αθηνά Κατσαρός Παναγιώτης
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Επιστήμη ηλεκτρονικών υπολογιστών
Λέξεις-κλειδιά	Γεω-κατανεμημένη ανάλυση; Ροές εργασίας; Ανάθεση πόρων; Ποιότητα δεδομένων
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Η διασφάλιση της ποιότητας στη διδασκαλία και μάθηση: εφαρμογές στην πολυμορφική εξ αποστάσεως εκπαίδευση

Ο ρόλος του καθηγητή - συμβούλου και η ανάπτυξη μηχανισμού υποστήριξής του σε περιβάλλον συνεργατικής μάθησης στην εξ αποστάσεως εκπαίδευση

Προσαρμοστικό σύστημα αξιολόγησης ηλεκτρονικών υπηρεσιών: Eφαρμογή στην ηλεκτρονική διακυβέρνηση

Comparative analysis of Human Resources Management in the industrial and public sector in Greece

Implementing new public management reforms in Greece: benchmarking for best practices in the public sector

Περιφερειακή ανταγωνιστικότητα και πολιτικές ανάπτυξης της έρευνας, της τεχνολογίας και της καινοτομίας

Μετα - ευρεστικοί αλγόριθμοι βελτιστοποίησης και εφαρμογές σε προβλήματα συνδυαστικής βελτιστοποίησης

Μοντελοποίηση εθνικών συστημάτων καινοτομίας. Προσέγγιση με τη θεωρία της δυναμικής συστημάτων

Model-driven software architectural design based on software evolution modeling and simulation and design pattern analysis for design space exploration towards maintainability

Η ανάλυση των περιφερειακών συστημάτων καινοτομίας

"Resource allocation and quality management in geo-distributed workflows"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .