Fast and efficient predictions in big data systems

Την τελευταία δεκαετία, η έκρηξη στην παραγωγή δεδομένων από πηγές όπως τα social media, τα κινητά τηλέφωνα και τα δίκτυα αισθητήρων έχει ωθήσει την ανάπτυξη εφαρμογών που απαιτούν πολλά δεδομένα, συμπεριλαμβανομένων των συστημάτων συστάσεων και της πρόβλεψης κυκλοφοριακών μοτίβων. Αυτές οι εφαρμογές, που χειρίζονται δεδομένα σε κλίμακα GB ή TB, απαιτούν σημαντικούς υπολογιστικούς πόρους. Τα κατανεμημένα συστήματα επεξεργασίας μεγάλων δεδομένων όπως τα Apache Spark και Apache Flink είναι κρίσιμα στην επεξεργασία αυτών των τεράστιων όγκων δεδομένων. Ωστόσο, η βελτιστοποίηση αυτών των συστημάτων για αποτελεσματική λειτουργία των εφαρμογών και η ελαχιστοποίηση της κατανάλωσης ενέργειάς τους παρουσιάζει σημαντικές προκλήσεις. Σε αυτή την διατριβή αναπτύχθηκαν πρακτικές μεθοδολογίες για την αντιμετώπιση αυτών των προκλήσεων, εστιάζοντας στον αποδοτικό χρονοπρογραμματισμό (scheduling) εργασιών, στην ανάπτυξη μοντέλων πρόβλεψης υψηλής ακρίβειας, σε συστήματα ανίχνευσης συμβάντων και στην ενεργειακά αποδοτική χρήση πόρων.Η έρευνα αυτή περιλαμβάνει την εξέταση του τομέα του χρονοπρογραμματισμού πραγματικού χρόνου εργασιών σε κατανεμημένα συστήματα επεξεργασίας μεγάλων δεδομένων. Επικεντρώνεται επίσης στη δημιουργία ακριβών μοντέλων για την πρόβλεψη χρόνου εκτέλεσης εφαρμογών, λαμβάνοντας υπόψη τις πολυπλοκότητες όπως η ετερογένεια του περιβάλλοντος εκτέλεσης, οι παραμορφωμένες ενότητες δεδομένων και οι απαιτήσεις των εφαρμογών σε πραγματικό χρόνο, όπως ο χρόνος εκτέλεσης της εφαρμογής. Η προσέγγιση που ακολουθείται περιλαμβάνει την ανάπτυξη καινοτόμων αλγορίθμων χρονοπρογραμματισμού και ενός πρωτοποριακού συστήματος ανάλυσης (profiling). Επιπλέον, αντιμετωπίζει την πρόκληση του χρονοπρογραμματισμού εργασιών με έμφαση στην επίτευξη μετρικών απόδοσης ενώ ταυτόχρονα διαχειρίζονται συντηρητικά οι πόροι και η (ενεργειακή) κατανάλωση του συστήματος. Ένα άλλο σημαντικό επίτευγμα είναι η δημιουργία ενός συστήματος για την πρόβλεψη των μοτίβων κυκλοφορίας στην πόλη του Δουβλίνου, χρησιμοποιώντας τεχνικές Παραγοντοποίησης Πινάκων (Matrix Factorization) και εκμεταλλευόμενοι δεδομένα από αισθητήρες της πόλης. Τέλος, παρουσιάζεται ένα σύστημα που σχεδιάστηκε για την ταχεία και ακριβή παροχή συστάσεων και προβλέψεων στους χρήστες, εκμεταλλευόμενο δεδομένα από το Foursquare και χρησιμοποιώντας τεχνικές Παραγοντοποίησης Τανυστών (Tensor Factorization) για να προτείνει Σημεία Ενδιαφέροντος που προσαρμόζονται στις προτιμήσεις των χρηστών. Οι εμπειρικές αξιολογήσεις σε πραγματικά σύνολα δεδομένων αποδεικνύουν την αποτελεσματικότητα αυτών των μεθοδολογιών στη βελτίωση του χρονοπρογραμματισμού εργασιών, της πρόβλεψης της κυκλοφορίας και των συστημάτων συστάσεων, συμβάλλοντας σημαντικά στην προώθηση των δυνατοτήτων των διανεμημένων συστημάτων επεξεργασίας όπως το Apache Spark και το Apache Flink.

περισσότερα

Περίληψη σε άλλη γλώσσα

Over the past decade, there has been an exponential surge in the volume of data produced. This data originates from diverse sources, including large-scale applications such as popular social media platforms, and information-sensing devices like mobiles, software logs, cameras, microphones, and wireless sensor networks. This influx of data has fostered the development of applications designed to aid users in daily tasks, including recommendation systems (e.g., suggesting a movie or forecasting traffic patterns). Such applications often necessitate substantial computing resources due to memory-intensive operations, especially when handling data in the GB or TB scale. Distributed big data frameworks, such as Apache Spark and Apache Flink, have become essential for processing enormous volumes of data. While they offer scalable and low-latency data processing by distributing computation across multiple components, their full potential is often hindered by complex challenges, including the critical task of determining the appropriate amount of resources needed to run applications effectively. Another significant concern is reducing the considerable energy consumption of these large clusters. Addressing these challenges is crucial for leveraging the true capacity of big data frameworks. This thesis introduces practical methodologies to tackle these challenges, focusing on efficient job scheduling, accurate prediction models, event detection systems, and energy-efficient resource utilization. This thesis introduces practical methodologies to tackle these challenges: First, we investigate the intricate problem of scheduling real-time jobs on big data frameworks that utilize the MapReduce paradigm. Alongside this, we delve into creating accurate prediction models for gauging application execution time. Addressing the complexities of execution environment heterogeneity, skewed data blocks, real-time application demands, and limited profiling runs, we propose a set of scheduling algorithms and a pioneering profiling framework. Subsequently, we address the challenge of job scheduling with the aim of fulfilling performance metrics while simultaneously conserving cluster resources and energy. Then, We present a system that harnesses traffic data from Dublin city sensors. Using an advanced Matrix Factorization technique, this system is adept at predicting city-wide traffic patterns in real-time. Lastly, we detail a system aimed at delivering recommendations and predictions to users rapidly and accurately. A significant highlight is a system that leverages data from Foursquare, employing a Tensor Factorization technique to recommend Points of Interest based on users' preferences. Empirical evaluations on real-world datasets underscore the practicality and superiority of our proposed methodologies. These findings not only demonstrate our methods' efficiency in job scheduling, traffic prediction, and recommendation systems but also highlight their potential to significantly advance the capabilities of distributed processing systems such as Apache Spark and Apache Flink.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (5.62 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/55398
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/55398
ND	55398
Εναλλακτικός τίτλος	Fast and efficient predictions in big data systems
Συγγραφέας	Μαρούλης, Ευστάθιος (Πατρώνυμο: Ευάγγελος)
Ημερομηνία	2023
Ίδρυμα	Οικονομικό Πανεπιστήμιο Αθηνών. Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας. Τμήμα Πληροφορικής
Εξεταστική επιτροπή	Καλογεράκη Βασιλική Ξυλωμένος Γεώργιος Γουνόπουλος Δημήτριος Κωτίδης Ιωάννης Σταμούλης Γεώργιος Βούλγαρης Σπυρίδων Χατζηευθυμιάδης Ευστάθιος
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Επιστήμη ηλεκτρονικών υπολογιστών
Λέξεις-κλειδιά	Κατανεμημένα συστήματα; Συστήματα προτάσεων βάσει περιεχομένου; Ενεργειακά αποδοτικός χρονοπρογραμματισμός; Συστήματα ανίχνευσης συμβάντων
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

"Γρήγορες και αποτελεσματικές προβλέψεις σε κατανεμημένα συστήματα επεξεργασίας μεγάλων δεδομένων"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .