BigData - Milliarden Zeilen aus SQL Tables laden?

Anstatt direkt auf Stack-Overflow zu lümmeln möchte ich der deutschen Community mal ne Chance geben. In einem meiner Projekte geht es darum mehrere Millarden Zeilen an Relationalen Daten zu laden, lokal in einer DB zu speichern und dann in die Cloud zu laden.

Nein wir haben keinen Zugang zum Azure Backbone
Ja, traffic ist aktuell ein Problem aber nicht das Akute

Nun haben wir eine DB2 OnPrem und wir ich bisher in den Datagateways vorgegangen bin ist mit ORDER BY X OFFSET X FETCH FIRST X um die Datenmenge aufzuteilen und parallel abzuarbeiten.

Die o.g. Datenmenge von ein paar Milliarden setzen sich aus mehreren Tabellen zusammen, alle haben einen Primary Key. Jage ich nun eine Query mit Order-By über die Datenmenge, dauert das für 35k Datensätze ca. 2:15 Minuten.

Kurze Formel wegen dem Microbatching:

135 Sekunden * 256 (Microbratches) * 8 (Jobbatches) landen wir bei einer Ladezeit (READ ONLY) von ca. 76,8 Stunden.

Hat jemand von euch eine Idee, wie man das Problem angehend könnte?

Hier mein Lösungsansatz:

Temptable der Quelle errichten, da ich auf die Quelle KEIN Lock setzen kann
OrderBy weglassen und die physische reihenfolge des statischen Temptables als Faden für die Ingestion der Daten verwenden.

Mit dem Ansatz würde es nur ca. 12 * 256 * 8 Sekunden brauchen also 24.576 was durchaus akzeptabel wäre.

Für den Zukünftigen Real-Time Ansatz werden ohne hin in die Quellsysteme Events eingebaut, welche die eindeutige ID an die Gateways kommunizieren um die Daten in die Cloud zu transferieren. - Meiner Meinung nach der einzige Weg near-real-time in dieser Datenmenge zu realisieren (Gibts hier vielleicht alternative Vorschläge? - Ich kann ja nicht annehmen, dass jedes Quellsystem änderbar ist und ich möchte Insellösungen vermeiden)

Danke schonmal im Voraus :)

Grüße

1 Antwort

segler1968

27.07.2023, 04:39

Auch die deutsche Community tummelt sich bei Stackoverflow…

Ich verstehe noch nicht, was Du eigentlich willst. Willst Du eine gespiegelte Datenbank in der Cloud einrichten? Warum machst Du nicht einen simplen SQL-Dump? Warum nutzt Du nicht die DB2-Mechanismen zur Replikation?

Und warum machst Du ein Order by? Das dauert doch nur extra. Du schreibst, Du willst irgendwas parallel abarbeiten. Wozu? Komplette Spiegelung in nicht-Echtzeit -> SQL-Dump. Komplette Spiegelung in Echtzeit -> Replikationsmechanismen nutzen, dafür sind sie ja da.

Vergiss den Unsinn mit Events. Das können die SQL-Server selber. Hier für DB2: https://www.ibm.com/docs/en/db2/11.5?topic=options-replication-tools-by-component

HardPro

Fragesteller

27.07.2023, 05:05

Danke für den Tipp mit dem Dump, hast du hier Erfahrungen wenn es um Milliarden von rows geht?

orderby wird gemacht um die Reihenfolge pro batch zu sichern, da diese sich von SQL zu SQL Statement ändern könnte, habe hier schon an ein InBetween bei der ID gedacht.

das mit der Spiegelung über IBM bzw. mit den Replikationen ist so nicht gewünscht, es soll ein eigenes Tool sein, welches als Microservice skalierbar ist.

segler1968

27.07.2023, 05:37

@HardPro

Ein Dump ist genau dazu da, effizient die Daten abzuziehen. Und der geht so schnell wie möglich auch für beliebige Datenmengen.

Die Reihenfolge der Ergebnisse ändert sich nicht zufällig, sondern ist deterministisch. Solange Du das gleiche Select machst, wird sich in der Reihenfolge nichts ändern - wenn zwischenzeitlich keine Schreibvorgänge erfolgten. Aber daran würde Dein bisheriger Ansatz ja eh scheitern. Jedenfalls: Wenn Du ein Order By machst, dann natürlich nur auf ein Feld mit einem Index.

Die Spiegelungsmechanismen nicht zu verwenden, ist dumm und ineffizient. Die sind ja dafür optimiert und getestet. Aber wenn es unbedingt sein muss: Mache das nicht innerhalb des SQLs mit Events, sondern nutze das Transaction-Log des SQLs und arbeite die mit einem Microservice ab. Leider speichert das DB2 nur in einem Binärformat und dann ist dieser Weg etwas aufwändiger. Dafür bist Du dann nicht mehr auf die Performance des SQLs angewiesen und kannst das in einer eigenen VM machen. Aber es gibt auch Software von Drittanbietern, die das Transaction Log auswerten.

Wer auch immer bei Euch die Nutzung der Replikationsmechanismen nicht wünscht, sitzt auf dem falschen Posten. Es geht doch hier sicherlich um eine Produktivumgebung und nicht um eine Azubi-Spielwiese?

HardPro

Fragesteller

27.07.2023, 12:51

@segler1968

@segler1968 Hab mir das mal angeschaut, werde das Ganze mal benchmarken.

Die Reihenfolge der Ergebnismenge kann sich tatsächlich zwischen SELECTS ändern, da sich auch die Query in sich ändert (OFFSET etc.) Ist aber eh egal, wenn das über Dumps wirklich so zu realisieren ist... Sich hier also alleine auf die physikalische Reihenfolge zu verlassen ist keine Möglichkeit

So eine Entscheidung als Dumm zu betiteln halte ich für sehr mutig... Es hat durchaus valide und nachvollziehbare Gründe, warum unser Architekt das nicht möchte. - Das hier zu erläutern würde unnötig Zeit rauben, es ist wie es ist und so wird es gemacht, also ohne Spiegelungsmechaniken. Das near-real-time gedudel habe ich über das Backup-Logging der Datenbank realisiert.

Es geht um eine Produktivumgebung.

segler1968

27.07.2023, 14:33

@HardPro

ja, war etwas mutig formuliert. Und Adressat war eher die Community und nicht der Architekt :-)

Hallo!

Ich überlege mir eine neue Cloud (pcloud) zu nehmen. Diese hat eine 256-bit-AES Verschlüsselung. Ist das eine solide Verschlüsselung? So kritisch sind die Daten auch wieder nicht, aber Schutz sollte es schon bieten. Alternativ könnte man noch zusätzlich mit Encrypto verschlüsseln https://www.pcloud.com/de/encrypted-cloud-storage.html

...zur Frage

Mega cloud Daten nur online speichern?

Moin,

ich hab mir kürzlich die Mega Cloud zugelegt und das dazu passende Mac-Programm Megasync. Dadurch ist es zwar super easy, Dateien, Ordner, etc. in die Cloud zu laden, nur sind die Daten logischerweise immer noch zusätzlich offline auf meinem Mac gespeichert.

Ich würde die Cloud aber lieber als zweite Festplatte nutzen (bisschen Speicherplatz Probleme ^^) und alles nur online speichern. Daher die Frage, ob es...

a) eine Möglichkeit gibt, dass Megasync nur hochläd und die Daten dann lokal löscht, ergo sie nur noch online sind

oder

b) eine zuverlässige, sichere Möglichkeit gibt (außer cloudmounter), die Mega Cloud als Netzwerk Festplatte anzuzeigen?

...zur Frage

SQL Abfrage Durchschnitt?

Aufgabenstellung:

Geben Sie eine Tabelle an, die je Artikel den Unterschied zwischen seinem Preis und dem Durchschnittspreis aller Artikel angibt. Sortieren Sie nach Preis aufsteigend.

Datenbank siehe https://www.w3schools.com/sql/default.asp.

Mein bisheriger Ansatz sieht so aus:

SELECT ProductID, ProductName, AVG(Price), Price, (AVG(Price)-Price) as Differenz

FROM Products order by Price asc

Wir sind hier wirklich noch bei den Basics aber ich bekomme es zum verrecken nicht hin mir den Durchschnittspreis aller Artikel für jeden Artikel in jeder Zeile anzeigen zu lassen.

Wenn ich die Abfrage so eingebe werden mir lediglich alle relevanten Daten für die 1. Zeile also den 1. Artikel angezeigt, die restlichen Artikel aber nicht.

Kann hier jemand helfen?

Alternativ könnte man hier auch mit Create Table arbeiten, so funktioniert es auch mit einem JOIN , soll aber in diesem Fall nicht so umgesetzt werden und mit einem einfachen SELECT möglich sein?!

...zur Frage

Kann mir jemand in SQL helfen?

Folgende Tabellen:

Aktuell stehe ich bei den beiden Aufgaben an:
10) Pro Kursleiter soll der durchschnittliche Erlös und der maximale Preis ermittelt werden
SELECT k.LEITER AS LEITER, AVG(k.PREIS) AS MITTEL, MAX(k.PREIS) AS MAXIMAL FROM Kurs k
INNER JOIN Teilnahme t ON k.KURSNR = t.KURSNR
GROUP BY k.LEITER

11) Liste der Aufbaukurse die selbst Voraussetzung für andere Kurse sind. (Aufbaukurse setzen andere Kurse voraus
SELECT BEZEICHNUNG
FROM Kurs
WHERE VORAUSGESETZTER_KURS IS NOT NULL
AND KURSNR NOT IN (SELECT VORAUSGESETZTER_KURS FROM Kurs)

Weiß jemand die richtigen SQL Queries dazu?

...zur Frage

Sql wie kann ich mehrere Datensätze zu einem zusammenfassen?

Hallo, ich möchte gerne aus 4 Tabellen mit undershciedlicher Spaltenanzahl und benennung alle Werte bekommen und zu einem "return" wert zusammenfassen.

set @_var := 'select * from `_users` where _uuid="fd6fdbd3-610e-4fca-a02b"';
(select * from `_users` where _uuid="fd6fdbd3-610e-4fca-a02b")
union ALL
(select * from `_questuserdata` where _id=@_var._id)
union all
(select * from `_activequests` where _userid=@_var._id)
union all
(select * from `_completedquests` where _userid=@_var._id);

ist mein bisheriger Versuch, jedoch klappt das mit union nicht. Wie kann ich das anderweitig möglich machen?

...zur Frage

Daten auf einen anderen Pc übertragen über Internet?

Hallo ich suche ein programm mit dem ich große Datenmengen auf einen Pc übertragen kann der in einer anderen Stadt steht. Natürlich könnte man alles in irgend eine cloud hochladen und wieder runterladen aber gibt es einen weg mit dem ich die Daten direkt auf den anderen Pc laden kann?

...zur Frage

Windows 10/11: Dateipfad/-name angeblich zu lang?

Hallo, ich habe seit einigen Tagen Probleme mit meiner Cloud.

Ordner, deren Bezeichnung definitiv NICHT die maximale Länge von 256 Zeichen erreichen (z.B. nur 8 Zeichen beinhalten: "Ausgaben"), werden trotzdem nicht synchronisiert mit der Begründung:

"zu langer Verzeichnisname"

Nun war meine Idee, da ich das in ähnlichem Zusammenhang schonmal getan habe, die Daten lokal zu sichern, die Cloud zu löschen, dann erneut zu installieren und (hoffentlich) dann die verlorenen Daten einfach nachträglich zu synchronisieren.

Nun jedoch die Feststellung, dass das Problem offenbar nicht an der Cloud liegt, da selbst beim kopieren der Daten auf eine lokale Ablagefläche die Meldung erscheint:

"Zielpfad ist zu lang ..."

Erneute Problematik: Dateiname ist definitiv nicht zu lang.

Also was soll ich nun mit jenen Ordnern unternehmen, die angeblich für Windows als zu lang gelten?

Vielen Dank! ;)

...zur Frage

Frage zu ICloud Drive - Macbook neu aufsetzen?

Hallo,

Ich will mein MacBook neu aufsetzen. Da ich viele Daten oben habe, habe ich mir für einen Monat die Speichererweiterung des ICloud Drive Services geholt.

Nun lade ich gerade alle Daten in die iCloud hoch.

wenn ich mich danach von iCloud abmelde, das MacBook formatiere und anschließend wieder in der Cloud anmelde, sollte ich Zugriff auf alle meine Daten in der Cloud haben und diese wieder auf das MacBook runter laden können, oder???

geht so nichts verloren?

...zur Frage

Ist Google Drive oder iCloud sicherer/besser?

Ich würde auf Google Drive tippen, da sie mit dem starken AES-256 verschlüsselt wird(https://www.businessinsider.com/is-google-drive-secure). Das bedeutet, dass Google den Inhalt theoretisch nicht sehen kann.

Apple besitzt den Zugangsschlüssel. Also könnte Apple in die Cloud schauen (https://www.pctipp.ch/news/cloud/wie-sicher-sind-daten-in-der-icloud-1951336.html).

Korrigiert mich bitte, wenn ich etwas falsch verstanden habe.

Was meint ihr dazu?

...zur Frage

Primärschlüssel und Fremdschlüssel korrekt einfügen?

Wie kann ich im SSMS einen PK und FK korrekt einfügen? Kann ich das mit einem einfachen INSERT INTO-Befehl machen? Vielen Dank im Voraus!

...zur Frage

Sql abfragen?

,,Zu welchen Themen finden sich in der Ausgabennummer 03/2013 der Zeitschrift Radeln Xtrem Tests?

wie geht die abfrage dazu

...zur Frage

Frage für Informatiker: Thema für Hausarbeit aus dem Bereich Datenbanken vorschlagen? Ideen?

Ich darf mir ein Thema aussuchen worüber ich eine 10-15 seitige Hausarbeit schreibe im Bereich Datenbanken im Studium.
Ich tu es mir extrem schwer da ein Thema zu finden, wir haben die komplette freie Wahl, doch ich weiß einfach nicht worüber ich schreiben soll. Es muss irgendwas im Bereich Datenbanken sein.
Habt ihr da Vorschläge oder Ideen? Ich wäre euch sehr dankbar 🙏🙏

...zur Frage

SQL-Abfrage?

Ich lerne gerade für die Datenbanken-Klausur und muss die SQL-Abfragen können.

Bei der Aufgabenteil d) habe ich es gelöst bin mir aber nicht sicher ob es stimmt, könnt ihr mir sagen ob es richtig ist?

d) Select Movie.Movie_Title, Count(employed.Member_Name)AS Anzahl
From Movie Join employed
ON Movie.Movie_Title = employed.Movie_Title
Group By Movie.Movie_Title
Order By Anzahl DESC;

Und bei der e) und f) komme ich nicht weiter.. wie löst man so eine Abfrage?

Hoffentlich könnt ihr mir helfen..

...zur Frage

Kann mir jemand ANSI im Zusammenhang mit SQL genau erklären?

Der Lehrer meinte, das ist eine Stadt, damit Geräte Übereinader zugreifen können. Aber ich möchte es genau wissen :(

genau mir jemand das erklären?

...zur Frage

Was möchtest Du wissen?

Deine Frage stellen