Frage von RotWeissBlau82, 32

Wie kann man mehr als 1 Million Dateneintraege filtern?

Hallo!

Ich habe 10 Excel Listen mit jeweils 1 Million numerischer Eintraege, also insgesamt 10 Millionen Nummern. Viele davon sind doppelt oder sogar dreifach gelistet und da man bei Excel leider immer nur 1 Million Zeilen auf einmal filtern kann (Duplikate loeschen), weiss ich nicht, wie ich das anstellen soll. Bitte helft mir.

Danke!

Expertenantwort
von Iamiam, Community-Experte für Excel, 18

Sortiere nach Nummern (vorher für jeden Datensatz eine Herkunftsbezeichnung einführen, am besten in 2 getrennten Spalten: zB Spalte A: Herkunftsdatei A..J,
(für den Qurellennachweis des Datensatzes) und Spalte B: Zeilennummer in der Herkunftsdatei. Danach könntest du im Bedarfsfall zurücksortieren.

Nun kopierst du von allen 10 Dateien das jeweils erste Nummern-Zehntel untereinander in eine neue Datei und sortierst den gesamten Bereich nach den Nummern. Jetzt legst du eine weitere Spalte an mit der Funktion(ab A2):

=A1*1  Ben-def-Format #.##0;[rot]-#.##0;[Farbe7]►

kopierst Du mit Doppelklick aufs Ausfüllkästchen runter. Alle Erstnennungen von gleichen Nummern zeigen jetzt das Magentafarbene ► (exemplarisch prüfen!), die kannst Du behalten, indem Du die Formel zu Wert umsetzt und erneut nach dieser Spalte sortierst, alle anderen dann die Zeilen gesammelt löscht.

Das 10 mal. Hinterher aneinanderhängen.

Aufpassen, dass Du bei der Wahl der zu vergleichenden Abschnitte die Grenze an der jeweils gleichen Nummer machst, also nicht nach der Zeilenzahl gehst, sonst könnten Dir etliche Vielfachnennungen übrig bleiben.

Da die Zeilenzahl in xl kritisch werden könnte, empfiehlt es sich ggf noch etwas kleinere Blöcke zu nehmen!

Expertenantwort
von Suboptimierer, Community-Experte für Excel, 32

Kannst du evtl. mit ZÄHLENWENN Doppler finden und auf die errechnete Spalte einen Filter setzen? Wäre so eine Idee. Es kann sein, dass Excel bei der Funktion ZÄHLENWENN und der Datenmenge aufgibt.


Sonst könntest du einen ODBC-Link auf die Exceldatei erstellen und per SQL versuchen, die Doppler zu finden, bzw. eine neue Datei ohne Doppler zu erstellen.


Allgemein könnte es sinnvoll sein, die Exceldateien in eine echte Datenbank zu importieren und von dort aus Auswertungen zu starten.

Antwort
von Ortogonn, 20

Entweder über ZÄHLENWENN markieren, wie dir Suboptimierer vorschlägt, oder wie hier vorgeschlagen

http://www.excelformeln.de/formeln.html?welcher=194

(die Variante ohne Matrixformeln nutzen aufgrund der Datenmenge)

Keine passende Antwort gefunden?

Fragen Sie die Community

Weitere Fragen mit Antworten