Sinn von Primärschlüsseln bei DatenBanken

Question

Ich glaube, dass ich nicht wirklich begriffen habe, wof&uuml;r Prim&auml;rschl&uuml;sseln bei Datenbanken gebraucht werden. 
Prim&auml;rschl&uuml;sseln werden genutzt, um eine Zeile einer Datenbanktabelle eindeutig zu machen. Hierbei wird eine Spalte mit Werten die sich nicht wiederholen und nicht NULL sind h&auml;ufig als Primary Key verwendet oder das Datenbanksystem erzeugt sich intern eine solche Spalte. 
Nur: 
Wenn man eine Spalte hat, die von Natur aus eindeutige Werte besitzt, ben&ouml;tigt man doch keinen Primary Key daf&uuml;r? Man kann doch einfach &uuml;ber die Spalte joinen oder selecten oder habe ich etwas falsch verstanden?

Alextoexplain · Accepted Answer

Hello there,  
ich erkl&auml;rs dir gerne. Prim&auml;rschl&uuml;ssel haben mehrere Funktionen. Wie du schon erkannt hast, dienen sie insbesondere dazu, einen Datensatz eindeutig zu machen. Nun sagst du nat&uuml;rlich.....was ist denn, wenn ich einen Wert habe, der von Natur aus, eindeutig ist...? Ja, dann kannst du auch DEN als Prim&auml;rschl&uuml;ssel nehmen. Bis auf wenige Ausnahmen brauchst du in JEDER Datenbanktabelle einen Prim&auml;rschl&uuml;ssel. In der Regel ist das einfach eine ID, die hochz&auml;hlt, das hei&szlig;t jeder Eintrag hat eine Nummer von 1 bis n. Dies ist n&ouml;tig um die Integrit&auml;t der Daten und die Eindeutigkeit der Datens&auml;tze zu gew&auml;hrleisten. Wenn du aber einen nat&uuml;rlichen Prim&auml;rschl&uuml;ssel hast, kannst du den nat&uuml;rlich auch verwenden. Beispielsweise eine Personalausweisnummer, ein KFZ-Zeichen oder &auml;hnliches. Du hast auch die M&ouml;glichkeit, einen sogenannten zusammengesetzten Prim&auml;rschl&uuml;ssel zu verwenden, das hei&szlig;t du machst aus zwei oder mehr Spalten, von denen jede einzeln nicht zwingend eindeutig ist einen Prim&auml;rschl&uuml;ssel, bei denen die zwei Spalten zusammen ein jeweils eindeutiges Wertepaar generieren. Meinetwegen der genaue Zeitstempel des Eintrags in Kombination mit der Person, die den Eintrag erstellt hat. Eine Person kann ja gleichzeitig nicht mehrere Eintr&auml;ge hinzuf&uuml;gen, sondern nur nacheinander. 
Der n&auml;chste Sinn des Prim&auml;rschl&uuml;ssels, das wurde ja schon erw&auml;hnt ist die Indizierung von Eintr&auml;gen. Indizes sind dazu da, dass die Datenbank schneller durchsucht werden kann. Der Prim&auml;rschl&uuml;ssel ist automatisch ein Index, du kannst aber zus&auml;tzlich weitere Spalten zu Indizes machen. Du bekommst daf&uuml;r gerade in sehr gro&szlig;en Datenbanken die Suchanfragen deutlich schneller ausgef&uuml;hrt, weil du &uuml;ber Strukturen, sogenannte "B-B&auml;ume" die Informationen besser abspeichern kannst, das wird intern durchgef&uuml;hrt, bezahlen tust du diese Vorgehensweise mit deutlich mehr Festplattenspeicherbedarf. 
Der dritte und fast wichtigste Zweck von Prim&auml;rschl&uuml;sseln ist die Verkn&uuml;pfung von Tabellen. SQL-Datenbanken sind sogenannte Relationale Datenbanken, das hei&szlig;t die einzelnen Tabellen sind &uuml;ber Beziehungen (Relationen) miteinander verbunden. Dazu kannst du in einer Tabelle einen sogenannten Fremdschl&uuml;ssel deklarieren. Dieser Fremdschl&uuml;ssel ist immer ein Verweis (Referenz) auf einen Prim&auml;rschl&uuml;ssel in einer anderen Tabelle. Und deshalb sind Prim&auml;rschl&uuml;ssel auch notwendig, um in anderen Tabellen korrekt auf die Zieltabelle verweisen zu k&ouml;nnen. 
Einfaches Beispiel: Wenn du eine Schulklasse hast, dann hat die Klasse mehrere Sch&uuml;ler. Das hei&szlig;t wenn du eine Tabelle Klassen hast und eine Tabelle Sch&uuml;ler, dann h&auml;tte jeder Sch&uuml;ler einen Fremdschl&uuml;ssel "Klasse" und der w&uuml;rde auf den Prim&auml;rschl&uuml;ssel der Tabelle "Klasse" zeigen, so k&ouml;nnte jedem Sch&uuml;ler eindeutig seine Klasse zugewiesen werden. In der Tabelle Klasse k&ouml;nnten zus&auml;tzliche Informationen gespeichert werden, etwa der Name des Klassenleiters, der Fachzweig der Klasse und so weiter. All diese Informationen w&auml;ren dann auch den Sch&uuml;lern dieser Klasse &uuml;ber die Beziehung Tabelle Klasse -Tabelle Sch&uuml;ler zuordbar. 
Ein letzter Sinn, der ist aber nicht so sehr wichtig, ist die Kennzeichnung von sogenannten Ranges bei der Partitionierung von Tabellen. Wenn du sehr sehr gro&szlig;e Datenbanken hast, m&ouml;chtest du vielleicht die Tabellen strukturieren und vielleicht nicht immer die gesamte Tabelle durchsuchen, sondern immer nur einen bestimmten Teilbereich. Dazu kannst du Partitionen anlegen. Du kannst dann meinetwegen sagen: 
Partition 1: Eintr&auml;ge von 1 bis 25000 Parition 2: Eintr&auml;ge von 25001 bis 50000 .... 
Hoffe das beantwortet deine Frage ausf&uuml;hrlich genug. Ich w&uuml;rde mich &uuml;ber einen Stern freuen. 
MfG 
Alex

MRinus · Answer

Die erste Antwort ist doch schon super... 
Als professioneller Datenbankentwickler m&ouml;chte ich gern erg&auml;nzen, dass man besser wirklich immer einen k&uuml;nstlichen Primary Key erg&auml;nzt, auch wenn man schon eigentlich eindeutige Spalten hat. Es vereinfacht die Struktur (PK ist z.B. Immer die erste Spalte und hei&szlig;t auch immer gleich, z.B. Id) und kann sp&auml;ter zum Retter werden, wenn durch mehr Daten oder einem gew&uuml;nschten Update auf die 'eigentlich' eindeutige Spalte die Eindeutigkeit pl&ouml;tzlich verloren geht. 
Wenn man bis dahin auf den k&uuml;nstlichen PK verzichtet hat, w&auml;re es nach einer solchen Aktion Zeit, das Datenmodell und auch existierende Abfragen und Programmcode komplett umzubauen, da alle relational an besagte Tabelle angebundene Tabellen ge&auml;ndert werden m&uuml;ssten. Wenn man gleich mit k&uuml;nstlichen PKs arbeitet kann das nicht passieren. 
Ich hoffe das ist nachvollziehbar :-)

wotan38 · Answer

Auch wenn Deine &Uuml;berlegung manche vor den Kopf st&ouml;&szlig;t, so verkehrt ist sie nicht. Denn eine Verkn&uuml;pfung funktioniert grunds&auml;tzlich auch ohne Prim&auml;rschl&uuml;ssel und wenn die betreffende Spalte eindeutig ist, w&uuml;rde auch das richtige Ergebnis dabei rauskommen. Statt mittels Join k&ouml;nnte man auch mit WHERE verkn&uuml;pfen, was genauso gut geht. Nur: Wenn aus irgendeinem Grund die Eindutigkeit nicht mehr gegeben w&auml;re, k&auml;me was Falsches dabei raus ohne dass man es merkte. Mit einem Prim&auml;rschl&uuml;ssel kennt sich die Datenbank aus und hat volle Kontrolle &uuml;ber den Ablauf. Damit im Zusammenhang stehen auch die Fremdschl&uuml;ssel, mit denen man der Datenbank mitteilt, dass damit eine bestimmte Bedeutung verbunden ist, die es zu beachten gibt. Ohne Fremdschl&uuml;ssel w&uuml;sste die Datenbank das nicht und k&ouml;nnte den Ablauf zwar durchf&uuml;hren, aber eben unkontolliert.

silentwater79 · Answer

Wenn man eine Spalte hat, die von Natur aus eindeutige Werte besitzt, ben&ouml;tigt man doch keinen Primary Key daf&uuml;r?
 
Generell hast Du recht, wenn Du eine Spalte hast die von "Natur aus" eindeutige Werte besitzt, br&auml;uchtest Du theoretisch keinen Primary Key. Du kannst auch ohne weiteres Tabellen ohne Primary Key erstellen wenn Du lustig bist. 
Das Problem ist das Du dann selbst daf&uuml;r verantwortlich bist daf&uuml;r zu sorgen das Eintr&auml;ge nur einmal vorkommen. 
Wenn Du keinen Primary Key definierst wird dich Die Datenbank nicht warnen / keinen Fehler schmei&szlig;en wenn Du versuchst nochmals eine Zeile mit dem "von Dir selbst" verwalteten Primary Key einzuf&uuml;gen. 
Sagen wir Du hast eine Tabelle Bankkonten wo die Kontonummer ("von Natur aus eindeutig??") der Primary Key ist. Ein Bankkonto sollte nur einmal existieren. 
Du f&uuml;gst jetzt nochmals ein Bankkonto mit der selben Kontonummer ein. Wenn Du einen Primary Key hast und Du versuchst nochmals ein Bankkonto mit der selben Nummer aber eventuell einem anderen Besitzer und Betrag anzulegen, wird Dir die Datenbank sagen dass das nicht geht weil die Kontonummer schon existiert. Hast Du keinen Primary Key bei der Tabellendefinition festgelegt so kannst Du beliebig viele Eintr&auml;ge mit der selben Kontonummer anlegen, was nicht sein sollte, ohne das Dich die Datenbank warnt. 
Damit kannst Du je nach Daten ganz &uuml;ble Dateninkonsistenzen erzeugen. Von daher solltest Du auch die Sicherheitsmechanismen die Dir die Datenbank von haus aus bereitstellt auch nutzen. 
Weiterhin nimmt man normalerweise eindeutige Ids als Primary Key anstatt zusammengesetzen Primary Key, da man sich damit bei der Verkn&uuml;pfung mit anderen Tabellen &uuml;ber Foreign Keys leichter tut. 
Genau so kannst Du auch darauf verzichten bei der Tabellendefinition explizit Foreign Keys zu definieren. Hier hebelst Du aber auch wieder bestimmte pr&uuml;fmechanismen aus die Dir die Datenbank bereitstellt um Dateninkonsitenzen zu vermeiden die z.B. durch L&ouml;schvorg&auml;nge entstehen k&ouml;nnen. Weiterhin k&ouml;nnen dann einige Tools z.B. aus einer bestehenden Datenbank automatisch entsprechende Diagramme mit den Tabellenverkn&uuml;pfungen generieren was sehr hilfreich sein kann. Ohne die Foreign Keys ist dies nicht m&ouml;glich und Du musst Dir die Verkn&uuml;pfungen selbst irgendwie herleiten falls das eventuell durch entsprechende Namensgebung m&ouml;glich ist kann. Ohne diese kann das aber auch ein ziemlich hoffnungsloses unterfangen werden. 
Es ist guter Stiel Primary Keys und Foreign Keys zu definieren. Dadurch nutzt Du die Schutzmechanismen der Datenbank und erleichterst auch Deinen Kollegen die eventuell auch an der Datenbank arbeiten das Leben. 
Eine Datenbank dessen Daten Inkonsistent geworden sind wieder sauber zu bekommen ist h&auml;ufig ein schwieriges und undankbares unterfangen.

aitee · Answer

Das ist eine Sicherungsma&szlig;nahme. PKs sind ja keinme Pflicht bei den mir bekannten Datenbanksystemen. 
Nehmen wir an, du hast 5 verschiedene "Petra M&uuml;ler" in deiner Datenbank. Eine davon heiratet nun und &auml;ndert ihren Nachnahmen. 
Den Updatebefehl &uuml;ber den Namen einzuschr&auml;nken bringt dir hier wenig, dann h&auml;ttest du einen Update &uuml;ber 5 Zeilen. Deshalb hat jede Petra M&uuml;ller eine ID Spalte, die als PK festgelegt ist. Somit kannst du genau die eine Petra M&uuml;ller umbenennen, die auch wirklich umbenannt werden soll.

Sinn von Primärschlüsseln bei DatenBanken

8 Antworten