Debian Server stürzt die ganze Zeit ab

Ausschnitt vom Fehler - (Hardware, Server, Linux)

4 Antworten

Vom Fragesteller als hilfreich ausgezeichnet

Hallo

Der Server stürzt wann er will ab, egal ob ich ihn Aktiv benutze oder ob er grade nichts macht.

Dann schau doch mal was die Logfiles dazu vermelden:

grep -Ei "error|fail|warn" /var/log/messages

oder

dmesg | egrep -i "error|fail|warn"

Linuxhase

Woher ich das weiß:eigene Erfahrung – Ich benutze seit 2007 Linux und habe LPIC101 und LPIC102
Willi2110 
Fragesteller
 08.03.2015, 09:34

Erstmal danke für die Antwort, bei "grep -Ei "error|fail|warn" /var/log/messages" kommen die Meldungen: http://pastebin.com/K30J5BMB Bei "dmesg | egrep -i "error|fail|warn" kommen diese Meldungen: Andere Antwort sonst ist diese Antwort als Spam markiert

0
deruser1973  08.03.2015, 10:58
@Willi2110

Ganz oben im Log steht was von einem SMART Fehler - das deutet auf einen Schaden auf der Festplatte hin. Wenn in die entsprechende Speicherzelle nicht mehr geschrieben werden kann,  hängt sich der Rechner auf...

0
Willi2110 
Fragesteller
 08.03.2015, 11:16
@deruser1973

Ok, ich habe nun mal eine Festplatte abgestöpselt und so wie es aussieht ist dann wohl die Systemplatte im Eimer, wenn der SMART Fehler auf einen Fehler der Festplatte deutet. Ich kann mal versuchen auf die andere Festplatte auch Debian raufzuspielen und dann gucken ob immernoch der SMART Fehler kommt.

0
Willi2110 
Fragesteller
 08.03.2015, 15:04
@Willi2110

Ich kann leider nicht Debian auf der anderen Festplatte installieren, dabei hängt sich der Server immer auf und macht garnichts mehr. Ich versuche das jetzt schon seit 3 Stunden und er hat sich immer aufgehangen.

0
Linuxhase  08.03.2015, 22:46
@Willi2110

Mar 1 20:29:21 debian kernel: [346057.123457] 3w-xxxx: scsi0: AEN: WARNING: SMART threshold exceeded: Port #0

Das ist ein Hinweis das es möglicherweise Probleme mit der Festplatte /dev/sda gibt. Ob dies tatsächlich die Ursache ist kann man nur testen indem man das Laufwerk selbst einer intensiven Prüfung unterzieht.

fsck -AR -y

Mar 7 10:22:57 debian kernel: [ 1856.434917] [] ? error_code+0x67/0x6c

Dazu habe ich das gefunden:

http://www.directorycomputing.net/ubuntu-error_code-0x670x6c.php

Keine Ahnung ob das damit zu tun hat, ich würde ja anders vorgehen:

Von einem Clienten aus auf den Server, per SSH zugreifen und folgendes ausführen:

tail -f /var/log/messages

Dann beobachten was ausgegeben wird im Falle eines "Absturzes"

Linuxhase

0
Linuxhase  08.03.2015, 22:49
@Willi2110

Ich kann leider nicht Debian auf der anderen Festplatte installieren, dabei hängt sich der Server immer auf.

Das wiederum könnte auch auf defekte RAM Bausteine hindeuten, aber genauso könnte es eine kaputte Partition sein, z.B. SWAP

Linuxhase

0
Willi2110 
Fragesteller
 09.03.2015, 09:29
@Linuxhase

Ok, ich habe den Server neuaufgesetzt bekommen, im RAID1, und bei "tail -f /var/log/messages" kommt: http://pastebin.com/L1euj01U aber nicht nur einmal, geschätzt war das jetzt 50 mal.

0
Willi2110 
Fragesteller
 09.03.2015, 09:36
@Willi2110

Und bei "fsck -AR -y" kommt nur

fsck from util-linux 2.20.1
0
Willi2110 
Fragesteller
 10.03.2015, 20:49
@Linuxhase

Mit

fsck -R -y /dev/sda

Würde es Funktionieren aber er gibt dann die Meldung

/dev/sda is in use.

e2fsck: Fortsetzung nicht möglich, breche ab.

Und dann wars das. Vielleicht weil dort das Betriebssystem drauf ist? Ansonsten könnte ich es morgen nochmal mit einem Live-System versuchen.

0
Linuxhase  10.03.2015, 21:38
@Willi2110

@Willi2110

/dev/sda is in use.

Man kann natürlich kein Dateisystem prüfen welches noch in Benutzung ist! Also hat man entweder ein Live-System von CD/DVD/USB oder ein System bei dem die zu prüfende Partition nicht benötigt wird.

Linuxhase

0
Willi2110 
Fragesteller
 11.03.2015, 12:59
@Linuxhase

Er ist jetzt fertig geworden, da steht 0 Ungültige Blöcke und 2853382 Blöcke werden benutzt (2,37%)

0
Linuxhase  11.03.2015, 20:29
@Willi2110

@Willi2110

Dann kann ich in diesen Logfiles nichts auffälliges erkennen. Um der Sache weiter auf den Grund zu gehen muß man weniger herausfiltern und auch andere Logfiles auswerten.

Noch besser aber wäre ein Live-Mitschnitt (nur eine Möglichkeit):

tail -f /var/log/messages

von einem anderen System aus über ssh auf dem Server laufen lassen.

Linuxhase

0
Linuxhase  13.03.2015, 20:37
@Willi2110

@Willi2110

Bei "tail -f /var/log/messages" kommt:

Das hast Du nun von einem anderen Computer aus, auf dem Server ausgeführt und es enthält die letzten Zeilen vor einem "Aufhängen"?


Jetzt wäre es gut zu wissen was:

pid 2996

 gewesen ist.

Mar 12 10:49:51 debian kernel: [57614.204128] e1000: eth3 NIC Link is Down

Mar 12 10:50:33 debian kernel: [57656.288131] e1000: eth3 NIC Link is Down

Hier ist Dein Netzwerkadapter gleich zweimal down innerhalb von nur 42 Sekunden. Ich habe keine Ahnung ob sich Dein Server dadurch wirklich aufgehängt hat oder nur die Netzwerkverbindung, aber da würde ich mal ansetzen indem die Netzwerkkarte getauscht, bzw. eine andere verwendet wird.

Auf was greift denn der Server zu (dauerhaft oder sporadisch), welche URL wird angesprochen?

Hast Du auch mal den Kernelparameter angewandt den Dir guenterhalt geraten hat?

Linuxhase

0
Willi2110 
Fragesteller
 13.03.2015, 21:48
@Linuxhase

Dass der Netzwerkadapter innerhalb von 42 Sekunden zweimal down war, das liegt daran das wir den Router neustarten mussten, aber eigentlich nur einmal... Und ich wüsste nicht auf was der Server zugreift ich hab da eigentlich nichts ausser "openssh-server" für die Verbindung von PC zu Server. Und "Apache2" das war aber schon vorinstalliert. Das mit dem Kernelparameter probiere ich dann gleich morgen.

0
Willi2110 
Fragesteller
 14.03.2015, 09:49
@Linuxhase

Ok, der Server läuft nun mit dem Kernelparameter.

0
Willi2110 
Fragesteller
 15.03.2015, 09:22
@Linuxhase

In der Nacht ist der Server abgestürzt ich weiß aber nicht warum, er hat aber schon wieder öfter als einmal gepiept.

0
Linuxhase  15.03.2015, 23:21
@Willi2110

@Willi2110

In der Nacht ist der Server abgestürzt ich weiß aber nicht warum, er hat aber schon wieder öfter als einmal gepiept.

Du hattest doch geschrieben das es mit dem acpi=off ginge?

er hat aber schon wieder öfter als einmal gepiept.

  • Beim Booten oder im laufenden Betrieb?
  • Hast Du mal versucht die BIOS Einstellungen zurückzusetzen?

Linuxhase

0
Willi2110 
Fragesteller
 18.03.2015, 14:32
@Linuxhase

Entschuldigung, da kam ein missverständnis auf. Mit Der Server Läuft nun mit dem Kernelparameter meinte ich, dass ich den Server mit dem Kernelparameter gestartet habe. Abgesehen davon hat der Server im laufenden Betrieb öfter gepiept und ist dann abgestürzt und am BIOS hab ich nichts verändert. Aber es scheint so, dass der Server sich nun gefangen hat und wieder läuft. Wenn er nochmal abstürzt melbe ich mich wieder. Und danke Linuxhase für die viele Hilfe!

0

Fahre den Rechner mal mit einem Linux-Live-System hoch, z.B. ein Knoppix.

Wenn das System so stabil bleibt, scheinen RAM, CPU, Mainboard in Ordnung.

Dann untersuche die Festplatte mit den Smart-Tool (eventuell schon vorhanden, sonst - mit dem Paket-Manager - installieren).

Alternative:

badblocks /dev/sda

Über den Umgang damit ließ die Ausgabe von

man badblocks


... und nimm dir viel Zeit. Mit den Parametern kannst du das Ganze etwas beschleunigen, wenn möglichst viel auf einmal gelesen wird.

Noch was wichtiges:

mit dem falschen Parameter wird die Platte gelöscht!

Woher ich das weiß:eigene Erfahrung – Intensive Beschäftigung hiermit seit etlichen Jahren
Willi2110 
Fragesteller
 08.03.2015, 15:30

Ich habe Parted Magic als Live-System gebootet bin in die Disk Health gegangen und da sind dann 4 gleiche Festplatten (ST3500320NS) 2 davon sind OK aber 2 davon sind Rot und da steht: "ALERT: The drive is reporting that it will FAIL very soon. Please back up as soon as possible!" Der Platz auf den Festplatten soll bei allen 500 GB groß sein, obwohl ich nur 2x 500 GB Festplatten eingebaut habe. Prozzessor und RAM auslastung bleiben stabil.

0
Willi2110 
Fragesteller
 08.03.2015, 15:36
@Willi2110

Da kam doch etwas später etwas er ist einfachso aus dem nichts abgestürzt.

0
GWBln  08.03.2015, 15:54
@Willi2110

Verstehe ich das richtig, daß der Absturz auch mit dem Live-System passierte?

0
GWBln  08.03.2015, 16:07
@Willi2110

Ich habe erst jetzt gesehen, daß du scheinbar ein Raid-System am Laufen hast! Was für eines ist das? Soft- oder Hardware (also mit speziellem Controller)?

Hast du das BIOS des MB zur Konfiguration des Raid benutzt oder die Debian-SW?

Mit 4 Platten könntest du ein Raid5 aufsetzen. Damit hättest du zwar nicht mehr Plattenplatz, aber eine höhere Sicherheit.

Laut Suchmaschine haben deine Platten eine Kapazität von jeweils 500GB ... im Raid1 oder Raid5 wäre die Gesamt-Kapazität auch nicht höher.

In deinem geposteten Log stand was von "degraded", was eine typische Fehlermeldung eines nicht synchronen Raid ist. Klar, daß dabei die CPU-Leistung hochschnellt ... insbesondere bei einem SW-Raid.

obwohl ich nur 2x 500 GB Festplatten eingebaut habe.

wie soll ich das verstehen? Sind doch nur 2 Platten angeschlossen?

0
Willi2110 
Fragesteller
 08.03.2015, 16:13
@GWBln

Ja, ich habe nur 2 Platten angeschlossen aber das Programm von Parted Magic zeigt 4 Platten an.

0
GWBln  08.03.2015, 16:17
@Willi2110

Parted Magic ist m.W. ein Linux-Programm ... und Linux ist es egal, ob die Platte im Bios angegeben ist oder nicht! Es werden *alle* Platten angesprochen!

Erst wenn das Daten-Kabel abgezogen ist, kennt auch Linux nicht mehr die Platte!

0
Willi2110 
Fragesteller
 08.03.2015, 16:21
@GWBln

Und ich habe ein Hardware RAID System am laufen allerdings habe ich nichts davon Konfiguiert.

0
GWBln  08.03.2015, 16:44
@Willi2110

Hardware-Raid: Bist du dir da sicher? Dann müßtest du eine extra Controller-Karte im System haben. an die alle Platten angeschlossen sind. Diese Karte dürfte sich auch mit ihrem Bios beim Systemstart melden.

Es gibt zwar MainBoards mit integriertem Raid, aber das dürfte auch nur ein SW-Raid sein ... mit dem Nachteil, daß eine einzelne Platte nur mit einem identischen MB wieder ansprechbar wäre!

Meines Wissens gibt es nur hochpreisige MB mit echtem HW-Raid, wenn überhaupt.

Aus diesem Grund habe ich 3 Platten z.Zt. in meinem Ubuntu als Raid1 laufen. Zwei davon in einem Wechsel-Rahmen (SATA).

Längerfristig will ich aber ein Raid5 aufsetzen.

$ cat /proc/mdstat Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]

 md0 : active raid1 sdf1[0] sde1[2] sdg1[1]

 488383865 blocks super 1.2 [3/3] [UUU]

 bitmap: 0/4 pages [0KB], 65536KB chunk

unused devices: <none>

Oben siehst du, daß bei mir ein SW-Raid läuft ... und die Platten synchron sind.

Für meinen Server habe ich mir eine Controller-Karte gekauft, aber noch nicht eingebaut.

Wie auch immer, beim Rechnerstart sollten entsprechende Meldungen kommen. Solange Linux noch nicht aktiv ist, können die Ausgaben mit der "Pause"-Taste angehalten werden.

0
Willi2110 
Fragesteller
 08.03.2015, 16:49
@GWBln

Ja, ich bin mir sicher das ich einen Hardware Raid habe. Ich habe auch eine Controller Karte eingebaut

0
Willi2110 
Fragesteller
 08.03.2015, 17:02
@GWBln

Und bei mir gibt es keine Datei wenn ich "cat /proc/mdstat" mache "/proc" gibt es noch aber dann mdstat nicht mehr.

0
GWBln  08.03.2015, 17:05
@Willi2110

Dann solltest du vorrangig das Bios der Karte zur Analyse der "Gesundheit" der Platten benutzen.

Die Platten am Raid-Controller sind m.W. unter Linux nicht getrennt sichtbar ... bestenfalls mit einem Management-Programm, daß mit der Controllerkarte geliefert wurde und das du installiert haben mußtest.

Wenn ein Live-System nur zwei Platten anzeigt: was kommt bei (in der Konsole)

fdisk -l

bei mir kommt

Gerät boot. Anfang Ende Blöcke Id System

dev/sde1 1 60801 488384001 fd Linux raid autodetect

das 3 Mal, für jede Platte und noch mal

Platte /dev/md0: 500.1 GByte, 500105077760 Byte

...

I/O size (minimum/optimal): 512 bytes / 512 bytes

...

Festplatte /dev/md0 enthält keine gültige Partitionstabelle

Ich vermute, du hast nur ein /dev/md0 (o.ä)?

0
GWBln  08.03.2015, 17:07
@Willi2110

klar, das gibt es nur im SW-Raid ...

was spuckt

blkid

aus

0
GWBln  08.03.2015, 17:23
@GWBln

habe es mir angesehen ... das sind 2 Platten mit jeweils 1 primären Partition (wohl System und User) und einer swap-Partition im erweiterten Bereich ...

Was bekommst du mit

hdparm -I /dev/sda

und natürlich mit sdb ...

0
Willi2110 
Fragesteller
 08.03.2015, 17:31
@GWBln

Ich bekomme bei beidem

HDIO_DRIVE_CMD(identify) failed: Invalid argument

0
GWBln  08.03.2015, 17:37
@Willi2110

Ja, ganz klar ... eine Platte ist nicht Synchron "degraded" was da zu tun ist, weiß ich nicht, sollte aber im Handbuch zu deiner Controller-Karte stehen.

Stutzig macht mich, daß da nur einen Platte aufgeführt ist! Wo ist die 2.?

Überprüfe mal die Daten-Kabel der Platten: sind wirklich alle 4 an der Controller-Karte? Ich vermute nein!

Zwei am MB (Linux meldet die als sad, sdb), die anderen sollten am Raid-Controller hängen ... stecken die richtig fest?

Offensichtlich hast du ein Raid1 (Spiegelung = Mirror). Wenn nur eine Platte noch aktiv ist, kann die u.U. auch als 'degraded' gemeldet werden ... oder ist es die, welche gerade nicht aktiv ist?

Die Platten synchron zu machen, ist ein Vorgang, der einige Stunden dauern kann. Aber das macht dann die SW der Controller-Karte ... die CPU bleibt außen vor ... jedenfalls nach meinem Wissensstand.

Macht mal, was vorgeschlagen wird, also "Alt-3"

Wenn du ein Live-System hochfährst, daß die SW der Raid-Karte nicht ansprechen kann. wirst du auch Probleme haben!

Zum Rechner-Start sollte zuerst eine Platte ohne Raid angesprochen werden ... erst später wird zum Raid-Verbund umgeschaltet.

Solltest du das System auf dem Raid-Verbund haben, wären Probleme nicht verwunderlich ... wegen der Datensicherheit sollte nur der User-Bereich dort liegen ...

0
GWBln  08.03.2015, 17:40
@Willi2110

der Befehl funktioniert bei einem Raid-Verbund nicht ... also scheinst du zwei zu haben?

wie ich im anderen Kommentar geschrieben habe, ist es nicht ratsam, direkt vom Raid-Verbund zu starten ...

0
Willi2110 
Fragesteller
 08.03.2015, 18:05
@GWBln

Ok, ich habe jetzt die möglichkeit einen Array aus den beiden Fesplatten zu machen, die Daten sind dann zwar weg, aber ich habe schon eine Sicherung auf meinem PC. Soll ich fortfahren? Dann muss ich, denke ich mal, Debian neuinstallieren, das ist aber kein Problem, solange der Server mitmacht.

0
GWBln  08.03.2015, 18:31
@Willi2110

Debian ist eigentlich bekannt dafür, ein sehr stabiles System zu sein. Zusätzlich gibt es gute Unterstützung für Raid-Systeme.

Optimal wäre, wenn es Linux-Treiber für deine Karte gibt. Die brauchst du wohl nur Wartungszwecke, also Platten deaktivieren/austauschen/aktivieren ...

Wenn der Hersteller was auf sich hält, hat er SW für Linux!

Ich würde 3 Platten zum Raid5 machen (User-Bereich) und die 4. als System-Platte. Für das System sind 500GB ja sogar zu viel, da würden 100GB dicke reichen (sofern du so eine noch bekommst). Die 4. dann als Reserve am Controller anmelden ... sie wird dann automatisch verwendet, wenn eine ausfällt.

Das kann man sukzessive machen, also erst mal eine Platte am Controller, die anderen als 'fehlend' eintragen. So ist der Verbund schon mal prinzipiell lauffähig und das System kann starten.

Scheinbar meldet der Controller den Verbund als eine Platte (was ja auch korrekt ist) ... wenn da nur der User-Bereich drauf ist, wird die - in der /etc/fstab - einfach /home/ zugeordnet ... mehr wäre eigentlich nicht zu tun, wenn das System nicht im Verbund liegt ...

Eine Neu-Installation wäre da wohl gar nicht nötig.

Durch das schrittweise Vorgehen könnte man auch die bereits erstellten Daten entsprechend verschieben. Knoppix könnte gut dafür geeignet sein ...

Nach und nach werden dann alle Platten integriert, was natürlich über die eingebundene SW im Linux-System komfortabler ist als im Bios.

0

starte deinen Server mit dem Kernel-Parameter

acpi=off

Woher ich das weiß:Berufserfahrung – openSuSE seit 1995

Für solche Vorfälle braucht man den Systemlog