Welchen Nutzen hat es, Maschinensprache (Binärcode) lesen zu können?

Question

Welchen Nutzen hat es eigentlich, Maschinensprache (Bin&auml;rcode) lesen zu k&ouml;nnen? Hat man dadurch irgend einen Vorteil? W&uuml;rde das sowieso, niemals hinbekommen, interessiert mich aber.

TeeTier · Answer

Wie Roderic und einige andere schon angemerkt haben, vermischst du hier zwei Sachen - deshalb gehe ich jetzt nicht n&auml;her auf die Zahlendarstellung in Basis 2 ein, sondern komme gleich zum Maschinencode. :)
Normalerweise kann man kompilierte Programme disassemblieren und so in eine Art "Assembler-Quelltext" umwandeln. Diesen Quelltext kann man dann - gen&uuml;gend Erfahrung vorausgesetzt - auch lesen, analysieren, manipulieren und sogar komplett umschreiben.
Leuten mit Erfahrung reicht oft sogar der reine Hex-Dump ... mit anderen Worten, so jemandem reicht ein Hex-Editor (und vielleicht noch einige andere kleinere Tools), um die Funktionsweise eines Programms verstehen zu k&ouml;nnen.
Die Kunst, kompilierte Software (ausf&uuml;hrbare Formate wie EXE, ELF, usw.) oder Daten-Blobs (Firmware-Images, Memory-Dumps, etc.) analysieren zu k&ouml;nnen nennt man "Reverse Engineering" oder kurz "Reversing".
Es gibt oft den Fall, dass Firmen ihre Bibliotheken ver&ouml;ffentlichen, aber viele nicht-dokumentierte Funktionen (oder gar Hintert&uuml;ren) in eine Software einbauen. Wenn jetzt eine Drittfirma solch eine Bibliothek kauft, und genaue Informationen &uuml;ber die Funktionsweise, eine "erweiterte Headerdatei", oder Bindings f&uuml;r andere Sprachen haben m&ouml;chte, obwohl eine dynamische Bibliothek nur in kompilierter Bin&auml;rform ohne Debugging-Symbole vorliegt, beauftragen sie Leute wie mich, die dann helfen k&ouml;nnen.
Dar&uuml;ber hinaus werde ich oft damit beauftragt Malware zu untersuchen, oder Kopierschutzsysteme auf ihre Tauglichkeit hin zu untersuchen. Au&szlig;erdem kann man sich die eigene disassemblierte Software ansehen, und gucken, ob der Compiler alles richtig gemacht hat. Dieser letzte Punkt ist oft bei embedded Systemen wichtig, da die Compiler hier leider oft keine so gute Qualit&auml;t haben, wie auf gr&ouml;&szlig;eren Desktop-Plattformen.
F&uuml;r all das muss man nat&uuml;rlich verschiedene Assembler-Dialekte f&uuml;r diverse Plattformen beherrschen.
Zum &Uuml;ben w&uuml;rde ich mit Assembler f&uuml;r x86, x86-64 und ARM anfangen, die MSIL und Java Bytecode lesen lernen und auch mal bei Mikrocontrollern wie PICs und Atmels reinschnuppern. Danach in diversen Foren die Grundlagen des Reversings lernen, mir ein halbes Jahr Zeit nehmen um intensivst Spezifikationen, Datenbl&auml;tter, Dokumentationen, RFCs, etc. zu lesen, und danach an CrackMes &uuml;ben.
Irgendwann ist man dann auf einem Level angekommen, an dem man ...
E8XXXXXXXX 84C0 74XX BF01000000 E8XXXXXXXX
... liest, und das dann sofort im Kopf in folgenden C-Source &uuml;bersetzen kann:
if (foo()) {  exit(1);}
Dieses Muster existiert mindestens in &auml;hnlicher in nahezu JEDEM Programm. (Unbekannte Adressen habe ich jetzt mal durch eine Folge von X ersetzt.) Es wird einfach der R&uuml;ckgabewert einer Funktion &uuml;berpr&uuml;ft, und das Programm im Fehlerfall sofort beendet. Ist zwar schlechter Stil, aber - wie gesagt - das gibt es leider &ouml;fter als man denkt! :)
Wie du siehst reicht f&uuml;r so ein einfaches Beispiel tats&auml;chlich jeder primitive Hex-Editor und evtl. noch das Intel-Software-Developers-Manual f&uuml;r weniger erfahrene Reverser.
ARM Maschinencode ist &uuml;brigens noch viel leichter zu lesen als x86 oder x86-64 Code. Und MSIL bzw. Java-Class-Files sind noch mal eine Nummer leichter zu lesen. (Wobei "leicht" hier relativ ist, und in jedem Falle sehr viel Erfahrung voraussetzt!)
Also um deine Frage zu beantworten: Die F&auml;higkeit Maschinencode zu lesen erm&ouml;glicht die Analyse und das Verst&auml;ndnis von kompilierter oder gesch&uuml;tzter Software.
PS: Normalerweise muss man aber keinen Maschinencode (in Hex-Form) lesen k&ouml;nnen, da jeder Disassembler oder Debugger auch sehr gut lesbaren und sch&ouml;n formatierten Assembler-Code ausspuckt.
Ich wei&szlig; nicht, wie andere dar&uuml;ber denken, aber die Analyse ausschlie&szlig;lich im Hex-Editor ist mehr oder weniger Sport f&uuml;r mich. Ein Crackme kann jeder mit IDA knacken ... aber wenn man keinerleich weitere Tools, sondern nur ghex zur Verf&uuml;gung hat werden selbst einfachere Programme zur Herausforderung ... sinnvollerweise sollte man aber in realistischen Szenarien so viel Hilfe von so vielen Tools wie m&ouml;glich annehmen! Ich glaube, die Leute die Hex-Editor-Trocken&uuml;bungen machen, sind rar ges&auml;t, und oft kommt man damit wirklich nicht weiter. Aber unter Linux mal schnell nachgucken, was die Trojaner-EXE im Mailanhang so alles macht, ist damit wirklich sehr praktisch und sehr schnell m&ouml;glich ... vorausgesetzt es wird keine extravagante Obfuscation benutzt ... dann kommt man um einen Debugger nat&uuml;rlich nicht drum rum. :)

hypergerd · Answer

Die Erkennung der 16 und 32 Bit ASM Befehle war noch relativ einfach:

16 Bit: http://sparksandflames.com/files/x86InstructionChart.html

90     NOP (nichts tun)

40     INC ax (Register ax=ax+1)

00 0D  ADD al,dl (addiere Register dl zu al: al=al+dl)

DB E3   finit (Initialisierung der FPU=Coprozessor)

32 Bit:

einfach Hex-Byte 66 davor -> so konnte man schon mit dem alten Turbo Pascal 16 Bit der 386 CPU 32 Bit Befehle entlocken:

asm

db 066h;INC AX

end;

Daraus wurde also

66 40 INC eax (32 Bit Register eax = eax + 1)

Aber schon Anfang und Ende eines Befehls aus den Hex-Bytes zu erkennen, ist bei komplexeren Programmen sehr schwer und fehleranfällig!

Also wenn man schon vor einem Computer sitzt, kann man auch gleich mit der richtigen Software "Diassembler" (google mal danach und schalte auf "Bilder" um) den Hex-Code nach ASM wandeln siehe Bild.

Wozu:

- herausfinden, warum bei einer Software eine AMD-CPU trotz gleicher GHz und logischer Kerne etwa 3 mal langsamer als ein i7 von Intel ist  (weil die SSE2 Befehle beim i7 weniger Takte benötigen)

- herausfinden, was ein Virus anstellen will

- herausfinden, ob Teile der Software "abkopiert" wurden

- herausfinden, ob der Compiler gut optimiert, oder nur einfache 0815 Befehle verwendet

- herausfinden, ob Software auf einer alten CPU (ohne gewisse Befehlssätze) sauber laufen wird

- Fehlersuche

- "Verstecke" finden: in deaktiven Bereichen können versteckte Daten liegen

Franz1957 · Answer

Es geht bei Bin&auml;rcode nicht nur um Maschinensprache. Auch wenn man sich f&uuml;r die innere Arbeitsweise der CPU nicht interessiert, kommt man als professioneller Programmierer kaum darum herum, sich mit den Einsen und Nullen zu befassen.
Ohne die einzelnen Bits anzuschauen versteht man nicht wirklich, wie die verschiedenen Zahlenformate funktionieren (H&ouml;chster und niedrigster m&ouml;glicher Wert mit und ohne Vorzeichen, Mantisse, Exponent, Rundungsfehler). 
Ohne Kenntnis von Bin&auml;rcode versteht man kaum, wie die verschiedenen Codierungssysteme f&uuml;r Schriftzeichen funktionieren, wenn man &uuml;ber 7-Bit- ASCII hinausgeht und z.B. die Unterschiede z.B. zwischen den einzelnen ISO-8859-Zeichens&auml;tzen f&uuml;r Westeuropa, Mitteleuropa, Skandinavien usw. begreifen will, oder wie UTF-8 funktioniert und wie die typischen Fehler bei der UTF-8-Verarbeitung zustandekommen.
Schlie&szlig;lich bekommt man, ohne sich nicht mit einzelnen Bits zu befassen, auch weder einen Zugang zu den Kompressions- und Verschl&uuml;ssselungsverfahren noch versteht man Netzwerkprotokolle und Dateisysteme.

Roderic · Answer

Bin&auml;rcode (Bin&auml;rcodierung) und Maschinensprache (Assembler) ist NICHT dasselbe.
Das erste lernt jeder Mathe- oder Informatikstudent.
Letzteres erzeugt der Compiler und macht so aus den Quelltexten f&uuml;r den jeweiligen Prozessor ausf&uuml;hrbare Anweisungen.

perhp · Answer

Eigentlich nicht viel, da der Bin&auml;rcode sowieso umgesetzt wird ^^ Solange du jetzt nicht solche spezielle Software entwickelst, brauchst du das nicht.

Welchen Nutzen hat es, Maschinensprache (Binärcode) lesen zu können?

10 Antworten