Profil von databraineo

20.05.2019, 17:36

Wie fasse ich in R Merkmalsausprägungen zu einer Gruppe zusammen?

Ich habe einen Datensatz in dem ich die Variable (Spalte) day gegeben habe. In den Zeilen habe ich dann verschiedene Ausprägungen, wie z.B. Donnerstag, Freitag, Samstag und Sonntag.

Gerne würde ich aus den vier Ausprägungen nun nur noch zwei machen

Aus Donnerstag und Freitag soll, Wochenentage werden und aus Samstag und Sonntag dementsprechend Wochenende.

Wie schaffe ich das in R, welche Befehle benötige ich dafür?

...zum Beitrag

Antwort

von databraineo

26.05.2019, 10:56

Hallo Sabrina,

ich würde eine neue Spalte machen, welche das neue Merkmal enthält. Die Berechnung kannst Du mit dem Befehl %in% machen, welcher überprüft, ob ein Wert in einem Vektor vorkommt.

Meiner Meinung nach ist eine boolsche Variable für Wochenende am einfachsten (TRUE = Wochenende, FALSE = Werktag). Also wenn df dein Datensatz ist, machst Du folgendes:

df$day2 <- df$day %in% c("Samstag","Sonntag")

alternativ, wenn Du

df$day2 <- ifelse(df$day %in% c("Samstag","Sonntag"), "Wochenende", "Werktag")

Ich hoffe, ich konnte Dir weiterhelfen.

Viele Grüße,

Holger

...zur Antwort

xXMiriiX

05.02.2019, 16:30

Data Science: Warum will man overfitting vermeiden?

...zum Beitrag

Antwort

von databraineo

06.02.2019, 18:49

Die meisten Statistik/Maschinelle-Lernen-Algorithmen optimieren ihr Modell so, dass eine Fehlerfunktion (loss function) auf dem Trainingsdatensatz möglichst klein wird.

Damit wird ein komplizierteres Modell einem einfacheren vorgezogen, auch wenn die Verbesserung (also die Verkleinerung der Fehlerfunktion) nur minimal ausfällt.

Zum Beispiel kannst Du durch 2 Punkte eine Gerade (ein Polynom vom Grad 1) ziehen. Bei drei (beliebigen) Punkten geht das schon nicht mehr. Jetzt könnte der Algorithmus auf die Idee kommen, dann einfach eine Parabel (also ein Polynom vom Grad 2) zu verwenden, dann geht es wieder exakt. Bei 4 Punkten ein Polynom vom Grad 3 usw.

Aber vielleicht ist der Zusammenhang in Wirklichkeit ein linearer und dass die Punkte nicht auf einer Geraden liegen, liegt an der Messungenauigkeit.

Man muss also stets hinterfragen, ob das gewählte Modell nicht schon zu komplex ist. Daher teilt man einen Datensatz normalerweise in einen Trainingsdatensatz und einen Testdatensatz auf. Das Modell wird an den Trainingsdatensatz angepasst und dann beim Testdatensatz geprüft, ob es dort ebenfalls gut abschneidet.

...zur Antwort

MinecraftLOLOL

20.10.2018, 09:59

Suche ein Python Data Science Buch?

Hey,

Ich suche ein Data Science Buch für Anfänger mit der Sprache Python. Es sollte am besten sehr umfangreich sein, der Preis ist egal. Ich freue mich über jede Empfehlung.

...zum Beitrag

Antwort

von databraineo

03.02.2019, 12:07

Hallo MinecraftLOLOL,

es kommt ein bisschen darauf an, welche Vorkenntnisse Du hast. Hast Du schon Programmiererfahrung (in einer anderen Sprache)? Bist Du fit in Statistik?

Also wenn Du die Grundlagen lernen willst, wie man in Python mit Daten umgeht, ist das Buch "Datenanalyse mit Python" ganz gut. Ich habe vor kurzem in meinem Data Science Blog eine Rezension dazu geschrieben. Es ist eher IT-lastig, d.h. mehr auf die Anwendung der Bibliotheken pandas und numpy ausgelegt.

Viele Grüße,

Holger

...zur Antwort

BudenTV

05.01.2019, 14:18

Python sortieren von Objekten. Ist es möglich die Klammern zu entfernen?

Hallo, ich würde gern bei der Lösung, die bei der Sortierung von dem unten angegeben Skript herauskommt, die Klammern und Entfernen.

# Sortierung
def custom_sort(t):
    return t[1]
L = [("Äpfel", 6),
     ("Bananen", 3),
     ("Birnen", 10)
 ]

L.sort(key=lambda x: x[1], reverse=True)

Das Ergebnis:

[('Birnen', '10'), ('Äpfel', '6'), ('Bananen', '3')]

Würde gerne bei dem oben Angegebenen Ergebnis die Eckigen Klammern [ ] und die Striche ' ' entfernen, wie geht das.

Ist es möglich das Ergebnis ohne Striche und Klammern auszugeben

...zum Beitrag

Antwort

von databraineo

05.01.2019, 14:44

Hallo,

die eckigen Klammern signalisieren, dass es sich bei L um eine Liste handelt. Genauer gesagt hast Du ja eine Liste von Tupeln.

Wenn Du zuerst die Liste entpackst (also in einen String umwandelst), kommst Du um die eckigen Klammern herum

print(*L, sep=", ")

Aber das löst noch nicht das Problem der Anführungsstriche. Dazu müssen wir alles in einen String umwandeln, der dann mit print ausgegeben wird.

So sieht meine Lösung aus (nicht so elegant, aber macht was es soll):

def custom_print(L):
    temp = ""
    for i,l in enumerate(L):
        temp = temp + ': '.join(map(str, l)) + ", "
    print(temp[:-2])

custom_print(L)

...zur Antwort

hannasxh

05.01.2019, 13:35

Überprüfen ob es ein Dreieck ist?

ich muss überprüfen ob 3 punkte auf einer geraden liegen oder ein dreieck bilden. Ich dachte man kann es mit der Gleichung OX= OA + t • AB rechnen aber dann benutze ich ja nur die Punkte A und B und C dann halt nicht geht das? Oder muss man es anders machen?

...zum Beitrag

Antwort

von databraineo

05.01.2019, 14:16

Dein Gedanke ist prinzipiell richtig: Zuerst bildest Du die Gerade, die durch A und B geht. Danach prüfst Du, ob C auf dieser Geraden liegt (durch Einsetzen in die Geradengleichung).

...zur Antwort

putzteufel9496

05.01.2019, 13:30

Programmieren von Kopf bis Fuß welche Python Version downloaden?

Hallo Leute,

ich habe mir das Buch Programmieren von Kopf bis Fuß gekauft. Nun um damit arbeiten zu können muss ich Python 3 auf der Homepage von Python runter laden. Ich habe einen Windows Laptop, habe auch die jeweiligen Downloads gefunden für Windows auf der Seite. Meine Frage ist jetzt jedoch, da gibt es unzählige Downloads von Python 3, welches muss ich denn jetzt runter laden um das richtige auf meinem Laptop zu haben? Kennt sich jemand damit aus oder hat auch mit dem selben Buch gelernt?

Vielen Dank im Voraus

...zum Beitrag

Antwort

von databraineo

05.01.2019, 14:06

Hallo Putzteufel,

also ich empfehle Dir, die Python-Distribution Anaconda zu installieren. Da bekommst Du neben Python auch noch Spyder (eine gute Python-IDE), Jupyter Notebook (der Standard für Python Notebooks) und conda (Update-Management-System für die Packages).

Alle Feinheiten zu nutzen ist zwar komplex, aber das brauchst Du für den Anfang gar nicht. Einfach den Installer von der Anaconda runterladen und installieren (https://www.anaconda.com/download)

Ich habe dazu vor kurzem einen Blog-Artikel geschrieben (http://databraineo.de/anaconda-installieren)

Viele Grüße,

Holger

...zur Antwort