Data Science ist ein interdisziplinärer Bereich. Da braucht man Kenntnisse nicht nur in Mathematik/Statistik, sondern auch in Softwareentwicklung. Deswegen ist es wichtig, bis Jobsuche Mathematik/Statistik und Softwareentwicklung zu beherrschen.

Wenn du schon sehr gute Kenntnisse in Softwareentwicklung oder Computer Science hast, dann kann Master in Mathematik eine gute Auswahl sein. Vor allem sind Stochastischer Prozess, bayesianische Analyse, Finanz und Aktur mit Data Science verbunden. Master in diesen Gebieten ist meiner Meinung nach ein guter Vorteil.

Wenn du Angst vor Softwareentwicklung hast oder nicht alleine Softwareentwicklung lernen kannst, dann ist Master in Data Science eine sichere Option.

...zur Antwort

Während man sowohl R als auch Python für Datenauswertung verwenden kann, gibt es eine klare "Straßengabelung".

Statistische Modellierung: Da viele Statistiker R verwenden, gibt es viele Bibliotheken für statistische Modellierung, die von sehr guter Qualität sind. Eine bekanntes Beispiel ist EpiEstim. Damit kann man die Ansteckungsrate berechnen. Scipy stellt nur fundamentale statistische Funktionen. Wenn es um ein fortgeschrittenes Thema geht, ist Python gar nicht bequem.

Visualisierung: ggplot2, Rmarkdown, flexdashboard, (gg)plotly, Shiny, ... Für R steht viele praktische Bibliotheken für Visualisierung und Reporting. Man kann richtig einfach einen schönen Report mit R erstellen. David Robinson, ein Data Scientist, macht fast jede Woche ein screen cast. Er erstellt viele schöne Diagramme richtig schnell. Leider kann man mit Python nicht so schnell Daten analysieren.

Deep Learning: Wenn Deep Learning benötigt ist, beziehungsweise, du Fotos, Videos, Signals oder Texten verarbeiten und auswerten möchtest, ist Python De-Facto-Standard wegen PyTorch und TensorFlow. Leider ist R immer in der zweiten Klasse in der Welt von Deep Learning.

ML in der Produktion: Da Python eine allgemeine Programmiersprache ist, gibt es viele Software-Entwickler und DevOps Engineers, die Python verstehen können. Deswegen ist Python besser, wenn man ein trainiertes Modell in Produktion verwenden möchte. R in der Produktion wollte ich nicht überlegen...

Diese vier Punkte sind meiner Meinung nach das Urteilsmaterial.

Aber wenn du eine Programmiersprache für Masterarbeit brauchst, solltest du einmal die Frage an den Mitgliedern oder dem Professor vom Lab (von deiner Fachrichtung) stellen. Was für eine Programmiersprache man für Datenauswertung verwendet, ist nämlich abhängig vom Community. Es ist auch möglich, dass du eigentlich MATLAB verwendest.

Übrigens, wenn deine Fachrichtung Data Science ist, dann solltest du auf jeden Fall die beiden Programmiersprachen lernen.

...zur Antwort

Wenn du die Spalte "Anzahl" durch die Zahlen der ersten Tabelle ersetzen möchtest, musst du einfach die originelle Tabelle (df) und die erste Tabelle mergen:

df.drop("Anzahl", axis=1).merge(df_count_fclass, on="fclass")

Dann die Anzahl der Tabelle (df) verändert sich nicht, und die Spalte "Anzahl" zeigt die Anzahl der entsprechenden "fclass" in der originellen Tabelle.

Der Grund für die komischen Werte in der Spalte "Anzahl" ist, dass du eine Spalte (df["Anzahl"]) ein DataFrame zuordnest. Das Ergebnis der folgenden Zeile ist nämlich keine Series, sondern ein DataFrame mit zwei Spalten.

df.groupby('fclass', as_index=False).count()[["fclass", "Anzahl"]].sort_values(by="Anzahl",ascending=False)
...zur Antwort

An deiner Stelle würde ich mal überprüfen, ob ich dieselbe Umgebung verwenden würde. Führe mal die folgenden Zeilen in deiner conda Umgebung und auf PyCharm aus.

import sys
print(sys.executable)

Vermutlich bekommst du unterschiedliche Ergebnisse.

Wenn das der Fall ist, musst du PyTorch (mit CUDA Support) nochmal installieren, aber auf Terminal von PyCharm.

...zur Antwort

File -> Setting -> Project -> Python Interpreter. Darauf kannst du einfach "System Interpreter" auswählen. Wenn du nicht weiß, was genau system interpreter ist, dann klicke "gear" icon an und wähle "Add..." aus. Ein neues Fenster taucht auf und darauf kann man System Interpreter auswählen. Danach wird die Liste der installierten Bibliotheken aktualisiert und du kannst wahrscheinlich bs4 darin finden.

Laut deiner Beschreibung vermute ich, dass du eine Umgebung (virtualenv oder conda env) erstellt hast und sie auf PyCharm verwendest. Ich bin der Meinung, dass du eigentlich in deiner Umgebung bs4 installieren solltest. Im Internet gibt es viele Tutorials und du solltest ruhig eine davon mal lesen.

...zur Antwort
Weitere Inhalte können nur Nutzer sehen, die bei uns eingeloggt sind.