Welches machine learning Modell um Samples basierend auf RNA-seq Daten als Stammzellen/keine Stammzellen zu klassifizieren?

Im training set sind 150 Samples vorhanden und für jedes Sample RNA-seq Daten für 10,000 gene. Jedes Sample is als Stammzelle oder als nicht-Stammzelle gelabled. Möchte nun für testing set vorhersagen welche Samples Stammzell-Samples sind, basierend auf Expressions-Daten für dieselben Gene. Welche Modelle wären hier am besten geeignet? Logistic Regression, Random Forest? Vielen Dank für eure Antworten!

1 Antwort

HTML21

07.05.2025, 21:12

Nachgedacht für ein paar Sekunden

Datenvorverarbeitung

RNA-seq-Counts in TPM oder RPKM normalisieren.
Log2-Transformation (z. B. log2(TPM + 1)).
Pro Gen z-Score normalisieren (Mittelwert 0, SD 1).

Feature-Selektion (optional, aber empfohlen)

Variance-Filter: Nur die etwa 500–2 000 Gene mit der höchsten Varianz behalten.
Alternativ: Univariate Testverfahren (z. B. t-Test), top K Gene auswählen.

Modelle und Regularisierung
a) Logistische Regression mit L1 oder Elastic-Net

Sparsame Modelle durch L1-Penalty (nur wenige Gene erhalten nicht-Null-Koeffizienten).
Elastic-Net (Kombination aus L1 und L2) sinnvoll, wenn viele Gene schwach korreliert sind.
Hyperparameter: Regularisierungsstärke C und L1-L2-Mix (l1_ratio).
Validierung: LogisticRegressionCV in scikit-learn mit nested Cross-Validation auf AUC oder Accuracy.

b) Support Vector Machine (SVM) mit linearem Kernel

Robust bei p ≫ n dank Regularisierung über C.
Einfach skalierbar, wenig anfällig für irrelevante Features.
Hyperparameter: C (z. B. Grid-Search zwischen 1e-3 und 1e3).
Nested CV und Standardisierung vorab.

c) Random Forest / Gradient Boosting (XGBoost, LightGBM)

Erfasst nichtlineare Effekte und Interaktionen.
Feature-Importance hilft bei Interpretation.
Vorsicht: Bei wenigen Samples leichtes Overfitting → vorab Feature-Selektion empfohlen.
Hyperparameter (RF): max_depth, n_estimators (100–500), max_features='sqrt' oder kleiner.
Hyperparameter (Boosting): Learning Rate (0.01–0.1), max_depth ≤ 3, early stopping auf Validierungs-Split.

d) PLS-Discriminant Analysis (PLS-DA)

Projiziert Gen-Expressionen auf wenige latente Komponenten, optimiert auf Klassentrennung.
Wähle über Cross-Validation die optimale Anzahl der Komponenten (meist 2–10).
Achtung: Zu viele Komponenten → Overfitting.

Modell-Pipeline
Preprocessing (Normalisierung, Log-Transformation, Batch-Korrektur)
Feature-Selektion (Varianceschnitt oder univariate Tests)
Hyperparameter-Tuning via GridSearchCV/RandomizedSearchCV mit nested CV
Finale Evaluierung auf einem unabhängigen Test-Set (z. B. 20 % der Daten)
Empfohlene Reihenfolge
Logistische Regression (L1/Elastic-Net) – einfach & interpretierbar
Linear SVM – gleiche Regularisierungsidee, hohe Robustheit
Random Forest / XGBoost nach Feature-Filterung – fängt Nichtlinearitäten ab
PLS-DA als Alternative, wenn du latente Signaturen vermutest

Viel Erfolg bei der Klassifikation deiner RNA-seq-Samples! Bei Fragen zu Code-Beispielen oder konkretem Hyperparameter-Tuning melde dich gerne.

Ähnliche Beiträge

Kann Künstliche Intelligenz kreativ sein?

Künstliche Intelligenz generiert Antworten basierend auf einem Modell, das durch einen langen Trainingsprozess mit großen Mengen von Daten geschaffen wurde.

Allerdings greifen auch Menschen beim kreativen Arbeiten häufig auf bereits Erlebtes zurück und rekombinieren dabei diese vergangenen Eindrücke, ähnlich wie KI-Modelle. Sie lassen sich inspirieren - bewusst und unterbewusst.

Die zufällige Komponente, die Menschen dazu befähigt, neue kreative Wege einzuschlagen, wird überlicherweise auch KIs beigefügt: ChatGPT bspw. verwendet während der Generierung einen zufälligen "heat"-Parameter, der sicherstellt, dass immer andere Ergebnisse erzeugt werden.

All dies wirft die Frage auf, wie groß der Unterschied zwischen menschlicher und maschineller Kreativität wirklich ist. Kann auch künstliche Intelligenz kreativ sein?

...zum Beitrag

Datenbank Modell Idee?

Ich muss für die Schule ein ER Datenbank Modell erstellen mit 20 Entity Sets ungefähr. Am besten wäre es wenn man noch von irgendwo Daten dazu findet. Hat jemand eine Idee was man machen könnte? Im Grunde gibt es nicht viel mehr Einschränkungen. Es sollte nur etwas umfangreicher sein (20 entity sets). Aber fürs erste brauch ich nur die idee. Würde mir sehr weiterhelfen danke :)

...zum Beitrag

Informatik mit Naturwissenschaften, trotzdem normaler Informatiker sein?

Hi, ich studiere Informatik mit Naturwissenschaften, Informatik ist 120 Credits und Naturwissenschaft wäre Geografie, Biologie oder vllt auch Mathe und Physik. Könnte ich dann trotzdem normal als Informatiker, Software Engineer, IT Berater, Data Analyst etc. arbeiten oder kann man damit nur Bioinformatiker, Geoinformatiker etc. Werden?

...zum Beitrag

Gibt es Unis, an denen man als reiner Biologie-Bachelor den Master für Bioinformatik machen kann, ohne Vorkentnisse?

Ich möchte mich gerne nach meinem Biologie-Bachelor auf IT spezialisieren. Weiß jemand, ob es Masterstudiengänge gibt, die uns Biologie-Bachelor-Absolventen aufnehmen und wie reine Biologen in solchen Studiengängen zurechtkommen?

Falls dies nicht möglich ist, würde ich eher eine Ausbildung zum Fachinformatiker für Anwendungsentwicklung in Erwägung ziehen.

...zum Beitrag

KI wie funktioniert das eigentlich?

Hi also KI, da gibt es ja verschiedene Methoden machine learning deep learning und bestimmt noch andere... aber ich frage mich warum gibt es noch keine "starke KI" also eine die schlauer ist als der Mensch also allgemein einfach... kann man nicht einfach so ein learning system aufsetzten und große Teile des Internets da drauf laden? Das sind doch genug Daten und wenn man nur das wichtigste nimmt, dann analysiert die maschine wenn die leistungsstark ist in ein paar wochen durch oder? Was überseh ich da? Der roboter könnte ja alles dann.

...zum Beitrag

Weg zum KI-Ingenieur?

Hallo liebe Comunity,

ich gehe im Moment noch in die Schule, könnte mir aber vorstellen zukünftig etwas im Bereich des maschinellen Lernens zu machen. Deswegen würde ich gerne jetzt schon einen Grundstein dafür legen. Ich habe mich aber gefragt, wie man da am besten einsteigen könnte. Mein Plan war es jetzt, erst mal meine mathematischen Kentnisse aufzufrischen und den Schulstoff der letzen Jahre Mathe zu wiederholen. Darauf aufbauend wollte ich dann in die höhere Mathematik einsteigen und mich mit linearer Algebra, Stochastik & Statistik befassen.

Danach würde ich dann beginnen mir das Programmieren beizubringen. In Python kenne ich mich schon ein bisschen aus, aber ich würde mein Können als definitiv ausbaufähig beschreiben.

Als letzen Schritt würde ich mich dann mit KI-spezifischen Themen auseinandersetzen. Da hab ich mir jedoch noch nichts genaueres überlegt. Wahrscheinlich beständer der Teil dann darin, die Struktur von neuronalen Netzen tiefer zu durchblicken, mit KI-Frameworks zu experimentieren und verschiedene Trainingsmethoden auszuprobieren (Supervised learning, Reinforcment learning, etc.)

Aber ich bin halt echt alles andere als Experte in diesem Bereich (das will ich ja erst noch werden in Zukunft). Deswegen bitte ich darum, mögliche Fehler in meiner Nachricht zu entschuldigen.

Jetzt zu meiner Frage an alle, die sich mit KI auskennen, selber in diesem Bereich tätig sind oder sich auf dem Weg dahin befinden.

Was haltet ihr von meinem Plan. Würdet ihr anders vorgehen? habe ich irgendetwas wichtiges vergessen? Würdet ihr das Erlernen dieser Fähigkeiten anders strukturieren?

Über eine simple Bewertung und ein paar Ratschläge würde ich mich sehr freuen.

Viele Grüße und noch einen schönen Sonntag :)

...zum Beitrag

Gute Mathebücher für Machine Learning?

Also, das Ding ist, dass ich aktuell noch aufs Gymnasium gehe (11. Klasse). Für die Einschätzung, wir machen gerade Polynome. Also nicht so krass jetzt. Differenzieren machen wir als nächstes, aber sowas wie Integralrechnung oder haben wir halt noch nie gemacht. Aber sowas wird immer in den Mathebüchern für Machine Learning erwartet. Also die richten sich glaube ich eher an Studenten oder Softwareentwickler, die nochmal was aus dem Studium wiederholen wollen. Meine Frage wäre jetzt, ob es auch irgendwelche guten Bücher gibt, die einem die Mathematik für Machine Learning nach und nach erklären und dabei auch Grundlagen besprechen?

...zum Beitrag

Modebegriff oder doch bahnbrechende Neuheit?

KI umfasst die Teilmenge ML (Machine Learning), welches die Menge DL (Deep Learning) umfasst, das wiederum die Menge NN (Neural Network) umfasst.

All diese Dinge gibt es schon seit vielen vielen Jahren, sei es auch weniger komplex. KI ist grundsätzlich nichts neues, insbesondere Computerspieler sind damit seit Jahrzehnten vertraut, wenngleich auch hier die Komplexität von früher wesentlich geringer ist.

Was genau hat sich in den letzten Jahren dermaßen verändert, dass der Begriff KI durch die ganze Welt auf jene Weise wandert, als hätte es sie vorher nicht gegeben?

...zum Beitrag

Massen von Bilder herunterladen?

hi Leute, gibt es eigentlich eine Website, die es möglich macht:

nach einem begriff zu suchen und einen großen Katalog von Bildern zu diesem Begriff herunterzuladen. Da es Mega aufwendig ist, sich 1000 Bilder via Hand einzeln herunter zu laden, um ein Neuronales Netz zu Trainieren

...zum Beitrag

[PHP] Aktuelles datum nehmen und um 30 erhöhen + in die Datenbank eintragen?

kann mir jemand helfen, ich möchte das heutige Datum nehmen und 30 Tage drauf schlagen für ein Abo Modell. Dieses Datum soll dann in die Datenbank eingetragen werden.

Hier mein Versuch:

 $neu = date('d.m.Y',strtotime("+30 days"));
            $stmt = $mysql->prepare("UPDATE accounts SET 'Abo' = '$neu' WHERE ID = :ID");
            $stmt->bindParam(":ID", $_POST["ID"]);
            $stmt->execute;

...zum Beitrag

Könnte eine KI persöhnliche Daten an Fremde über mich herausgeben?

Hallo zusammen,

ich habe eine Frage bezüglich Künstlicher Intelligenz und Datenschutz. Ist es möglich, dass jemand mit einer KI persönliche Informationen über mich herausfinden kann, wenn er bestimmte Details über mich hat?

Zum Beispiel: Wenn jemand meine Adresse, Fotos von mir oder sogar meine Stimme hat, könnte eine KI in der Lage sein, mir persönliche Informationen zu entlocken? Gibt es speziellere oder leistungsfähigere KI-Modelle, die in der Lage sind, solche Dinge basierend auf diesen Informationen zu analysieren oder zu interpretieren? Fremde haben mir gesagt sowas geht und das sie deswegen mehr ūber mich rausgefunden haben . Zb indem sie ihrer KI meine Stimme vorgelegt haben.

Ich mache mir Gedanken über den Schutz meiner Privatsphäre und würde mich freuen, eure Meinungen und Informationen dazu zu hören.

Vielen Dank!

...zum Beitrag

Kann ich mit dem Lenovo Thinkpad T470p Touch Sims 4 spielen?

Technische Daten:

Marke: Lenovo
Produktlinie: ThinkPad
Modell: Thinkpad T470p Touch
Prozessorfamilie: Intel Core i5 6. Gen
Prozessor: Intel Core i5-6300U 2.40GHz
Arbeitsspeicher: (konfigurierbar)
Bildschirmgröße: 14 Zoll (35.6 cm)
Auflösung: 1920 x 1080
Festplattenkapazität: (konfigurierbar)
Tastatur: DE
DVD-Laufwerk: nicht vorhanden
Grafikkarte: Intel HD Graphics 520
WebCam: vorhanden
WLAN: vorhanden
UMTS (SIM-Karten Slot): nicht vorhanden
Betriebssystem: Windows 10 Professional 64-bit

...zum Beitrag

Lohnt sich der Jobeinstieg im Bereich der Künstlichen-Intelligenz?

Ich bin gespannt auf eure Meinungen zu dem Thema. Ich selber bin sehr unentschlossen.

Auf der einen Seite stark limitierende Faktoren wie der massive Energiebedarf von KI und die schon echt astronomisch hohen Bewertungen einiger KI-lastigen Firmen (vor allem im Verhältnis zum Gewinn dieser Unternehmen). Dazu dann noch die mögliche Automatisierung der Entwicklung von KIs durch AutoML.

Auf der anderen Seite Finanzinstitute wie Goldman Sachs, die sagen, dass KI auch längerfristig sehr wirtschaftlich bedeutend bleiben wird und nicht nur eine "Bubble" ist.

...zum Beitrag

Was haltet ihr vom LLM Hype?

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen