Wie heißt mein Regressionsmodell?
Hey, ich habe eine Regressionsmodell. Ich verwende lineare Regression und benutze polynominal Features. Dadurch wird es ja polynominale Regression. Jetzt wird es kompliziert, weil ich überall etwas anderes lese. Ich habe mehrere Zielvariablen (angeblich multivariate) und mehrere X (multiple). In der Theorie sollte ich ja dann eine multivariate multiple polynominale Regression haben, aber ich finde überall eine andere Defition für multiple und multivariate. Auch ChatGPT hat mir schon verschiedene Definitionen für die Begriffe und Modellnamen gegeben.
Ich muss die Theoriekapitel meiner Bachelorarbeit schreiben, aber ich weiß nicht wie ich es nennen soll. Ist hier jemand der es vielleicht verifizieren kann, am besten mit Quellen
1 Antwort
Wenn du lineare Regression benutzt, die Features in den Instanzen aber nur transformierst bzw. in irgendwie geartete Polynome engineerst, bleibt es trotzdem eine lineare Regression. Erst wenn die trainierbaren Parameter des Modells multiplikativ bzw. im Exponent miteinander verknüpft sind, ist es keine lineare Regression mehr. Eine klassische lineare Regression mit linearen Koeffizienten bleibt was sie ist.
Wenn du mehrere Outputs auf einmal (Y z.B. als Vektor der Zielvariablen, nicht als atomarer Wert) vorhersagst, ist es per Definition multivariat. Multi-Output-Vorhersagen sind ein Sonderfall von multivariaten Vorhersagen, wenn die Zielwerte nicht miteinander korrelieren. Aber das wird ugs. und "im Feld" oft gleichgesetzt.
Hier ist es aber in der Praxis oft einfacher, mehrere lineare Regressionsmodelle zu trainieren - eines je Zielvariable. Das ist vor allem hinsichtlich der Fehler- bzw. Lossfunktionen sowie deren Konstruktion und Auswertung einfacher.
Ein passender Begriff wäre eher Lineare Regression mit polynomial transformierten Features oder so etwas. Wenn du wirklich mehrere Outputs auf einmal vorhersagen möchtest, brauchst du einen guten Grund. Dann geht auch Multivariate lineare Regression mit polynomial transformierten Features als Name.
Wenn die Vorhersagen genauer werden, deutet das erstmal darauf hin, dass die Zielvariablen untereinander korrelieren.
Aber wie hast du das gebenchmarkt? Jeden MSE/MAE pro Einzelziel gegenübergestellt?
Also: MSE(EinfachesModell_Variable1) vs. MSE(MultivariatesModell_Variable1), ..., usw.?
Wenn du in der Lossfunktion z.B. nur den MSE oder MAE pro Ziel aufaddierst, kann es zu Verzerrungen kommen und das Ergebnis nur besser wirken lassen. Da gibt es sonst aber auch gute Kovarianz-basierte Funktionen wie GLS oder sowas.
Erstmal ja die Variablen korrelieren. Bekomme bei Pearson ungefähr +/- 0,9 aus. War aber auch zu erwarten
Ich benutze MSE/MAE/R2. Ich lasse mir für den Test/Trainsplit für Training und Test von den Zielvariablen einzeln MSE/MAE/R2 ausgeben. Als ich die Modelle einzeln berechnet habe war beispielsweise das Ergebnis für MAE 10, 8, 2, 20. Was sehr gut ist in meinem Anwendungsfall. Seit dem ich die Variablen zusammen in einem Y drin habe anstatt die Modelle einzeln zu trainieren kamen dann 8, 7, 1,5, 17 heraus. Also schon eine messbare Verbesserung. Bin auch sehr zu frieden mit den Ergebnissen, auch meine Firma und auch mein Prof. Nur ich muss es benennen und beschreiben. Das ist tatsächlich bisher meine größte Herausfordung in der Arbeit
Sehr gut.
Dann passt der oben beschriebenen Name wohl.
Aber sprich das ggf. zur Sicherheit nochmal mit deinem Supervisor ab, ob du das Baby so taufen solltest. 👍
Viel Erfolg weiterhin!
Erst mal vielen Dank für deine Hilfe. Du bekommst auf jeden Fall die Hilfreichste Antwort, eigentlich die hilfreichste ever. Du meinst dann Multivariate lineare Regression mit polynomial transformierten Features? Das wäre dann bestimmt schon der 10te Begriff, den ich in den letzten 3 Wochen verwende :-D
Die Quellenrecherche freut sich xD
Ja ich denke das passt. Aber wie gesagt, sprich das ruhig nochmal mit dem Prof ab. Vielleicht hat der ja sogar noch ganz andere Vorstellungen. Ist ja manchmal auch eine Philosophiefrage, wie man wissenschaftliche Konstrukte benennt.
Danke Dir 👍
Also ich habe 4 Zielvariablen. Diese werden alle mit den gleichen Features vorhergesagt. Zunächst hab ich das einzeln gemacht. Seit dem ich diese testweise zusammengefasst habe als einen Zielvektor y =[Y1, y2, y3, y4] sind die Vorhersagen noch genauer geworden. Hab dann wie gesagt lineare Regression eingeführt und PolynominalFeatures, um zu schauen wie es sich entwickelt. Mein Prof hat bei der Vorstellung auch nichts gegen die Verwendung des Begriffs Multivariate multiple gesagt, sondern sogar bestätigt, dass er es auch mal benutzt hat, aber im schriftlichen will ich es richtig erklären um safe zu sein.