Prognose von schulischen Leistungen
Posted: Fri 24. Feb 2017, 13:11
Hallo zusammen und lieber Herr Jetter,
mit großer Freude haben wir Ihr Programm gefunden, dass uns einen wirklich schnellen Einstieg und erste Erfolge ermöglicht hat. In unserem Projekt wollen wir das Ergebnis einer Ausbildung prognositizieren. Hierfür stehen uns demografische Variablen - Alter, Geschlecht, Staatsbürgerschaft, Schulausbildung etc - sowie Leistungsdaten zur Verfügung. Manche Variablen sind nominal skaliert - Geschlecht, besuchte schule, etc - und andere ordinal - bisherige Noten, Menge der nicht bestandenen Tests, etc. Je nach Variablenauswahl können wir ziwschen 10 und 28 Inputvariablen einwerfen. Das Ergebnis ist mit 0 oder 1 für Bestehen oder Abbruch angegeben. Uns liegen etwa 6.500 Fälle vor, die wir in 5000/1500 in Lern- und Testdaten unterteilt haben. Auf Basis der demografischen Kriterien erreichen wir eine Genauigkeit von etwa 66% und unter Einbezug der Leistungsdaten etwa 83% zum ersten und 95% zum letzten Zeitpunkt. Letzteres ist aber ohne praktischen Belang, da hier der Abbruch/Abschluss bereits stattgefunden hat.
Frage 1 Netzaufbau:
Getestet wurden 1 hidden Layerschicht mit neuronen in gleicher Anzahl wie Inputneuronen, ein Netz mit 10 HL-Neuronen und ein 2 HL-Netz mit 10 in der ersten und 5 in der zweiten Schicht. Alle Netze sind nur mit der darunter liegenden Schicht verknüpft. Das 10x5 Netz war den anderen in der Genauigkeit schwach überlegen. Gibt es hier noch weitere sinnhafte Strukturen?
Frage 2 Variablenauswahl:
Ist es sinnvoll die Menge an Variablen um die nicht signifikanten zu reduzieren oder regelt das Netz das?
Frage 3 normalisieren:
Der Output ist mit 0 und 1 bereits normalisiert. Die Inputvariablen sind es nicht. Eine Fehlermeldung erhalten wir nicht. Auch ein Test, in dem wir einmal händisch normalisierten ergab keine Interschiede. Ist das richtig so?
Frage 4 Einstellunge
Alles weitere steht auf Voreinstellung. Die Neuronen auf logistik, der teacher auf Prob (cascade haben wir such mal ausprobiert, taugt auch). Gibt es hier noch Optimierungspotential?
Frage 5
Netzgenauigkeit: hierzu laden wir die Testdatei - in der keine Ergebnisse stehen - zeichnen "think on lesson" auf, exportieren den output und ermitteln die genauigkeit durch gegenüberstellung in excel. Geht das uU einfacher?
Liebe Grüße und guten Karneval
Jo
mit großer Freude haben wir Ihr Programm gefunden, dass uns einen wirklich schnellen Einstieg und erste Erfolge ermöglicht hat. In unserem Projekt wollen wir das Ergebnis einer Ausbildung prognositizieren. Hierfür stehen uns demografische Variablen - Alter, Geschlecht, Staatsbürgerschaft, Schulausbildung etc - sowie Leistungsdaten zur Verfügung. Manche Variablen sind nominal skaliert - Geschlecht, besuchte schule, etc - und andere ordinal - bisherige Noten, Menge der nicht bestandenen Tests, etc. Je nach Variablenauswahl können wir ziwschen 10 und 28 Inputvariablen einwerfen. Das Ergebnis ist mit 0 oder 1 für Bestehen oder Abbruch angegeben. Uns liegen etwa 6.500 Fälle vor, die wir in 5000/1500 in Lern- und Testdaten unterteilt haben. Auf Basis der demografischen Kriterien erreichen wir eine Genauigkeit von etwa 66% und unter Einbezug der Leistungsdaten etwa 83% zum ersten und 95% zum letzten Zeitpunkt. Letzteres ist aber ohne praktischen Belang, da hier der Abbruch/Abschluss bereits stattgefunden hat.
Frage 1 Netzaufbau:
Getestet wurden 1 hidden Layerschicht mit neuronen in gleicher Anzahl wie Inputneuronen, ein Netz mit 10 HL-Neuronen und ein 2 HL-Netz mit 10 in der ersten und 5 in der zweiten Schicht. Alle Netze sind nur mit der darunter liegenden Schicht verknüpft. Das 10x5 Netz war den anderen in der Genauigkeit schwach überlegen. Gibt es hier noch weitere sinnhafte Strukturen?
Frage 2 Variablenauswahl:
Ist es sinnvoll die Menge an Variablen um die nicht signifikanten zu reduzieren oder regelt das Netz das?
Frage 3 normalisieren:
Der Output ist mit 0 und 1 bereits normalisiert. Die Inputvariablen sind es nicht. Eine Fehlermeldung erhalten wir nicht. Auch ein Test, in dem wir einmal händisch normalisierten ergab keine Interschiede. Ist das richtig so?
Frage 4 Einstellunge
Alles weitere steht auf Voreinstellung. Die Neuronen auf logistik, der teacher auf Prob (cascade haben wir such mal ausprobiert, taugt auch). Gibt es hier noch Optimierungspotential?
Frage 5
Netzgenauigkeit: hierzu laden wir die Testdatei - in der keine Ergebnisse stehen - zeichnen "think on lesson" auf, exportieren den output und ermitteln die genauigkeit durch gegenüberstellung in excel. Geht das uU einfacher?
Liebe Grüße und guten Karneval
Jo