Session 6: GLMs and Binomial Logistic Regression

gestern haben wir ja mit der besprechung der präsentation weitergemacht und haben uns eine (vermeintlich inadequate) modelstruktur in R angeschaut. diese hatte ja folgende form:
attach(data.dataframe.as.typically.collected) # each row is case
model < - glm ( language ~ pred1 + pred2 + ... + interaction(s), family = binomial) hier ein bsp: alt(ernative).mod(el) ist ein generalisiertes lineares modell (glm), in dem die binaere variable "language" als funktion der 3 variablen "embedding" (2 level: center vs. right embedding), ani(macy of the).head (noun of RC) (2 levels: +/-), sowie extern.height (2 levels: high/low ~ kopf is argument oder adjunkt), sowie zweier interaktionen (die doppelpunkt-ausdrücke) modelliert wurde. hier der R output nach dem call: altmod
die variable “language” ist hier ein vektor/eine liste von 500 verketteten variablenausprägungen des o.g. faktors.
die vielleicht zu präferiende (ich bin mir da noch nicht so sicher) struktur sieht vor, die “dependent var” als “success/failure-array” anzuordnen (wie wir es uns gestern angeschaut haben). tut man dies und hält die systematische komponente stabil, bekommt man das hier:
logmod
mal abgesehen davon, dass die vorzeichen der koeffizienten komplementär sind (was leicht zu beheben ist, indem man die factor-levels einfach derart umbenennt, dass ihre alphabetische reihenfolge umgekehrt wird), bekommen wir im prinzip das gleiche ergebnis. die degrees of freedom der modelle sind aufgrund der unterschiedlichen dateneingabe unterschiedlich, aber die differenz zw. null deviance und residual deviance ist in beiden fällen identisch, nämlich 127.63. (wir haben noch nicht geklärt, was es damit aufsicht hat, werden das aber bald tun). der wert des AIC ist auch identisch. die “fisher scoring iterations” sind quasi gleich kurz (–>gut).

im moment sieht es für mich so aus, als hatten wir hier eine wahl bezgl. der dateneingabe (aber ich les das nochmal nach).
apropos lesen: wir (also ich) muesen nun mal nach texten ausschau halten, die geeignet sind euch schnell und einfach in die lage zu verstzen die ganzen statistischen kenngrössen, diie R da ausspuckt zu verstehen. ich kuemmer mich morgen mal um die textauswahl (alle bücher im büro). schaut euch doch bitte mal das file “logistic.pdf”, welches im DL bereich hier liegt; vielleicht setzt das zuviel voraus…ich weiss nicht…schaut einfach mal.

best,
d.

Kommentieren

Sie müssen angemeldet sein, um kommentieren zu können.