Session 5: Stat. Modeling and GLMs (cont.)

hallo zusammen,

in der letzten sitzung haben wir ein paar grundsätze des statistischen modellierens angesprochen (balancing model complexity and descriptive adequacy/predictive power). ich habe vorhin -neben dem R-workspace zu session 3- meine präsentation dazu hochgeladen (pptx & pdf). für die, die nicht da sein konnten und die, die alles bereits wieder vergessen haben 😉 –> wir haben noch nicht über GLMs gesprochen und die ersten slides (zu components of a GLM) lässig uebersprungen, um uns einem einfachen beispiel zuzuwenden (p. 16 +), welches die methode der kleinsten quadrate illustriert. dort hatten wir es mit der modellierung einer kontinuierlichen variable y durch genau eine ebenfalls kontinuierlichen variable x zu tun.

ich würde in der nächsten sitzung dort gern ansetzen und im idealfall besprechen, wie man solche ordinären linearen regressionsmodelle generalisieren kann und im speziellen auf den fall hinarbeiten, dass die zu erklärende variable (response) genau 2 ausprägungen hat und wir deren verhalten als funktion mehrerer kategorialen variablen (predictors) erklären wollen. um die logik der einfachen regression auf solche fälle anwenden zu können, müssen wir uns einer reihe von “tricks” bedienen und um diese zu verstehen werden wir uns nächstes mal mit den drei komponenten eines “verallgemeinerten linearen modells” (=generalized linear model (GLM)) beschäftigen, nämlich

1. Random component (Zufallskomponente)
2. Systematic component (Systematische Komponente)
3. Link function ((Parametrische) Link-Komponente)

Wir werden dann sehen, dass das was man als “logistische regression” bezeichnet, ein spezieller Sub-Typ von GLM ist, der geeignet ist, o.g. Fälle (binäre dependent ~ k kategoriale Covariablen) zu modellieren. das schauen wir uns dann kommende woche an.

btw, die kommentare zu den sitzungen sind ja (noch) recht dünn…anstelle potentielle fragen zu themen vergangener sitzungen in extenso in den jeweilig folgenden sitzungen zu besprechen, bietet es sich an, dieses forum vielleicht mit solchen fragen zu bestücken. die tatsache, dass man seine fragen hier natuerlich schriftlich hinterlegt, hat zudem den vorteil, dass man sich mehr gedanken um deren formulierung macht, was ja in vielen faellen zum verständnis beiträgt. ausserdem schaufelt das natuerlich eine menge zeit frei.

vorbereiten könnt ihr euch mit der vertieften lektüre des crawley textes, den karsten rumgeschickt hatte und wenn möglich, indem ihr euch die binomialverteilung mal (wieder) anschaut. In der Regel sind die Wiki Beiträge zu diesen Dingen mE extrem schlecht didaktisiert und listen eigentlich nur Eigenschaften. Schaut doch mal hier(super online textbook), hier (nette illustration von harald kraus (kein plan, wer das ist,…aber egal)), und hier (get yourself a cup of coffee (or green tea if you must) and enjoy).

ok, dann bis spätestens dienstag, daniel

2 Kommentare zu „Session 5: Stat. Modeling and GLMs (cont.)“

  1. katja says:

    hey zusammen,
    wer von euch weiß denn zufällig, wie man sich den letzten workspace in R anzeigen lassen kann? laden ist kein problem, aber ich würde auch gern sehen, was genau wir gemacht haben, bevor ich es weiter nutze…
    best,
    katja

  2. DW says:

    wie hatten das ja schon geklärt, aber ich halte es hier noch mal kurz fest:

    wir muessen zw workspace (file extension -> .RData) und der history unterscheiden (ohne extension –> mit text-editoren zu bearbeiten). letzeres sammelt alle kommandos; ersteres alle erstellten objekte. ich arbeite eigentlich nie mit histories, denn es erscheint mir sinnvoller, seine arbeitschritte in einem textdokument zu erstellen, zu bearbeiten und zu speichern; dort sammelt man dann natuerlich auch nicht jeden typo (histories –> R speichert alles, was evaluiert worden ist) und man kann die einzelne kommandos zudem besser (aus)kommentieren…

    das workspace file kann man einfach in das konsolenfenster ziehen (drag & drop –> go windows! ;), per kommandozeile laden oder kommandoleiste laden. wenn das .RData file geladen ist, kann man mit “ls()” die nun zur verfügung stehenden objekte anzeigen lassen.

    ACHTUNG: man sollte immer darauf achten, etwaige pakete neu zu laden (e.g. vcd) und – wenn man mit “attach” arbeiten moechte, was wir ja tun – den jeweils passenden datensatz zu attach-en. (wenn man die datensaetzen wechselt, sollte man den alten erst detach-en (mit taraa: “detach(data)”) und dann den neuen attach-en.

    hth,
    best,
    d.

Kommentieren

Sie müssen angemeldet sein, um kommentieren zu können.