<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	>

<channel>
	<title>Coming up: GLMs in R (Part II)</title>
	<atom:link href="http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?feed=rss2" rel="self" type="application/rss+xml" />
	<link>http://daniel-wiechmann.eu/cgi-bin/weblog_basic</link>
	<description></description>
	<pubDate>Tue, 18 May 2010 07:59:45 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.7</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>Words and Rules?</title>
		<link>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=160</link>
		<comments>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=160#comments</comments>
		<pubDate>Mon, 12 Apr 2010 07:46:14 +0000</pubDate>
		<dc:creator>DW</dc:creator>
		
		<category><![CDATA[Allgemein]]></category>

		<guid isPermaLink="false">http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=160</guid>
		<description><![CDATA[hallo zusammen,
während der letzten wochen habe ich mich recht tief in die inflectional morphology-learning lit eingelesen. speziell habe ich mir die frage angeschaut, ob wir einen (Bybee, Elman, &#8230;) oder zwei  (Pinker, Marcus, &#8230;) Verarbeitungsmechanismus/-en brauchen, um z.B. Past- oder Pluralformen zu bilden.
David Eddington hat hier  gezeigt, dass instance-based models (TiMBL und analogical [...]]]></description>
			<content:encoded><![CDATA[<p>hallo zusammen,</p>
<p>während der letzten wochen habe ich mich recht tief in die <strong>inflectional morphology-learning</strong> lit eingelesen. speziell habe ich mir die frage angeschaut, ob wir <em>einen </em>(Bybee, Elman, &#8230;) oder <em>zwei </em> (Pinker, Marcus, &#8230;) Verarbeitungsmechanismus/-en brauchen, um z.B. Past- oder Pluralformen zu bilden.</p>
<p>David Eddington hat <a href="http://linguistics.byu.edu/faculty/eddingtond/pasttense.pdf">hier </a> gezeigt, dass instance-based models (<strong>TiMBL </strong>und analogical mods a la Skousen) besser performen als zumindest einige Typen von Neuralen Netzen.</p>
<p>Aus meiner Sicht sollten <strong><em>k</em>-nearest neighbor classifiers</strong>, die alles über Ähnlichkeitsalgorithmen lösen (und speziell solche, die über instances generalisieren (cf. <a href="http://ilk.uvt.nl/downloads/pub/papers/Fambl-refguide-2.3.pdf">Fambl</a>) ), outputs erzeugen, die die Vorhersagen von UB-CxGs recht nahe kommen.</p>
<p>Ich hab mir nun mal vorgenommen, mir da mal etwas <strong>first hand experience</strong> zu erarbeiten und mir mal die <strong>outputs verschiedener single-route lösungen anzuschauen</strong>.<br />
R verfügt über eine Reihe geeigneter Implementationen relevanter Klassifikationssysteme (e.g. <strong>nnet </strong>für Neurale Netze, <strong>ksvm </strong>für Support Vector Machines, <strong>randomForest </strong>für Random Forest Models, &#8230;) und Walter Daelemans/Antal van den Bosch und Kollegen bieten ihr <a href="http://ilk.uvt.nl/software/">TiMBL</a> frei zum DL an. </p>
<p>Wär cool, wenn jemand von Euch Interesse hat, da mitzumachen,<br />
Im Idealfall entsteht daraus mittelfristig ein kleines L1-Erwerbpapier (auf CHILDES Datengrundlage), daß man dann &#8220;co-author&#8221;-n könnte.</p>
<p>cheers,<br />
daniel</p>
<p>PS: morgen gehts übrigens los mit session 1 der R Gruppe in SS2010 (siehe letzter post)<br />
<img src="http://51090363.de.strato-hosting.eu/cgi-data/weblog_basic/uploads/2010/04/3.jpg" alt="3" title="3" width="450" height="338" class="alignleft size-full wp-image-163" /></p>
]]></content:encoded>
			<wfw:commentRss>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?feed=rss2&amp;p=160</wfw:commentRss>
		</item>
		<item>
		<title>summeR 2010</title>
		<link>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=152</link>
		<comments>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=152#comments</comments>
		<pubDate>Thu, 11 Feb 2010 14:09:26 +0000</pubDate>
		<dc:creator>DW</dc:creator>
		
		<category><![CDATA[Allgemein]]></category>

		<guid isPermaLink="false">http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=152</guid>
		<description><![CDATA[Hallo allerseits,
hier nun also nun die Eckdaten für unsere Gruppe im SS2010.
Wann: Dienstags 16-18 Uhr; also vor unserem Kolloq; kommt doch bitte s.t. (sonst verdaddeln wir immer soviel Zeit)
Wo: Ich schlage mal vor, wir treffen uns in meinem Büro, also im JenTower. Da haben wir Platz, viele schoene Stuehle, ein Whiteboard und es fliesst Honig [...]]]></description>
			<content:encoded><![CDATA[<p>Hallo allerseits,<br />
hier nun also nun die Eckdaten für unsere Gruppe im SS2010.</p>
<p><strong>Wann</strong>: Dienstags 16-18 Uhr; also vor unserem Kolloq; kommt doch bitte s.t. (sonst verdaddeln wir immer soviel Zeit)<br />
<strong>Wo</strong>: Ich schlage mal vor, wir treffen uns in meinem Büro, also im JenTower. Da haben wir Platz, viele schoene Stuehle, ein Whiteboard und es fliesst Honig und Wein; </p>
<p>Ich weiss, ihr muesst dann mit dem knatterigen Fahrstuhl runterfahren und über eine für jenaer Verhältnisse höllisch gefährliche Straße gehen, aber dafür könnt ihr einmal drueben angekommen auch mit nem schnellen Fahrstuhl (incl. Fernseher!) fahren!</p>
<p>Und: Vielleicht koennte jemand von euch ja so nett sein und regelmaessig einen <strong>Beamer</strong> mitbringen?!</p>
<p><strong>Was</strong> machen wir denn da ueberhaupt?<br />
Wir machen da weiter, wo wir aufgehört haben also mit <strong>Generalisierten Linearen Modellen in R</strong>, genauer <strong>binomialen logistischen Regressionsmodellen</strong>. (Alle Daten, workspaces, und Artikel sind weiterhin online &#8211;> bitte lest doch nochmal den Manning-text, der als logistic.pdf dort zu finden ist).</p>
<p><strong>Martin</strong> und <strong>Franziska</strong> haben bis dahin <strong>riesige Datenmengen</strong> kodiert - da ja keiner mit meinen Daten arbeiten will !!!??? - und die powern wir so lange durch, bis sie veröffentlichungsreif sind.</p>
<p>Martin wird dann der erste formale Semantiker in der Geschichte des Universums sein, der sich echte Daten (!)  angeguckt und sogar statistisch ausgewertet hat (!!!). Wahrscheinlich wird er danach wohl von seiner Community wohl exkommuniziert, aber thats life</p>
<p>Und Franziska kann das alles dann 1:1 in ihrem Korpuslinguistikseminar verwenden und endlich mal so tolle Evaluationen bekommen, wie ich # &#8220;Dozentin verwirrt sich und andere&#8221; <img src='/strato-data/Weblog25//wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /> </p>
<p>Wenn alles nach Plan läuft, wiederholen wir zuerst:<br />
- Was ist (und was ist nicht) eigentlich <strong>Statistisches Modellieren</strong>?<br />
- Wie fittet man nochmal <strong>GLMs in R</strong>?<br />
- Wie <strong>interpretiert </strong>man am besten die <strong>Regressionskoeffizienten </strong>(und die anderen Statistiken des summary() outputs) nochmal?<br />
- Wozu braucht man eigentlich die <strong>ANOVAs</strong> dabei?</p>
<p>Unser Hauptaugenmerk wird dann liegen auf:<br />
- <strong>Model checking</strong> and <strong>evaluation</strong><br />
Und - wie immer - gibts viele, viele (bei bedarf auch gerne bunte!) plots, die noch kein SPSS nutzer gesehen hat</p>
<p><strong>Womit</strong> arbeiten wir?<br />
Ihr braucht einen - vorzugsweise tragbaren - <strong>Rechner</strong> mit einem OS eurer wahl (diesen bitte immer <strong>mitbringen</strong>);<br />
und ein am besten vollständig installiertes <strong>R</strong>, aber wir haben ja auch internetzugriff vor ort (1ne freie LAN anbindung; offenes WLAN gibts im turm meines wissens nicht)</p>
<p>unsere wichtigsten <strong>Quellen</strong> werden sein:<br />
<a href="http://staff.pubhealth.ku.dk/~pd/ISwR.html">Peter Dalgaards Intro to stats with R</a> # beste Einführung, wo gibt ### ja-ha, ich kann Relativsätze!<br />
<a href="http://www.cup.cam.ac.uk/uk/catalogue/email.asp?isbn=9780521709187">Harald Baayens Analyzing linguistic data</a> # vielleicht nicht unbedingt die zugänglichste, aber vielleicht die tiefgehendste Einführung, die ich kenne</p>
<p>weiterhin empfehle ich:<br />
<a href="http://www.bio.ic.ac.uk/research/crawley/statistics/">Kleiner Crawley</a> # war vor Dalgaard mein Favorit<br />
<a href="http://www.bio.ic.ac.uk/research/mjcraw/therbook/index.htm">Großer Crawley</a> # vertieft die dinge, in denen Crawley sich am wohlsten fühlt; spart aber eigentlich auch das as, was man im kleinen vermisst; trotzdem 1A referenz<br />
<a href="http://www.stat.columbia.edu/~gelman/arm/">Gelman &#038; Hills Data Analysis and Multilevel/Hierarchical Models</a> # les ich gerade; viel draus zu lernen<br />
<a href="http://www.stat.ufl.edu/~aa/cda/cda.html">Agrestis Categorical Data Analysis</a> # classic<br />
<a href="http://groups.google.com/group/statforling-with-r">Gries, S. 2005/to appear. Statistics for linguistics with R: a practical introduction</a> # kennt ihr ja alle</p>
<p>Sonst koennt ihr auch gern mal <a href="http://www.r-project.org/doc/bib/R-books.html">hier </a>schauen</p>
<p>Ich freu mich - wie immer - auf euch</p>
<p>cheers,<br />
daniel</p>
]]></content:encoded>
			<wfw:commentRss>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?feed=rss2&amp;p=152</wfw:commentRss>
		</item>
		<item>
		<title>Philosophy of Science for (empirical) Linguists (in SS 2010?)</title>
		<link>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=147</link>
		<comments>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=147#comments</comments>
		<pubDate>Wed, 03 Feb 2010 13:41:53 +0000</pubDate>
		<dc:creator>DW</dc:creator>
		
		<category><![CDATA[Allgemein]]></category>

		<guid isPermaLink="false">http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=147</guid>
		<description><![CDATA[hallo zusammen,
ich wollte mal hören, ob es ein interesse daran gibt, im kommenden Semester, das &#8220;Tagesgeschäft&#8221; mit ein wenig Wissenschaftstheorie zu versuessen. In letzter Zeit orientiert sich ja in der Linguistik sehr sehr vieles an der Biologie (functional explanation, evolutionary processes,&#8230;) und diesen Trend kann man ja eigentlich nur begrüßen. Ich weiss nicht, ob es [...]]]></description>
			<content:encoded><![CDATA[<p>hallo zusammen,</p>
<p>ich wollte mal hören, ob es ein interesse daran gibt, im kommenden Semester, das &#8220;Tagesgeschäft&#8221; mit ein wenig Wissenschaftstheorie zu versuessen. In letzter Zeit orientiert sich ja in der Linguistik sehr sehr vieles an der Biologie (functional explanation, evolutionary processes,&#8230;) und diesen Trend kann man ja eigentlich nur begrüßen. Ich weiss nicht, ob es Zufall ist, aber wir scheinen leider auch eine weitere Eigenschaft mit den Biologen zu teilen, nämlich diejenige, nicht gerade die Könige der Theoriebildung zu sein. Wie dem auch sei, ich denke, dass in Zeiten, wo alles, was nicht bei Drei auf den Bäumen der Empirie ist, von den vermeintlichen Vorreitern oft nur noch milde belächelt wird, mehr denn je ein grosser Bedarf entstanden ist, die neuen Wege der Linguistik wissenschaftstheoretisch abzuklopfen.</p>
<p>Und dabei meine ich gar nicht das komische Gefühl, was in mir immer aufkommt, wenn ich Brown &#038; Miller&#8217;&#8217;s &#8220;Concise Encyclopedia of Syntactic Theories&#8221; in der Hand halte und mich frage, wieso wir eigentlich immer noch gefühlte 100,000 Syntaxtheorien parallel unterhalten&#8230;Was mir vorschwebt, betrifft Fragen, die sich mE jeder empirisch arbeitende Wissenschaftler irgendwann mal stellen sollte. Hier ein kleiner (absolut unsortierter) Auszug aus dem Katalog möglicher Fragen:</p>
<p>- kann man durch iteratives Ablehnen von NIL-hypothesen eigentlich überhaupt irgendwann zu einer vollständigen linguistischen Theorie gelangen (also, bevor unsere Sonne verglüht)?<br />
- was ist eigentlich der Unterschied zw. P(hypothesis|data) und P(data|hypothesis)? was davon suchen wir eigentlich und muss man das überhaupt wissen?<br />
- wie verhalten sich eigentlich explorative und hypothesenprüfende verfahren zueinander und wohin bewegt sich das feld/bzw sollte es sich bewegen<br />
- wenn wir strukturerkennede bzw. strukturgebene verfahren (zb. cluster analysen) einsetzen, wie koennen/sollten wir gegebene strukturen am besten validieren (und welche epistemologische rolle kommt dabei ggf. simulierten daten zu?)<br />
- was ist verhältnis von linguistischer theorie und methode? gibt es auf der einen seite die theoretiker und auf der anderen die &#8220;number-cruncher&#8221;?<br />
- sollten wir die konstrukte einer theorie nicht vielleicht über ihr messverfahren operationalisieren, anstatt dies konzeptuell zu tun? ich sag nur: prototypikalität von wortbedeutung und dessen definition über &#8220;cognitive saliency, frequency, centrality in some network, time of first attestation, time of acquisition, difficulty for L2 learners,&#8230;I could go on ;)&#8230;maybe these things should *not* be unified under a single label)<br />
- [to be continued]</p>
<p>inspiriert von dem (von mir so wahrgenommenen) erfolg unserer R gruppe, würde ich für diejenigen, die dazu lust haben, im kommenden SS ein wöchentliches treffen organisieren (denn ich muss ja immer noch nicht unterrichten <img src='/strato-data/Weblog25//wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> und möchte mich natuerlich trotzdem gern für die belange unseres schönen instituts einsetzen.</p>
<p>so, let me know if you are interested and I will start collecting appropriate materials</p>
<p>cheers,<br />
daniel</p>
<p>BTW: ich schlage übrigens vor, wir lassen die R gruppe einfach weiter laufen - gerne auch in der vorlesungsfreien zeit (wer urlaub macht oder keine lust mehr hat, muss natuerlich nicht kommen&#8230;ganz nach onkel humboldt)</p>
]]></content:encoded>
			<wfw:commentRss>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?feed=rss2&amp;p=147</wfw:commentRss>
		</item>
		<item>
		<title>Interpreting binomial logistic regression models (session Jan 26)</title>
		<link>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=113</link>
		<comments>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=113#comments</comments>
		<pubDate>Wed, 27 Jan 2010 11:56:07 +0000</pubDate>
		<dc:creator>DW</dc:creator>
		
		<category><![CDATA[Allgemein]]></category>

		<category><![CDATA[effect sizes]]></category>

		<category><![CDATA[logistic regression]]></category>

		<category><![CDATA[logit]]></category>

		<category><![CDATA[odds]]></category>

		<category><![CDATA[odds ratios]]></category>

		<guid isPermaLink="false">http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=113</guid>
		<description><![CDATA[hallo zusammen,
im anschluss an unsere gestrige diskussion, in der es darum ging, was genau denn nun die &#8220;estimates&#8221; der ß-koeffizienten ausdrücken, versuche ich mal, etwas licht ins dunkel zu bringen. 
also los: verdeutlichen wir uns das ganze mal anhand eines beispiels minimaler komplexität. dazu nehmen wir mal echte daten (nämlich Wiechmann in prep a &#8230; [...]]]></description>
			<content:encoded><![CDATA[<p>hallo zusammen,</p>
<p>im anschluss an unsere gestrige diskussion, in der es darum ging, was genau denn nun die &#8220;estimates&#8221; der ß-koeffizienten ausdrücken, versuche ich mal, etwas licht ins dunkel zu bringen. </p>
<p>also los: verdeutlichen wir uns das ganze mal anhand eines beispiels minimaler komplexität. dazu nehmen wir mal echte daten (nämlich Wiechmann in prep a &#8230; siehe &#8220;research&#8221;; da ist dann n &#8220;abstract&#8221; zur studie)<br />
sagen wir, wir interessieren uns für die produktion nicht-obligatorischer relativpronomina und wir vermuten, dass die produktion von &#8220;that&#8221; abhängig ist, vom typ des subjektes des RC</p>
<p>gegeben sind nun: counts der 2 faktoren (relativizer = absent/present &#038; RC.subject = lexical/pronominal)<br />
wir haben n=324 relevante datenpunkte, die sich so verteilen</p>
<p><img src="http://51090363.de.strato-hosting.eu/cgi-data/weblog_basic/uploads/2010/01/step1.jpg" alt="step1" title="step1" width="409" height="239" class="aligncenter size-full wp-image-114" /></p>
<p> der x^2 test unten deutet schon an, dass da offensichtlich ein starker zusammenhang besteht (goodbye H0!)</p>
<p> wir können nun auf der grundlage des tables das chancenverhältnis (also das odds ratio) berechnen:<br />
 dabei gilt:</p>
<p>	A = relativizer omitted (absent) bei lexikalischem subjekt<br />
	B = relativizer omitted (absent) bei pronominalem subjekt</p>
<p> odds(A) = p(A)/(1-p(A)) # odds definiert über probabilities</p>
<p> odds ratio = odds(A) / odds(B)</p>
<p>wir können das nun direkt über die kontingenztafel berechnen:</p>
<p>odds(A) = 9/84 # d.h., die chance, dass wir omission bei lexikalischem subjekt haben, ist 9 zu 84<br />
odds(B) = 145/86  # d.h., die chance, dass wir omission bei pronominalem subjekt haben, ist 145 zu 86</p>
<p>wir können das ganze in ein oder zwei schritten ausrechen; letzteres sieht dann so aus:</p>
<p>odds ratio = (9/84) / (145/86)</p>
<p>und das ist equivalent zu</p>
<p>odds ratio = (9*86) / (145*84) # klammerung ist natuerlich unwichtig hier</p>
<p>daraus ergibt sich dann ein wert für das <strong>odds ratio</strong> von <strong>0.063</strong><br />
in R kann man das übrigens bequem und schnell rechnen, wenn man aus &#8220;vcd&#8221; die funktion &#8220;oddsratio&#8221; anwendet:</p>
<p>oddsratio(table, log=F) # bei log = T bekämen wir den natürlichen logarithmus dieses wertes, der als assoziationsmaß oft benutzt wird; aber wir wählen den wert &#8220;FALSE&#8221;</p>
<p>was sagt und das jetzt?<br />
der wert 0.063 sagt uns, dass die chance, relativizer omission mit lexikalischen subjekten 0.063 mal so hoch ist, wie die chance, relativizer omission mit pronominalen subjekten zu haben.</p>
<p>aber so denkt ja kein mensch; hätten wir die frage bloß umgekehrt gestellt; dann wär alles recht intuitiv:<br />
na gut: tauschen wir halt die spalten für lexical und pronominal (drehen also die perspektive um). dann bekommen wir [ (145*84)/(9*84) = ] <strong>15.73</strong> und das sagt nun, dass die chance, relativizer omission mit pronominalen subjekten 15.73 mal so hoch ist, wie die chance, relativizer omission mit lexikalischen subjekten zu haben.</p>
<p>so weit, so gut<br />
aber was hat das nun mit den koeffizienten in unserem log. reg. model zu tun<br />
um das gaaanz klar zu machen habe ich unsere dependent var, relativizer omission mal umkodiert, so dass<br />
omission = 1 bedeutet, da wurde der relativizer weggelassen und<br />
omission = 0 bedeutet, da wurde der relativizer nicht weggelassen</p>
<p>wir fitten das mal mit &#8220;glm&#8221; und kriegen diesen output<br />
<img src="http://51090363.de.strato-hosting.eu/cgi-data/weblog_basic/uploads/2010/01/step2.jpg" alt="step2" title="step2" width="518" height="465" class="aligncenter size-full wp-image-115" /><br />
wir sehen da also einen geschätzten ß-koeffizienten für RC.subjectprn (also pronominal) von 2.75<br />
wenden wir darauf die exponentialfunktion an [in R mit exp(coefficients(model)) , oder meinetwegen auch einfach exp(2.7560)], bekommen wir obigen wert von<br />
exp(coefficient) = 15.73 = odds ratio (aus der perspektive: pronominal zu lexical subject); das bedeutet nun, dass die chance auf relativizer omission fast 16 mal größer ist, wenn das RC-subjekt pronominal ist (ggü. dem fall, dass es lexikalisch ist).</p>
<p>daraus folgt, dass unsere koeffizienten im modell als log(odds ratios) ausgedrückt werden # und nicht als log(odds), bis auf den intercept: da ist es tatsächlich ein ausdruck der odds, aber dazu naechstes mal mehr </p>
<p>ok, hier könnten wir aufhören. aber oft wird dafür argumentiert, die koeffizienten noch weiter zurückzuwandeln, um &#8220;<strong>changes in predicted probabilities</strong>&#8221; zu bekommen<br />
kann man ja machen (das manuelle berechnen sollte ja nun klar sein [ p = odds/(1+odds) ], einfacher gehts mit der R-funktion &#8220;inv.logit&#8221; aus der library &#8220;gtools&#8221;; lädt man die, kann nun anwenden:</p>
<p><strong>inv.logit(coefficients(model))</strong> und bekommt<br />
für RC.subjectprn einen wert von <strong>0.9402501</strong></p>
<p>und hier wirds haarig - finde ich-, denn nun muessen wir uns ja fragen, was der wert uns nun genau sagen will&#8230;<br />
ist die wahrscheinlichkeit für relativizer omission nun um 94% größer, wenn wir es mit pronominalen subjekten zu tun haben, als wenn wir es mit lexikalischen subjekten zu tun haben? &#8230; oder gegenüber dem default (also, ich meine, ohne wissen um den faktor)? &#8230;oder wie?<br />
und wenn ja, muss man sich nun nicht fragen, ob das tatsächlich leichter zu interpretieren ist als ein odds ratio?</p>
<p>vielleicht wird das klarer, wenn wir uns mal die modellvorhersagen anschauen; dazu koennen wir die function &#8220;predict&#8221; verwenden (eigentlich predict.glm &#8230; aber das peilt R automatisch)</p>
<p>na jut,&#8230; dann wollen wir mal:<br />
als erstes berechnen wir die vorhersagen in logits, in der hoffnung, so schneller irgendwelche werte wiederzuerkennen.</p>
<p><strong>predicted.logits = predict(model, type&#8221;link&#8221;) </strong># type= link spezifiziert hier, dass die werte in logits ausgedrückt werden, denn das ist ja unsere link-funktion</p>
<p>dann plotten wir den kram mal mit<br />
<strong>plot(predicted.logits~RC.subject)</strong></p>
<p>und so sieht das dann aus:<br />
<img src="http://51090363.de.strato-hosting.eu/cgi-data/weblog_basic/uploads/2010/01/step-41.jpg" alt="step-41" title="step-41" width="381" height="448" class="aligncenter size-full wp-image-120" /><br />
wir sehen auf dem plot die werte -2.23 (für die variante RCsubject=lexical) und 0.52 (für die variante RCsubject=pronominal)<br />
wir koennen das sehen, wenn wir den vektor &#8220;predicted.logits&#8221; callen; dort wird jeder zelle (factor-level combination) einer der beiden werte zugeordnet; d.h. wir bekommen 324 schätzungen (= sample size); da wir nur einen binaeren faktor im modell haben, bekommen wir auch nur 2 typen von werten, die mit den jeweiligen factor-levels korrespondieren.<br />
die einzelnen vorhersagen koennen wir auch mal plotten mit</p>
<p>plot(predicted.probability, ylim=c(0,1), ylab=&#8221;pred. probability for r-omission&#8221;, xlab=&#8221;observations in data set&#8221;)</p>
<p>das sie dann so aus:<br />
<img src="http://51090363.de.strato-hosting.eu/cgi-data/weblog_basic/uploads/2010/01/step-5.jpg" alt="step-5" title="step-5" width="508" height="415" class="aligncenter size-full wp-image-130" /><br />
das vergleichen wir nun mit:</p>
<p>predicted.probabilities = predict(model, type=&#8221;response&#8221;) # type= response spezifiziert hier, dass die werte in wahrscheinlichkeiten ausgedrückt werden, denn wir wollen wissen, wie sich P(Y=1) in abhängigkeit von RC.subject einschätzen laesst. dann mal sehen:</p>
<p>plot(predicted.probabilities~RC.subject) # und das ergibt dann<br />
<img src="http://51090363.de.strato-hosting.eu/cgi-data/weblog_basic/uploads/2010/01/step-31.jpg" alt="step-31" title="step-31" width="381" height="448" class="aligncenter size-full wp-image-121" /><br />
die werte dort sind: </p>
<p>0.627 für den fall, dass das RC-subjekt pronominal ist und<br />
0.097 für den fall, dass das RC-subjekt lexikalisch ist</p>
<p>aber das ist nun irgendwie auch n bischen lame, denn das haette ich auch im kopf mit hilfe der kontingenztafel ausgerechnete haben können:<br />
<img src="http://51090363.de.strato-hosting.eu/cgi-data/weblog_basic/uploads/2010/01/b1.jpg" alt="b1" title="b1" width="792" height="193" class="aligncenter size-full wp-image-134" /></p>
<p>naja&#8230;<br />
aber zurück zu dem in (changes in) Pr überführte ß-koeffizienten. der hatte nun aber ja einen wert von 0.9402501. bedeutet das nun, dass die wahrscheinlichkeit für r-omission bei pronominalen subjekten auf 94% geschätzt wurde? das sieht <a href="http://www.r-tutor.com/elementary-statistics/logistic-regression/estimated-logistic-regression-equation">hier </a>ja ganz so aus.<br />
aber das passt aber nicht wirklich zu der &#8220;changes in probability&#8221;-idee &#8230;</p>
<p>zwischenstand: da bleib ich lieber bei den odds ratios</p>
<p>best,<br />
daniel</p>
<p>PS: hier noch ein paar kommentare zu den estimates; speziel den zurückgewandelten logits:</p>
<p>wir wissen ja &#8230; :</p>
<p>- logistic slope (= ß-) coefficients can be interpreted as the effect of a one unit change in the X variable on the predicted logits (with the other variables in the model held constant)<br />
- so the estimate indicates how a one unit change in X effects the log of the odds (when the other variables in the models are held constant)</p>
<p>daraus folgt:</p>
<p>- odds ratios in LR can be interpreted as the effect of a one unit change in X in the predicted odds ratio (with the other variables in the model held constant)<br />
- wir bekommen also: odds (if the corresponding variable is incremented by 1) / odds (if the corresponding variable is NOT incremented)<br />
- und das entspricht: P(event| x + 1) / (1 - P(event| x + 1)) / P(event| x) / (1 - P(event| x))</p>
<p>der P wert, den wir aus der anwendung von inv.logit(coefficients) bekommen entspricht nun <strong>Odds Ratio / 1 + odds ratio</strong> = (15.79/1+15.79 = 0.94) # inv.logit ist in library(gtools)</p>
]]></content:encoded>
			<wfw:commentRss>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?feed=rss2&amp;p=113</wfw:commentRss>
		</item>
		<item>
		<title>Warten auf Weihnachten &#8230; und Session 9</title>
		<link>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=99</link>
		<comments>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=99#comments</comments>
		<pubDate>Thu, 17 Dec 2009 11:33:11 +0000</pubDate>
		<dc:creator>DW</dc:creator>
		
		<category><![CDATA[Allgemein]]></category>

		<guid isPermaLink="false">http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=99</guid>
		<description><![CDATA[hallo zusammen,
hoffe, ihr habt die weihnachtsfeier gut überstanden&#8230;schiete, dass ich nicht dabei sein konnte&#8230;
jedenfalls hab ich vorhin den workspace und die history von Session 8 hochgeladen. &#8220;hausaufgaben&#8221; gabs nicht 
nach den &#8220;ferien&#8221; also zum Dienstag, d. 6.1., treffen wir uns dann wieder und schauen uns dann mal das Design-Paket an - würde ich vorschlagen. Wie [...]]]></description>
			<content:encoded><![CDATA[<p>hallo zusammen,</p>
<p>hoffe, ihr habt die weihnachtsfeier gut überstanden&#8230;schiete, dass ich nicht dabei sein konnte&#8230;</p>
<p>jedenfalls hab ich vorhin den workspace und die history von Session 8 hochgeladen. &#8220;hausaufgaben&#8221; gabs nicht <img src='/strato-data/Weblog25//wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /><br />
nach den &#8220;ferien&#8221; also zum Dienstag, d. 6.1., treffen wir uns dann wieder und schauen uns dann mal das Design-Paket an - würde ich vorschlagen. Wie gesagt, wenn ihr die Baayen-Sachen mal nachmachen wollt, findet sich alles dazu Relevante im Paket &#8220;languageR&#8221;.</p>
<p>hier noch ein paar nachgedanken zur letzten sitzung:<br />
<strong>frage: was sagt uns eigentlich die ANOVA [also anova(model, test="Chisq") ] was wir nicht schon aus &#8220;summary (model)&#8221; wissen? </strong><br />
<img src="http://51090363.de.strato-hosting.eu/cgi-data/weblog_basic/uploads/2009/12/maxmod.bmp" alt="maxmod" title="maxmod" class="aligncenter size-full wp-image-106" /><br />
die anova-funktion erzeugt ja einen <strong>&#8220;analysis of deviance table&#8221;</strong> [<strong>deviance </strong>is the difference between the maximized value of "-2 log L" [also: negative two times the log <strong>likelihood</strong>, which is a measure of how well the fitted model matches the observed values of the outcome or dependent variable; kernkonzept ist hier "likelihood", das wir nur gaaanz am rande besprochen haben [--> maximum likelihood estimation &#038; method of least squares] schaut einfach mal hier &#8211;> http://mathworld.wolfram.com/Likelihood.html ]. hier der output zu obigem model:<br />
<img src="http://51090363.de.strato-hosting.eu/cgi-data/weblog_basic/uploads/2009/12/anovamaxmod.bmp" alt="anovamaxmod" title="anovamaxmod" class="aligncenter size-full wp-image-107" /><br />
der &#8220;deviance&#8221;-ausdruck quantifiziert immer einen vergleich zweier modelle; hier die jeweiligen modelle ohne und mit dem jeweiligen faktor.<br />
wie man dem deviance table entnehmen kann, werden die terme dort schrittweise ge-added und evaluiert. der erstgenannte term (extern.role) wird demnach mit dem null modell verglichen und seine aufnahme in das modell reduziert die deviance um 15.649 auf (33.09 - 15.649 =) 17.441; wird danach der term extern.role hinzugefügt, reduziert sich die deviance um weitere 14.861 punkte auf 2.58. die verbesserung ist also etwas geringer als im ersten schritt. das ist aber generell zu erwarten, denn das model incl. einem erklärenden faktor ist natuerlich schwerer zu verbessern als das null modell. aus diesem grund ist die reihenfolge der aufnahme der faktoren wichtig. hier der deviance table mit umgekehrter reihenfolge:<br />
<img src="http://51090363.de.strato-hosting.eu/cgi-data/weblog_basic/uploads/2009/12/altmod.bmp" alt="altmod" title="altmod" class="aligncenter size-full wp-image-104" /><br />
die umgekehrter reihenfolge laesst den faktor extern.role wichtiger erscheinen als zuvor, denn in der ersten reihenfolge war die deviance-verkleinerung 33.09 - 15.649 (intern) - 14.861 (extern); in der alternativen reihenfolge erhalten wir denselben gesamtwert in den schritten 33.09 - 21.6 (extern) - 8.9 (intern) = 2.58.<br />
letztlich behalten wir aber beide faktoren, da beide in beiden reihenfolgen stat. signifikante verbesserungen des modells erzeugen.<br />
wir können die anova funktion so also zur modellvereinfachung nutzen, indem wir die faktoren aus dem modell entfernen, die nicht als stat. sig. eingestuft werden, müssen dabei aber vorsichtig sein und ggf. verschiedene (&#8211;>alle) reihenfolgen brücksichtigen. </p>
<p><strong>aber wir haben unsere modelle (contrast daten) doch auf der grundlage der summary funktion vereinfacht&#8230;war das denn nun falsch?</strong><br />
naaa, das war bisher ok, denn alle unsere <strong>faktoren </strong>waren <strong>binär</strong>. die <strong>summary-funktion</strong> evaluiert ja jeden factor-level ggü. dem jeweiligen  default-level des faktor (&#8211;>derjenige factor-level, dessen name alphabetisch erstgenannt ist). der nutzen der <strong>anova </strong>für den prozess der modellvereinfachung - darauf hatten wir uns ja bereits geeinigt - liegt in der tatsache das sie erlaubt, die relevanz eines faktors über seine levels hinweg zu beurteilen, was immer dann hilfreich ist, wenn unsere <strong>faktoren mehr als 2 levels</strong> haben.<br />
[to be continued]</p>
<p>Ein schönes Fest, guten Rutsch und alles,<br />
Daniel</p>
]]></content:encoded>
			<wfw:commentRss>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?feed=rss2&amp;p=99</wfw:commentRss>
		</item>
		<item>
		<title>Session 8: A first look at ~</title>
		<link>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=94</link>
		<comments>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=94#comments</comments>
		<pubDate>Wed, 09 Dec 2009 13:27:24 +0000</pubDate>
		<dc:creator>DW</dc:creator>
		
		<category><![CDATA[Allgemein]]></category>

		<guid isPermaLink="false">http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=94</guid>
		<description><![CDATA[für diejenigen, die den Manning-Text gelesen haben &#8211;> dort heisst es:
&#8220;lrm [das ist die funktion aus dem Design-package, die log. regression modelle anpasst] has a really nice option to plot the logit coefficients (turned back into probabilities) for each level of each factor. AFAIK, you can&#8221;&#8221;t do this with glm&#8221;
diese plots hab ich gestern gaaanz [...]]]></description>
			<content:encoded><![CDATA[<p>für diejenigen, die den Manning-Text gelesen haben &#8211;> dort heisst es:</p>
<p>&#8220;<em>lrm</em> [das ist die funktion aus dem Design-package, die log. regression modelle anpasst] <em>has a really nice option to plot the logit coefficients (turned back into probabilities) for each level of each factor. AFAIK, you can&#8221;&#8221;t do this with glm</em>&#8221;</p>
<p>diese plots hab ich gestern gaaanz zum schluss gezeigt (und war ganz euphorisch. egal&#8230;jedenfalls geht es auch ohne &#8220;design&#8221; (zumindest wenn man &#8220;MASS&#8221; lädt) und sogar etwas schöner; hier ein bespiel&#8230;<br />
<div id="attachment_96" class="wp-caption alignnone" style="width: 557px"><img src="http://51090363.de.strato-hosting.eu/cgi-data/weblog_basic/uploads/2009/12/predicted.jpg" alt="logit coefficient (back to Pr) for levels of extern.height" title="predicted" width="547" height="546" class="size-full wp-image-96" /><p class="wp-caption-text">logit coefficient (back to Pr) for levels of extern.height</p></div></p>
<p>wir besprechen das wohl alles in der übernächsten sitzung; ich werd zusehen (<&#8211; die konstruktion ist vielleicht ungrammatisch in euren dialekten <img src='/strato-data/Weblog25//wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /> , dass wir erstmal ohne &#8220;Design&#8221; auskommen können, um die Dinge nicht komplizierter als notwendig zu machen.</p>
<p>OK,<br />
best,<br />
daniel</p>
]]></content:encoded>
			<wfw:commentRss>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?feed=rss2&amp;p=94</wfw:commentRss>
		</item>
		<item>
		<title>Session 7: Model simplification</title>
		<link>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=85</link>
		<comments>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=85#comments</comments>
		<pubDate>Wed, 09 Dec 2009 09:20:48 +0000</pubDate>
		<dc:creator>DW</dc:creator>
		
		<category><![CDATA[Allgemein]]></category>

		<guid isPermaLink="false">http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=85</guid>
		<description><![CDATA[hallo,
gestern haben wir ne ganze menge geschafft - ich war zumindest ganz zufrieden. wir haben nun die ersten schritte hin zu einem vernünftigen einsatz stat. modelle gemacht und uns mit der standard R-implementation (glm) ansatzweise vertraut gemacht. wenn wir alle größen verstehn, die R im summary-output gibt, dann ist schon sehr viel gewonnen (dazu noch [...]]]></description>
			<content:encoded><![CDATA[<p>hallo,</p>
<p>gestern haben wir ne ganze menge geschafft - ich war zumindest ganz zufrieden. wir haben nun die ersten schritte hin zu einem vernünftigen einsatz stat. modelle gemacht und uns mit der standard R-implementation (glm) ansatzweise vertraut gemacht. wenn wir alle größen verstehn, die R im summary-output gibt, dann ist schon sehr viel gewonnen (dazu noch ein kleiner tipp: fügt am besten immer das argument &#8220;correlation =T&#8221; hinzu (also <strong>summary(model, correlation = T</strong>); damit bekommt ihr zu den ganzen dingen, die wir gestern besprochen haben noch eine korrelationsmatrix der koeffizienten; stark korrelierte variablen bringen eine gewisse redundanz in unsere erklärung; dazu bald mehr).</p>
<p>für diejenigen unter uns, die in der letzten zeit (oder vielleicht generell) eher wenig erfahrung mit stat. konzepten hatten, muss das hier natuerlich ein wenig heftig sein - denn das thema ist ja bereits recht &#8220;advanced&#8221; und setzt eine menge fundamentalwissen voraus. aber vielleicht koennen wir die lücken erkennen und quasi rückschauend systematisch schliessen. zur naechsten sitzung hatten wir vereinbart, dort anzusetzen und aus baayen (2008) folgende seiten durchzuackern!</p>
<p><strong>Baayen (2008: 165-169) &#038; (2008:195-202)<br />
</strong><br />
der gute harald macht alles idR ziemlich krass-gut (!), neigt allerdings dazu, seinen leser hin und wieder abzuschuetteln (zumindest ging es mir des oefteren so; wenn man sich wieder rangekämpft hat, weiss man die baayen-power <img src='/strato-data/Weblog25//wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> aber wieder zuschätzen) - ich weiss noch nicht, ob der Baayen-text generell zugänglich genug ist; wir koennen ja mal sehen&#8230;</p>
<p>ihr werdet sehen, dass baayen auch das <strong>&#8220;dependent-as-success/failure-matrix&#8221; format</strong> benutzt. nächstes mal schauen wir uns nochmal an, wie wir aus der &#8220;raw data&#8221;-matrix schnell zu diesem format kommen (easy): </p>
<p>wer schonmal ein weing probieren will:<br />
wenn &#8220;a&#8221; unsere daten sind, die so angeordnet sind, wie sie erhoben werden sollten, so dass also jede spalte eine variable benennt und jede zeile einen fall beschreibt, koennen wir einfach folgendes machen: </p>
<p>new.dataframe=as.data.frame(table(a))  # von hier an ists dann noch kleinkram</p>
<p>outlook: <strong>likelihood profiling</strong><br />
<img src="http://51090363.de.strato-hosting.eu/cgi-data/weblog_basic/uploads/2009/12/profile_plot1.jpg" alt="&quot;Profile Plot&quot; für faktoren des MinAdModells von gestern (contrast data)" title="profile_plot1" width="547" height="546" class="size-full wp-image-92" /></p>
<p>und zum schluss, ich wollte eben die aktuelle version meiner präsi und den R-workspace hochladen, bekomme hier aber aus mir unerklärlichen gründen grad keinen FTP-zugriff auf meine seite. ich probiers aber mutig weiter und sag dann nochmal bescheid&#8230;</p>
<p>ok - schönes WE und<br />
best,<br />
daniel</p>
]]></content:encoded>
			<wfw:commentRss>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?feed=rss2&amp;p=85</wfw:commentRss>
		</item>
		<item>
		<title>Session 6: GLMs and Binomial Logistic Regression</title>
		<link>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=70</link>
		<comments>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=70#comments</comments>
		<pubDate>Wed, 02 Dec 2009 16:33:51 +0000</pubDate>
		<dc:creator>DW</dc:creator>
		
		<category><![CDATA[Allgemein]]></category>

		<guid isPermaLink="false">http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=70</guid>
		<description><![CDATA[gestern haben wir ja mit der besprechung der präsentation weitergemacht und haben uns eine (vermeintlich inadequate) modelstruktur in R angeschaut. diese hatte ja folgende form:
attach(data.dataframe.as.typically.collected) # each row is case
model < - glm ( language ~ pred1 + pred2 + ... + interaction(s), family = binomial)
hier ein bsp:
alt(ernative).mod(el) ist ein generalisiertes lineares modell (glm), in [...]]]></description>
			<content:encoded><![CDATA[<p>gestern haben wir ja mit der besprechung der präsentation weitergemacht und haben uns eine (vermeintlich inadequate) modelstruktur in R angeschaut. diese hatte ja folgende form:<br />
attach(data.dataframe.as.typically.collected) # each row is case<br />
model < - glm ( language ~ pred1 + pred2 + ... + interaction(s), family = binomial)<br />
hier ein bsp:<br />
alt(ernative).mod(el) ist ein generalisiertes lineares modell (glm), in dem die binaere variable "language" als funktion der 3 variablen "embedding" (2 level: center vs. right embedding), ani(macy of the).head (noun of RC) (2 levels: +/-), sowie extern.height (2 levels: high/low ~ kopf is argument oder adjunkt), sowie zweier interaktionen (die doppelpunkt-ausdrücke) modelliert wurde. hier der R output nach dem call:<br />
<img src="http://51090363.de.strato-hosting.eu/cgi-data/weblog_basic/uploads/2009/12/altmod.jpg" alt="altmod" title="altmod" width="746" height="532" class="alignnone size-full wp-image-71" /><br />
die variable &#8220;language&#8221; ist hier ein vektor/eine liste von 500 verketteten variablenausprägungen des o.g. faktors.<br />
die vielleicht zu präferiende (ich bin mir da noch nicht so sicher) struktur sieht vor, die &#8220;dependent var&#8221; als &#8220;success/failure-array&#8221; anzuordnen (wie wir es uns gestern angeschaut haben). tut man dies und hält die systematische komponente stabil, bekommt man das hier:<br />
<img src="http://51090363.de.strato-hosting.eu/cgi-data/weblog_basic/uploads/2009/12/logmod.jpg" alt="logmod" title="logmod" width="748" height="530" class="alignnone size-full wp-image-73" /><br />
mal abgesehen davon, dass die vorzeichen der koeffizienten komplementär sind (was leicht zu beheben ist, indem man die factor-levels einfach derart umbenennt, dass ihre alphabetische reihenfolge umgekehrt wird), bekommen wir im prinzip das gleiche ergebnis. die degrees of freedom der modelle sind aufgrund der unterschiedlichen dateneingabe unterschiedlich, aber die differenz zw. null deviance und residual deviance ist in beiden fällen identisch, nämlich 127.63. (wir haben noch nicht geklärt, was es damit aufsicht hat, werden das aber bald tun). der wert des <a href="http://en.wikipedia.org/wiki/Akaike_information_criterion">AIC</a> ist auch identisch. die &#8220;fisher scoring iterations&#8221; sind quasi gleich kurz (&#8211;>gut).</p>
<p>im moment sieht es für mich so aus, als hatten wir hier eine wahl bezgl. der dateneingabe (aber ich les das nochmal nach).<br />
apropos lesen: wir (also ich) muesen nun mal nach texten ausschau halten, die geeignet sind euch schnell und einfach in die lage zu verstzen die ganzen statistischen kenngrössen, diie R da ausspuckt zu verstehen. ich kuemmer mich morgen mal um die textauswahl (alle bücher im büro). schaut euch doch bitte mal das file &#8220;logistic.pdf&#8221;, welches im DL bereich hier liegt; vielleicht setzt das zuviel voraus&#8230;ich weiss nicht&#8230;schaut einfach mal.</p>
<p>best,<br />
d.</p>
]]></content:encoded>
			<wfw:commentRss>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?feed=rss2&amp;p=70</wfw:commentRss>
		</item>
		<item>
		<title>Session 5: Stat. Modeling and GLMs (cont.)</title>
		<link>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=67</link>
		<comments>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=67#comments</comments>
		<pubDate>Thu, 26 Nov 2009 10:40:49 +0000</pubDate>
		<dc:creator>DW</dc:creator>
		
		<category><![CDATA[Allgemein]]></category>

		<guid isPermaLink="false">http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=67</guid>
		<description><![CDATA[hallo zusammen,
in der letzten sitzung haben wir ein paar grundsätze des statistischen modellierens angesprochen (balancing model complexity and descriptive adequacy/predictive power). ich habe vorhin -neben dem R-workspace zu session 3- meine präsentation dazu hochgeladen (pptx &#038; pdf). für die, die nicht da sein konnten und die, die alles bereits wieder vergessen haben  &#8211;> wir [...]]]></description>
			<content:encoded><![CDATA[<p>hallo zusammen,</p>
<p>in der letzten sitzung haben wir ein paar grundsätze des statistischen modellierens angesprochen (balancing model complexity and descriptive adequacy/predictive power). ich habe vorhin -neben dem R-workspace zu session 3- meine präsentation dazu hochgeladen (pptx &#038; pdf). für die, die nicht da sein konnten und die, die alles bereits wieder vergessen haben <img src='/strato-data/Weblog25//wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /> &#8211;> wir haben noch nicht über <strong>GLM</strong>s gesprochen und die ersten slides (zu components of a GLM) lässig uebersprungen, um uns einem einfachen beispiel zuzuwenden (p. 16 +), welches die <strong>methode der kleinsten quadrate</strong> illustriert. dort hatten wir es mit der <strong>modellierung einer kontinuierlichen variable y durch genau eine ebenfalls kontinuierlichen variable x </strong>zu tun. </p>
<p>ich würde in der nächsten sitzung dort gern ansetzen und im idealfall besprechen, wie man solche ordinären linearen regressionsmodelle generalisieren kann und im speziellen auf den fall hinarbeiten, dass die zu erklärende variable (response) genau 2 ausprägungen hat und wir deren verhalten als funktion mehrerer kategorialen variablen (predictors) erklären wollen. um die logik der einfachen regression auf solche fälle anwenden zu können, müssen wir uns einer reihe von &#8220;tricks&#8221; bedienen und um diese zu verstehen werden wir uns nächstes mal mit den <strong>drei komponenten</strong> eines &#8220;<strong>verallgemeinerten linearen modells&#8221; (=generalized linear model (GLM))</strong> beschäftigen, nämlich</p>
<p>1. <strong>Random component</strong> (Zufallskomponente)<br />
2. <strong>Systematic component</strong> (Systematische Komponente)<br />
3. <strong>Link function </strong>((Parametrische) Link-Komponente)</p>
<p>Wir werden dann sehen, dass das was man als &#8220;<strong>logistische regression</strong>&#8221; bezeichnet, ein spezieller Sub-Typ von GLM ist, der geeignet ist, o.g. Fälle (binäre dependent ~ <em>k</em> kategoriale Covariablen) zu modellieren. das schauen wir uns dann kommende woche an.</p>
<p>btw, die <strong>kommentare </strong>zu den sitzungen sind ja (noch) recht dünn&#8230;anstelle potentielle fragen zu themen vergangener sitzungen in extenso in den jeweilig folgenden sitzungen zu besprechen, bietet es sich an, dieses forum vielleicht mit solchen fragen zu bestücken. die tatsache, dass man seine fragen hier natuerlich schriftlich hinterlegt, hat zudem den vorteil, dass man sich mehr gedanken um deren formulierung macht, was ja in vielen faellen zum verständnis beiträgt. ausserdem schaufelt das natuerlich eine menge zeit frei.</p>
<p>vorbereiten könnt ihr euch mit der vertieften lektüre des crawley textes, den karsten rumgeschickt hatte  und wenn möglich, indem ihr euch die <a href="http://en.wikipedia.org/wiki/Binomial_distribution">binomialverteilung </a> mal (wieder) anschaut. In der Regel sind die Wiki Beiträge zu diesen Dingen mE extrem schlecht didaktisiert und listen eigentlich nur Eigenschaften. Schaut doch mal <a href="http://www.statsoft.com/textbook/Stathome.html">hier</a>(super online textbook), <a href="http://www.mathe-online.at/materialien/harald.krauss/files/binomial.htm">hier </a>(nette illustration von harald kraus (kein plan, wer das ist,&#8230;aber egal)), und <a href="http://www.youtube.com/watch?v=O12yTz_8EOw">hier</a> (get yourself a cup of coffee (or green tea if you must) and enjoy).</p>
<p>ok, dann bis spätestens dienstag, daniel</p>
]]></content:encoded>
			<wfw:commentRss>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?feed=rss2&amp;p=67</wfw:commentRss>
		</item>
		<item>
		<title>kolloq -&gt; stat.group</title>
		<link>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=60</link>
		<comments>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=60#comments</comments>
		<pubDate>Thu, 19 Nov 2009 10:07:51 +0000</pubDate>
		<dc:creator>DW</dc:creator>
		
		<category><![CDATA[Allgemein]]></category>

		<category><![CDATA[binomial logistic regression]]></category>

		<category><![CDATA[plotting logit coefficient (turned back to probs)]]></category>

		<guid isPermaLink="false">http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?p=60</guid>
		<description><![CDATA[hier ein kleiner nachtrag zu meinem kolloq-talk, der irgendwie nicht so gelaufen ist, wie ich mir das vorgestellt habe&#8230;egal. jedenfalls ist das hier der typ von plot, den man mE zu logistischen regressionsmodellen berichten sollte. man sieht dort die logit-koeffizienten zurückgewandelt in wahrscheinlichkeiten. 
ok, best,
daniel
]]></description>
			<content:encoded><![CDATA[<p>hier ein kleiner nachtrag zu meinem kolloq-talk, der irgendwie nicht so gelaufen ist, wie ich mir das vorgestellt habe&#8230;egal. jedenfalls ist das hier der typ von plot, den man mE zu logistischen regressionsmodellen berichten sollte. man sieht dort die logit-koeffizienten zurückgewandelt in wahrscheinlichkeiten. </p>
<p>ok, best,<br />
daniel<img src="http://51090363.de.strato-hosting.eu/cgi-data/weblog_basic/uploads/2009/11/predict_donor_l1.jpg" alt="predict_donor_l1" title="predict_donor_l1" width="671" height="670" class="alignnone size-full wp-image-61" /></p>
]]></content:encoded>
			<wfw:commentRss>http://daniel-wiechmann.eu/cgi-bin/weblog_basic/index.php?feed=rss2&amp;p=60</wfw:commentRss>
		</item>
	</channel>
</rss>

