Marc Röttig
marc@roettig.org
Hat man sich nun für eine Funktion
entschieden, welche die gemessene Antwort
des
System auf Eingaben
modellieren soll, so lautet die Forderung aller
Linear Least-Squares-Methoden 1, daß die Summe der Residualfehlerquadrate
minimiert werden soll.
Im Fall der Wahl einer linearen Ausgleichsfunktion
folgt für den summierten Residualquadratfehler
der, per Definition des Least-Squares Fit, zu minimieren ist.
Da Minimierungsproblemen stetiger Funktionen stets über die Bestimmung von Nullstellen der Ableitungen erfolgen
kann, lautet der weitere Schritt für die Bestimmung der Parameter
:
![]() |
|||
![]() |
was sich umformen lässt zu
![]() |
![]() |
||
![]() |
![]() |
was folgendem zweireihigem Gleichungssystem entspricht
![]() |
In expliziter Form ergeben sich die Darstellung von
und
(z.B. schnell mittels Cramerscher Regel) zu
![]() |
|||
![]() |
Nimmt man als Ausgleichsfunktion
an , so folgt damit für den summierten Residualquadratfehler
Um nun die Werte der Parameter
,
und
zu berechnen, bestimmt man wieder die Nullstellen der Ableitungen (
Kettenregel) von
nach den 3 Parametern
![]() |
|||
![]() |
|||
![]() |
Nun lassen sich die 3 obigen Gleichungen umformen zu
![]() |
![]() |
||
![]() |
![]() |
||
![]() |
![]() |
und somit in Matrixschreibweise zu folgendem Gleichungssystem
das sich mittels Matrixinversion von A
leicht lösen lässt 2. Die Lösung für
die Parameter
ergibt sich zu
Analog zum obigen Least-Squares Fit mit ein Polynom 2. Grades ergibt sich die Lösung für den Fit mit einem
Polynom m.-ten Grades
durch Lösung des folgenden
-Gleichungssystems:
Entscheidet man sich, als Modellierungsfunktion eine Linearkombination von beliebigen mehrdimensionalen
skalarwertigen Funktionen
zu verwenden (bspw.
), wobei
die i.-te Messung des Systems mit der zughörigen Antwort
ist,
so lässt sich die Lösung des Least-Squares-Fit mittels der Designmatrix
angeben :
Mithilfe dieser Desginmatrix
läßt sich, klassisch nach Gauß, das Gleichungssystem formulieren,
das es zu lösen gilt, um die Parameter des Modells zu bestimmen :
Dieses Gleichungssystem läßt sich durch Matrixinversion der
Matrix
leicht nach
auflösen.
Ist speziell
also mit
und
so ist die Designmatrix X
Die Lösung
des Least-Squares-Fit der linearen Funktion
an die Daten war gegeben durch
von y, die definiert ist als
Die Gesamtvariation der Regression ist dann gegeben durch
wobei
gerade dem Mittelwert der y-Werte entspricht. Hieraus kann man den Schätzer für die Varianz der Grundgesamtheit zu
bestimmen.
Betrachtet man nun die Gesamtvariation
, so kann man folgende
Zerlegung 3der Gesamtvarianz
durchführen
wobei
der Sum-of-Squares-Regression ist, also die, durch die Regression (also das Modell) beschriebene bzw. erklärte Varianz.
ist der Sum-of-Squares-Error, welcher als Restvariabilität betrachtet wird, die zufällig ist und
durch das Modell nicht erklärt werden kann.
Um nun die Güte des Modells, also die Güte der Anpassung an die Meßdaten, zu bestimmen kann man nun den Anteil der erklärten Variabilität
an
der Gesamtvariabilität
der y-Werte betrachten und erhält das Bestimmtheitsmaß
und den Korrelationskoeffizienten
Das Bestimmtheitsmaß
ist ein Maß für die Güte des Fits der Regression an die Meßdaten. Liegt ein perfekter Fit an die Daten vor ist
und somit
. Je besser die Güte der Anpassung, desto näher liegt
bei 1, je schlechter die Güte der Anpassung desto näher liegt
bei 0. Ein hoher Wert von
sagt jedoch noch nichts darüber aus, ob die gewählten Variablen die Meßdaten sinnvoll erklären. So lassen sich beispielsweise mit hinreichend vielen Variablen beliebige Meßdaten perfekt modellieren, jedoch liegt dann aufgrund der vielen Variablen ein Overfitting vor. Man sagt es fehlt dann an
Generalisierungsfähigkeit des Modells 4.
Da
mit steigender Variablenzahl
wächst, führt man folgende Normierung von
durch und erhält
um
an die Anzahl der erklärenden Variablen anzupassen.
Ein weitere Methode zur Bestimmung der Güte einer Regression ist der F-Test, der überprüft, ob die erklärenden Variablen
einen
sigifikanten Einfluß auf
haben. Wir benötigen folgende Werte der Regression
| Variationsquelle | Freiheitsgrade | ||
| Regression | m |
|
|
| Residualfehler | n-m-1 |
|
|
| Gesamt | n-1 |
Der Wert für den F-Test ergibt sich dann zu
, der mittels
auf Signifikanz mit dem Konfidenzniveau
getestet wird 5.
Es wird also getestet ob
|
|
verwerfe |
|
|
bleibe bei |
Um die Signifikanz eines Koeffizienten
zu bestimmen, also die Wahrscheinlichkeit daß der geschätze Koeffzienten
in Wahrheit
0 ist (also
), wendet man den t-Test an. Man entscheidet also zwischen
Als Testwert berechnen wir
mit
,
6 und entscheiden dann
|
|
verwerfe |
| von 0 verschieden mit dem Konfidenzniveau |
|
|
|
bleibe bei |
Die Vetrauensintervalle für die Regressionskoeffizienten berechnen sich dann wie folgt
|
|
Gegeben sind folgende Daten aus Correlation of Performance Test Scores with Tissue Concentration of Lysergic Acid Diethylamide in Human Subjects (Wagner et al., Clinical Pharmacology and Therapeutics)
| LSD Konzentration (X) | Punkte im Mathetest (Y) |
| 1.17 | 78.93 |
| 2.97 | 58.20 |
| 3.26 | 67.47 |
| 4.69 | 37.47 |
| 5.83 | 45.65 |
| 6.00 | 32.92 |
| 6.41 | 29.97 |
die wir wie folgt fitten wollen :
. Die Designmatrix X sowie y ergeben sich dann zu
und die berechneten Ergebnis-Matrizen und Vektoren zu
und das Perl Skript mlinreg.pl liefert das gleiche Ergebis
Output of mlinreg.pl : Coeff. Estimate Std.Err. t P(>t) --------------------------------------------- 0 +89.124 7.048 +12.646 0.00005 1 -9.009 1.503 -5.994 0.00185 -- Sum of Squares -- SSR= 1824.30 SSE= 253.88 SST= 2078.18 S= 7.13 MSSR= 1824.30 MSSE= 50.78 -- Overall Significance -- R2= 0.878 R2adj= 0.853 F= 35.928 P(>F)= 0.00185
sowie
This document was generated using the LaTeX2HTML translator Version 2002 (1.62)
Copyright © 1993, 1994, 1995, 1996,
Nikos Drakos,
Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999,
Ross Moore,
Mathematics Department, Macquarie University, Sydney.
The command line arguments were:
latex2html -split 0 -antialias_text ausgleich.tex
The translation was initiated by Marc on 2005-10-25
Marc 2005-10-25