Gauss–Newtons metod

Gauss-Newtons metod används för att lösa icke-linjära minsta kvadrat-problem. Dessa uppstår till exempel vid icke-linjär regression, där parametrar i en modell söks så att modellen stämmer väl överens med tillgängliga observationer.

Det är en variant av Newtons metod för att hitta ett minimum av en funktion. Till skillnad från Newtons metod kan Gauss-Newton-algoritmen endast användas för att minimera summan av kvadrerade funktionsvärden, men den har fördelen att andraderivator, som kan vara svåra att beräkna, inte krävs.^[1]

Metoden är uppkallad efter matematikerna Carl Friedrich Gauss och Isaac Newton och presenterades först i Gauss verk från 1809 Theoria motus corporum coelestium in sectionibus conicis solem ambientum.^[2]

Beskrivning

Givna $m$ funktioner $r = (r_{1}, \dots, r_{m})$ (ofta kallade rester) av $n$ variabler $β = (β_{1}, \dots β_{n}),$ med $m \geq n,$ Mall:Anmärkning hittar Gauss-Newton-algoritmen iterativt värdet av variablerna som minimerar kvadratsumman ^[3]

S (β) = \sum_{i = 1}^{m} r_{i} (β)^{2} .

Man börjar med en första gissning $β^{(0)}$ och fortsätter iterativt

β^{(s + 1)} = β^{(s)} - {({𝐉_{𝐫}}^{𝖳} 𝐉_{𝐫})}^{- 1} {𝐉_{𝐫}}^{𝖳} 𝐫 (β^{(s)}),

där elementen i jakobianen är

{(𝐉_{𝐫})}_{i j} = \frac{\partial r_{i} (β^{(s)})}{\partial β_{j}},

r och β är kolumnvektorer och symbolen $𝖳$ betecknar matristransponering.

Beräkningar

Vid varje iteration, kan uppdateringen $Δ = β^{(s + 1)} - β^{(s)}$ hittas genom att ordna om föregående ekvation i följande två steg:

$Δ = - {({𝐉_{𝐫}}^{𝖳} 𝐉_{𝐫})}^{- 1} {𝐉_{𝐫}}^{𝖳} 𝐫 (β^{(s)})$

${𝐉_{𝐫}}^{𝖳} 𝐉_{𝐫} Δ = - {𝐉_{𝐫}}^{𝖳} 𝐫 (β^{(s)})$

Med beteckningarna $A = {𝐉_{𝐫}}^{𝖳} 𝐉_{𝐫}$ , $𝐛 = - {𝐉_{𝐫}}^{𝖳} 𝐫 (β^{(s)})$ , och $𝐱 = Δ$ , förvandlas detta till den vanliga matrisekvationen $A 𝐱 = 𝐛$ , som sedan kan lösas på en mängd olika metoder (se anmärkningar ).

När $𝐫$ är komplex $𝐫 : ℂ^{n} \to ℂ$ den konjugerade formen ska användas: ${(\overset{𝖳}{\overline{𝐉_{𝐫}}} 𝐉_{𝐫})}^{- 1} \overset{𝖳}{\overline{𝐉_{𝐫}}}$ . Om m = n, kan iterationen förenklas till

β^{(s + 1)} = β^{(s)} - {(𝐉_{𝐫})}^{- 1} 𝐫 (β^{(s)}),

vilket är en direkt generalisering av Newtons metod i en dimension.

Normalekvationerna är n samtidiga linjära ekvationer i okända steg $Δ$ . De kan lösas i ett steg, med hjälp av Choleskyuppdelning, eller, bättre, QR-faktorisering av $𝐉_{𝐫}$ .^[4] För stora system kan en iterativ metod, såsom konjugatgradientmetoden, vara mer effektiv. Om det finns ett linjärt beroende mellan kolumner i J _r kommer iterationerna att misslyckas, då ${𝐉_{𝐫}}^{T} 𝐉_{𝐫}$ blir singular.

Beräkningar för dataanpassning

Inom dataanpassning, där målet är att hitta parametrarna $β$ så att en given modell fungerar $𝐟 (𝐱, β)$ passar bäst på vissa datapunkter $(x_{i}, y_{i})$ , är funktionerna $r_{i}$ är residualerna :

r_{i} (β) = y_{i} - f (x_{i}, β) .

Sedan kan Gauss-Newton-metoden uttryckas i termer av jakobianen $𝐉_{𝐟}$ av funktionen $𝐟$ som

β^{(s + 1)} = β^{(s)} - {({𝐉_{𝐟}}^{𝖳} 𝐉_{𝐟})}^{- 1} {𝐉_{𝐟}}^{𝖳} 𝐫 (β^{(s)}) .

Observera att ${({𝐉_{𝐟}}^{𝖳} 𝐉_{𝐟})}^{- 1} {𝐉_{𝐟}}^{𝖳}$ är den vänstra pseudoinversen av $𝐉_{𝐟}$ .

Exempel

I det här exemplet kommer Gauss-Newton-metoden att användas för att anpassa en modell till vissa data genom att minimera summan av kvadrater av fel mellan data och modellens förutsägelser.

I ett biologiskt experiment som studerade sambandet mellan substratkoncentration Mall:Math och reaktionshastighet Mall:Math i en enzymmedierad reaktion, erhölls data i följande tabell.

Det är önskvärt att hitta en kurva (modellfunktion) av formen

V = \frac{V_{max} \cdot [S]}{K_{M} + [S]}

som bäst passar data i minsta kvadrat-mening. Då bestäms parametrarna $V_{max}$ och $K_{M}$ .

Beteckna med $x_{i}$ och $y_{i}$ värdena för Mall:Math (koncentration) och Mall:Math (hastighet) för $i = 1, \dots, 7$ . Låt $β_{1} = V_{max}$ och $β_{2} = K_{M}$ och hitta $β_{1}$ och $β_{2}$ så att summan av kvadraterna av residualerna

r_{i} = y_{i} - \frac{β_{1} x_{i}}{β_{2} + x_{i}}, (i = 1, \dots, 7)

minimeras.

Jakobianen $𝐉_{𝐫}$ av vektorn av residualerna $r_{i}$ med hänsyn till de okända $β_{j}$ är en $7 \times 2$ -matrismed där den $i$ :te raden har elementen

\frac{\partial r_{i}}{\partial β_{1}} = - \frac{x_{i}}{β_{2} + x_{i}}; \frac{\partial r_{i}}{\partial β_{2}} = \frac{β_{1} \cdot x_{i}}{{(β_{2} + x_{i})}^{2}} .

Man börjar med de första uppskattningarna $β_{1} = 0, 9$ och $β_{2} = 0, 2$ och efter fem iterationer av Gauss-Newton-metoden erhålls de optimala värdena ${\hat{β}}_{1} = 0, 362$ och ${\hat{β}}_{2} = 0, 556$ erhålls. Summan av kvadraterna på residualerna minskade från initialvärdet 1,445 till 0,00784 efter den femte iterationen. Figuren till höger visar kurvan som bestäms av modellen för de optimala parametrarna med de observerade data.

Härledning från Newtons metod

I det följande kommer Gauss–Newton-metoden att härledas från Newtons metod för funktionsoptimering via en approximation. Som en konsekvens kan konvergenshastigheten för Gauss-Newton-metoden vara kvadratisk under vissa regularitetsförhållanden. I allmänhet (under svagare förhållanden) är konvergenshastigheten linjär.^[5]

Iterationsekvationen för Newtons metod för att minimera en funktion S av parametrarna $β$ är

β^{(s + 1)} = β^{(s)} - 𝐇^{- 1} 𝐠,

där g betecknar gradientvektorn för S och H betecknar den hessianen för S .

Eftersom $S = \sum_{i = 1}^{m} r_{i}^{2}$ , ges gradienten av

g_{j} = 2 \sum_{i = 1}^{m} r_{i} \frac{\partial r_{i}}{\partial β_{j}} .

Hessianens element beräknas genom att derivera gradientelementen, $g_{j}$ , med avseende på $β_{k}$ :

H_{j k} = 2 \sum_{i = 1}^{m} (\frac{\partial r_{i}}{\partial β_{j}} \frac{\partial r_{i}}{\partial β_{k}} + r_{i} \frac{\partial^{2} r_{i}}{\partial β_{j} \partial β_{k}}) .

Gauss-Newton-metoden erhålls genom att försumma andra ordningens derivator (den andra termen i summanderna). Det vill säga, hessianen approximeras av

H_{j k} \approx 2 \sum_{i = 1}^{m} J_{i j} J_{i k},

där $J_{i j} = \frac{\partial r_{i}}{\partial β_{j}}$ är element i jakobianen J _r. Gradienten och den ungefärliga hessianen kan skrivas i matrisnotation som

𝐠 = 2 {𝐉_{𝐫}}^{𝖳} 𝐫, 𝐇 \approx 2 {𝐉_{𝐫}}^{𝖳} 𝐉_{𝐫} .

Dessa uttryck ersätts i iterationsekvationen ovan för att erhålla ekvationerna

β^{(s + 1)} = β^{(s)} + Δ; Δ = - {({𝐉_{𝐫}}^{𝖳} 𝐉_{𝐫})}^{- 1} {𝐉_{𝐫}}^{𝖳} 𝐫 .

Konvergens av Gauss-Newton-metoden garanteras inte i alla fall. Uppskattningen

| r_{i} \frac{\partial^{2} r_{i}}{\partial β_{j} \partial β_{k}} | ≪ | \frac{\partial r_{i}}{\partial β_{j}} \frac{\partial r_{i}}{\partial β_{k}} |

behöver gälla för att kunna försumma andra ordningens derivator. Det kan ske i två fall och då förväntas konvergens: ^[6]

Funktionsvärdena $r_{i}$ är små i storleksordningen, åtminstone runt minimum.
Funktionerna är bara "milt" olinjära, så att $\frac{\partial^{2} r_{i}}{\partial β_{j} \partial β_{k}}$ är relativt liten i omfattning.

Anmärkningar

Mall:Anmärkningslista

Referenser

Mall:Översatt

Noter

Mall:Rekommenderad

Källor

[1] Mall:Bokref

[optimizationEncyc-2] Mall:Bokref

[ab-3] Mall:Harvnb

[4] Mall:Harvnb

[5] Mall:Webbref

[6] Mall:Harvnb

[1]

[2]

[3]

[4]

[5]

[6]

Gauss–Newtons metod

Innehåll

Beskrivning

Beräkningar

Beräkningar för dataanpassning

Exempel

Härledning från Newtons metod

Anmärkningar

Referenser

Noter

Källor

Navigeringsmeny

Gauss–Newtons metod

Beskrivning

Beräkningar

Beräkningar för dataanpassning

Exempel

Härledning från Newtons metod

Anmärkningar

Referenser

Noter

Källor

Navigeringsmeny

Sök