Home About Browse Search
Svenska


A two step model for linear prediction, with connections to PLS

Ying, Li (2011). A two step model for linear prediction, with connections to PLS. Uppsala : Sveriges lantbruksuniv. , Report / Department of Energy and Technology, SLU, 1654-9406 ; 036
ISBN 978-91-576-9055-5
[Licentiate thesis]

[img]
Preview
PDF
194kB

Abstract

In the thesis, we consider prediction of a univariate response variable, especially when the explanatory variables are almost collinear. A two step approach has been proposed. The first step is to summarize the information in the explanatory variables via a bilinear model with a Krylov structured design matrix. The second step is the prediction step where a conditional predictor is applied. The two step approach gives us a new insight in partial least squares regression (PLS). Explicit maximum likelihood estimators of the variances and mean for the explanatory variables are derived. It is shown that the mean square error of the predictor in the two step model is always smaller than the one in PLS. Moreover, the two step model has been extended to handle grouped data. A real data set is analyzed to illustrate the performance of the two step approach and to compare it with other regularized methods.

Authors/Creators:Ying, Li
Title:A two step model for linear prediction, with connections to PLS
Alternative abstract:
LanguageAbstract
Swedish

Prediktion är temat för avhandlingen. Givet att man har observerat bakgrundsvariabler så vill man med hjälp av dessa förutsäga en respons variabel. Problemet är att ofta har man ett stort antal variabler som även samvarierar vilket gör det svårt att utnyttja informationen i dessa. Detta är ett välkänt problem och under ca 50 år har man försökt att förbättra prediktionsmetoderna.

I denna avhandling har jag delat in prediktionsproblemet i två steg. Det första steget sammanfattas informationen i bakgrundsvariablerna via en multivariat bilinjär modell. Detta sker genom att ett fåtal nya variabler skapas eller att några få väsentliga bakgrundsvariabler selekteras. På så sätt reduceras den ursprungliga datamängden som kan bestå av hundratals variabler till en mängd bestående av högst ett tiotal variabler. I det andra steget, prediktionssteget, sker prediktionen genom klassisk betingning med avseende på den reducerade datamängden för att på så vis erhålla en predicerad respons.

Avhandlingen baseras på tre uppsatser. Två av dem innehåller teoretiska resultat och i den tredje gjordes en jämförelse mellan att antal prediktionsmetoder, inklusive en ny tvåstegs-ansats, där relationen mellan responsvariablerna laktat, etanol och 2,3-butandiol och bagrundvariablerna i form av absorptionsband från FTIR-analys (FTIR-Fourier transform infraröd spektroskopi) studerades.

Avhandlingen har inspirerats av PLS (partial least squares) ansatsen. Ett nytt argument har upptäckts som motiverar användandet av PLS genom att utnyttja Caley-Hamiltons sats som säger att varje kvadratisk matris "uppfyller sin egen karakteristiska ekvation". PLS är egentligen en algoritmisk ansats och det är välkänt att PLS genererar en bas i ett Krylov rum. Vid en sammanfattning av informationen i bakgrundsvariablerna använder utnyttjas Krylovrummet. Avhandlingen utnyttjar därefter teori från multivariata (bi)linjära modeller och ett av huvudresultaten är att maximum likelihood--skattningar kan erhållas vilket är långt ifrån självklart. Prediktionen baseras på dessa skattningar. Vidare kan de bilinjära modellerna inkludera faktorer som motsvarar faktorer i klassisk variansanalys såsom blockningsfaktorer för att tex kunna studera gruppeffekter.

I den tillämpade delen av arbetet har tvåstegs-ansatsen studerats i förhållande till variabelselektionsmetoder, lasso-och ridge-regression, PLS och vanlig linjär prediktion. För FTIR-data hade ridge-regressionen den bästa prediktionsförmågan medan tvåstegs-metoden var bäst när det gällde att sammanfatta informationen i bakgrundsvariablerna.

Series/Journal:Report / Department of Energy and Technology, SLU
Year of publishing :2011
Volume:036
Number of Pages:26
Papers/manuscripts:
NumberReferences
I.Ying Li and Dietrich von Rosen (2011), Maximum likelihood estimators in a two step model for PLS. Communications in Statistics - Theory and Methods, accepted
II.Ying Li and Dietrich von Rosen (2011), A two step model for linear prediction with group effect. Report LiTH-MAT-R-2011/16-SE, Linköping University
III.Ying Li, Dietrich von Rosen and Peter Udén (2011), A comparison of prediction methods for silage composition from spectral data. Manuscript
Place of Publication:Uppsala
Publisher:Dept. of Energy and Technology, Swedish University of Agricultural Sciences
ISBN for printed version:978-91-576-9055-5
ISSN:1654-9406
Language:English
Publication Type:Licentiate thesis
Full Text Status:Public
Agris subject categories.:U Auxiliary disciplines > U10 Mathematical and statistical methods
Subjects:Obsolete subject words > MATHEMATICS > Applied mathematics > Mathematical statistics
Agrovoc terms:forecasting, linear models, statistical methods
Keywords:A two step model, Krylov space, PLS
URN:NBN:urn:nbn:se:slu:epsilon-e-278
Permanent URL:
http://urn.kb.se/resolve?urn=urn:nbn:se:slu:epsilon-e-278
ID Code:8463
Department:(NL, NJ) > Dept. of Energy and Technology
Deposited By: Ying Li
Deposited On:24 Nov 2011 15:10
Metadata Last Modified:02 Dec 2014 10:48

Repository Staff Only: item control page

Downloads

Downloads per year (since September 2012)

View more statistics

Downloads
Hits