Uporaba simbolnih podatkov v modeliranju s podatki SHARE: Nekaj primerov
Simbolna analiza podatkov je poseben sklop statistike, ki s pomočjo agregiranja podatkov tvori nove, večdimnzionalne tipe spremenljivk, ki jih opisujejo meje (primer intervalov) ali statistični momenti (primer histogramov in distribucij). V predavanju bomo najprej pogledali nekaj zgodovine tega tipa metod in njihovih osnovnih značilnosti. Nato bomo na primeru uporabe podatkov Raziskave o zdravju, procesu staranja in upokojevanju v Evropi (SHARE) spregovorili o dveh novih statističnih prispevkih, ki smo jih z uporabo simbolne analize podatkov predstavili v zadnjem letu.
V prvem so naša tema regresijski modeli za distribucijske simbolne podatke. Tovrstni regresijski modeli sicer obstajajo in so delo treh skupin avtorjev: začetnika področja, Lynn Billard in Edwin Diday sta predstavila osnovni regresijski model, ki sledi načelom običajnih linearnih regresij (Billard in Diday, 2006); Sonia Dias in Paula Brito sta model razširili in korigirali za morebitne negativne koeficiente pri kvantilnih funkcijah (Dias in Brito, 2011); Antonio Irpino in Rosanna Verde pa sta model prilagodila dekompoziciji Wassersteinove razdalje in ga razdelila v del, ki ocenjuje učinke povprečnih vrednosti neodvisnih spremenljivk, in del, ki ocenjuje učinke njihovih varianc (Irpino in Verde, 2012). Nikoli doslej pa tovrstni regresijski modeli niso bili uporabljeni v t.i. analizi kavzalnosti. Sami smo modele razširili za prisotnost endogenosti v spremenljivkah in razvili posebne, nove cenilke za vse tri modele, ki upoštevajo modelsko endogenost in večidel temeljijo na dvostopenjski metodi najmanjših kvadratov (2SLS) za kvantilne funkcije. V predstavitvi bomo prikazali statistične podrobnosti tega postopka ter njegovo uporabo na primeru ocenjevanja učinka odločitve za upokojitev na različne zdravstvene kazalnike.
V zadnjem delu predstavitve bomo kratko prikazali še drugi prispevek, ki uporablja posebno, novo vrsto simbolnih spremenljivk, ki tako rekoč še ni bila raziskana v literaturi – poligonske spremenljivke (po naši vednosti je doslej edini članek, ki je naslovil ta tip spremenljivk Silva idr. 2019). Slednje temeljijo na izgradnji spremenljivke kot poligona s poljubnim številom oglišč, kjer prva momenta distribucije osnovne spremenljivke, povprečje in varianca, tvorita osnovo za pretvorbo v poligonsko spremenljivko. Kratko bomo prikazali nov, lasten, prvi obstoječi postopek razvrščanja v skupine za te vrste spremenljivk na primeru razvrščanja držav glede na značilnosti zdravstvene oskrbe starejših, pri tem bomo ponovno uporabili podatkovno bazo SHARE.
Prispevek temelji na sledečih dveh prispevkih
Srakar, Andrej, Prevolnik Rupel, Valentina, Bartolj, Tjaša. Program evaluation and causal inference for distributional and functional data : estimation of the effects of retirement on health outcomes. V: Mineo, Angelo M. (ur.), Augugliaro, Luigi (ur.). EMS 2019: program and book of abstracts. [S. l.]: Bernoulli Society for Mathematical Statistics and Probability. 2019, str. 227.
Srakar, Andrej, Vecco, Marilena, Kejžar, Nataša. Entrepreneurial regimes classification: a symbolic polygonal clustering approach. 16th Conference of International Federation of Classification Societies (IFCS), Thessaloniki, Greece, 26th - 29th of August 2019.