trylmand.dk v. Lars Therkelsen

BigData Kursus

Dataanalyse

13.04.2016 Folkeskoler i Vejle V

For dels at checke om det er værd at fortsætte korrelationsanalysen, dels for at afprøve en visualisering, er her en lille hurtig rå grafik af den gennemsnitlige korrelation mellem folkeskoler på årgange fra 2007 til 2014 nu kun for 0 til 6 klasse. Alene gennemsnitlige korrelationer over en 50% norm er afsat.

Indekseret fremskrivning.

Det fremgår dels at

Ovenstående sammenhænge kan skyldes geografi og skolestørrelser. Da perioden er over 8 år synes områdeudvikling ikke umiddelbart at spille ind, det bør dog stadig undersøges. Ligeledes børe en nærmere kortlægning af bevægelserne over årene udføres sammen med en klynge analyse.

Lars

06.04.2016 Folkeskoler i Vejle IV

Jeg har nu tilpasset et 3. grads polynomie til indekseret skolesøgningen på de enkelte årgange baseret på historiske data 2007/08 til 2014/15. Resultatet ses herunder.

Indekseret fremskrivning. Residualer.

Af ovenstående plotaf modellen og et 95% konfidensinterval samt af ANOVA-tabellen nederst ses at godt 70% af variationen i elevtallet kan forklares ved hjælp af modellen, der er tydeligt signifikant med en p-værdi på 2.2e-16. Ligeledes er alle 3. grads polynomiets led signifikante, selvom det lineære led er tæt ved at teste til 0 og derfor betydningsløs.
Grafikken fortæller at skolerne kan forvente et mindre fald fra 0. til 2. klasse og derefter en mindre stigning frem til 5. klasse, hvor indeks 100 igen opnås. Derefter er der et betydeligt og stigende frafald fra folkeskolerne i kommunen således der kun er 7 af 10 elever tilbage i 9. klasse.
Residual plottet fortæller at modellen er pålidelig i intervallet fra 0 til 7 klasse mens den underfremskriver 8. klasse for til gengæld at overfremskrive 9 klasse. Dette kan betyde at faldet fra 7 til 8 klasse ikke er så stort som vi vil forvente, men til gengæld er frafaldet fra 8 til 9 klasse så meget større og lidt til.
En forklaring på det stigende frafald fra 7. klasse og frem kan skyldes at eleverne går på efterskole i 2 til 3 år, mens jeg ikke umiddelbart kan se nogen logisk forklaring på faldet fra 0. til 2.


          Residuals:
               Min       1Q   Median       3Q      Max 
          -10.4531  -2.9687  -0.7608   3.4269  10.0471 

          Coefficients:
                                   Estimate Std. Error t value Pr(>|t|)    
          (Intercept)             101.25590    1.63232  62.032  < 2e-16 ***
          poly(a, 3, raw = TRUE)1  -4.17786    1.66157  -2.514 0.014037 *  
          poly(a, 3, raw = TRUE)2   1.65164    0.44381   3.721 0.000378 ***
          poly(a, 3, raw = TRUE)3  -0.16772    0.03236  -5.183 1.75e-06 ***

          Residual standard error: 5.087 on 76 degrees of freedom
          Multiple R-squared:  0.7099,	Adjusted R-squared:  0.6984 
          F-statisti: 61.99 on 3 and 76 DF,  p-value: < 2.2e-16

Af videre analyser bliver det først og fremmest spændende at teste modellen på årgangen 2015/16, dernæst vil det være interessant at undersøge, hvor eleverne går hen fra 7. klasse og frem samt finde en plausibel forklaring på faldet fra 0. til 2. årgang.
Det umiddelbart næste skridt er dog at fortsætte undersøgelserne af de mulige bevægelsesmønstre på årgange og mellem skoler.

Lars

31.03.2016 Folkeskoler i Vejle III

Efter at jeg har fået valideret data hos Vejle Kommune, er jeg nu ved at klargøre elevdata på årgange til polynomie tilpasning, som lovet i min første blog om emnet den 19.03.2016.
Billedet til venstre herunder viser eleverne fordelt på årgange for skoleårene 2007/08-2014/15. Der er bare ikke meget fidus ved at polynomie tilpasse de data, da det alene vil kunne returnere antallet af elever på de enkelte årgange alt andet lige. Det er jo netop ikke alt andet lige, der er interessant, målet må være at kunne fremskrive antallet af elever på de enkelte årgang ud fra antallet af elever i 0. klasse.
Billedet til højre skulle løse dette problem. Frem for at arbejde med en polynomie fremskrivning ud fra de faktuelle tal har jeg indekseret antallet af elevr på de enkelte årgange med 0. klasse som index 100.
Dermed skulle basis for en fornuftig polynomiefremskrivningen være lagt.

Skolesøgende på årgange 2007/08-2014/15. Skolesøgende på årgange 2007/08-2014/15.

28.03.2016 Folkeskoler i Vejle II

Jeg har været i kontakt med Vejle Kommune, der venligt har fremsendt yderligere data for fordeling af elever på folkeskoler i kommunen for årene 2007/8-2013/14. På grund af en del skolesammenlægninger har oprensning af data for årene 7/8-10/11 krævet en del arbejde, ligelede synes er at være korruption af data for årene 11/12-13/14, hvorfor jeg har sendt forespørgsel tilbage til kommunen vedrørende validering af datasættet.
Dette betyder også at de følgende diagrammer udelukkende beskæftiger sig med skoleårene 7/8-10/11. Hensigten er at afdække om klassestørrelserne skolerne imellem bevæger sig efter nogle identificerbare mønstre med håbet om at åbne op for ressourcedeling blandt skolerne.

Nedenstående 4 billeder opdeler skolerne i 4 klynger efter varians reduktion med ward metoden.

Ward principel component analyse 2007/08. Ward principel component analyse 2008/09. Ward principel component analyse 2009/10. Ward principel component analyse 2010/11.

Af ovenstående fremstår 2 primær klynger der igen synes at kunne deles i to. I den ene klynge synes umiddelbart at være mange omegnsskoler eks Engum, Højen og Gårslevskolerne mens den anden klynge har store skoler, der igen tydeligt er delt i to grupper. Den ene gruppe domineret af Nova og Fælleshåbsskolerne mens den anden er domineret af Firkløver og Vejlemidtbyskolerne.
Sammenhængen blandt disse skoler bør klart undersøges nærmere ligesåvel, som data for 2011 og frem skal valideres. Men jeg venter på validering af data er jeg gået i tænkeboks for, hvorledes det er muligt at undersøge og gengive mønstre samt klyngebevægelser mere overskueligt.

Lars

19.03.2016 Folkeskoler i Vejle

Er begyndt at lege med den visuelle del af R statistik programmet. Til det formål forsøger jeg at udforske data fra Bæredygtige byer, specielt data fra Vejle. I første omgang har jeg kastet et blik på fremskrivningerne for folkeskolerne i byen. Til at lave Elevtalsprognose 2014/15 til 2028/29 fordelt på folkeskoler har kommunen benyttet COWIs DemoGrafix skolemodul.

I grafikken herunder fremå at Vejle Kommune forudser en generel nedgang i elevtallet fordelt over skoleåene, trenden synes dog ikke at adskille sig væsentligt fra den eksisterende udvikling, faktisk synes der bare at være tale om simpel polynomisk tilpasning.
Her dukker umiddelbart tre spørgsmål til undersøgelse op

Elevtalsprognose 2014/15 – 2028/29 fordelt på årgange.

Yderligere har jeg søgt at afbilde antallet af elever pr årgang på de 26 folkeskoler i kommunen. Som det tydeligt fremgår synes det faktiske elevtal at fluktuere kraftigt uden noget umiddelbart mønster. En situation der på ingen måde gø sig gældende i fremskrivningen, hvor de enkelte skoler forventes at have samme antal elever på hver årgang. Stigning i 8. skoleår skyldes alene at 7 skoler alene har 0-6 klasse samt at ingen af de anførte skoler har 10. klasse - en årgang kommunen har valgt at samle på en separat skole.
Her dukker umiddelbart et spørgsmål til undersøgelse op

Herunder har jeg undersøgt dette spørgsmål ved hjælp af en hurtig korrelationsanalyse (billedet til venstre). Det ses at der ikke umiddelbart fremgå en tydelig sammenhæng når skolerne sorteres alfabetisk.

Elevtal på årgange, korrelationsmatrice. Elevtal på årgange, first principal component.

Tager jeg et yderligere skridt og anvender en enkel principel component analyse optræ,der der pludseligt et mønster, hvor skolerne grupperer sig, en undersøgelse jeg yderligere har s&soslash;gt at uddybe herunder, hvor skolerne er grupperet efter de første 5 væsentlige varians reduktions komponenter.

Elevtal på årgange, first principal component.

Nu er det så det bliver rigtig interessant. Der synes helt klart at være skoler, hvor årgangenes størrelse svinger i takt (de blå farver) og skoler der svinger ude af takt (de røde farver).
Ideen og spørgsmålene må være

Næste blogindlæg vil adressere disse spørgsmål.

Lars