Centrala gränsvärdessatsen


Frivillig bonusgivande uppgift i matenatisk statistik.

------------------------------------------------------------
Du kan göra den här uppgiften och uppgift 2 (eller en av dem). Totalt ges max 4 bonuspoäng som kan tillgodoräknas vid förstagångstentan. En väl redovisad uppgift ger alltså 2 bonuspoäng.

Syfte Genom simulering skall du observera om centrala grnsvärdessatsen verkar fungera i praktiken och nästan oberoende av vilken färdelning man utgär frän. Ett annat samtidigt syfte är att du lär dig använda slumptalssimulering.

En formulering av centrala gränsvärdessatsen finns i kursboken kap. 5. Innebörden av denna är att fördelningen för medelvärden eller summor av oberoende likafördelade variabler närmar sig normalfördelningen när antalet termer i summan/medelvärdet växer. Enda kravet för detta "naturfenomen" är att variablerna har ändlig varians. Satsen har flera generaliseringar; t.ex. kan man under vissa förutsättningar tillåta att variablerna inte har samma fördelning.

Ledning: Som starthjäp ges föjande Matlabkommandon som bildar medelvärden av U(0,1)-födelade slumptal. Sådana slumptal skapar man med matlabkommandot rand. Kommandona mean (och sum) arbetar kolumnvis på matriserna av slumptal och ger lika många summor resp. medelvärden som man har kolumner (om man bara har en rad så summeras raden istället). Med växande antal rader får vi addition av alltfler termer och bör enligt satsen komma allt närmare normalfördelningens utseende. Fördelningarna illustreras med kommandot hist som ger histogram. Genom uppritning av data med en enda rad får vi en bild av datas ursprungliga fördelning som kan jämföras med medelvärdenas fördelningar i de följande histogrammen.
bins=20; % antalet fack i histogramet
k=1; x=rand(k,1000); y=x; subplot(4,1,1), hist(y,bins);
k=2; x=rand(k,1000); y=mean(x); subplot(4,1,2), hist(y,bins);
k=4; x=rand(k,1000); y=mean(x); subplot(4,1,3), hist(y,bins);
k=10; x=rand(k,1000); y=mean(x); subplot(4,1,4), hist(y,bins);

Två metoder att simulera olika fördelningar finns i boken sid. 61 och 91-92.

Deluppgift 1: Skapa slumptal med andra fördelningar än U(0,1). Försök bilda minst en egen fördelning som inte går att skapa med standardkommando. Det finns flera enkla knep för detta. Man kan utgå från slumptal med någon lätt simulerad fördelning och sedan bilda funktioner av dessa. Funktionerna kan vara potenser, logaritmer, polynom etc. och flera funktioner kan kombineras till nya. Speciella sådana funktioner som förekommer i verkliga situationer är trunkering och censorering. I högertrunkering innebär detta att värden som överskrider trunkeringsgränsen A, sätts till värdet A (kommandot min(x,A) kan vara nyttigt). Motsvarande vänstertrunkering och dubbelsidig trunkering definieras analogt.
En annan vanlig variant är att datat i sig är maximum, minimum, median e.d. av flera bakomliggande originaldata. Då simuleras originaldata först och sedan bildas de värden vars fördelning man önskar studera i centrala gränsvärdessatsen.
Bilda minst en kontinuerlig och en diskret fördelning som du simulerar data ur. Försök med knepen ovan eller på annat sätt se till så någon av fördelningarna är ditt eget original. Kolla samtidigt att variansen blir ändlig så att satsen blir tillämpbar. Genomföör illustrationen av centrala gränsvärdessatsen. Redovisa med text och matematiska formler vilken konstruktion som genererat data. Ge dessutom histogrambilder med uppgift om antalet data som medelvärdesbildats eller adderats (kan markeras för hand intill figurer).

Deluppgift 2: Utgå från ledningens kommandon. Transformera varje data x i matrisen rand(k,1000) till x./(1-x). Förklara det beteende som nu visas upp av histogramen (du kan gärna prova litet större k-värden än i ledningen). Redovisa histogram och kommentarer.

Deluppgift 3: Bestäm väntevärde och varians för minst en av de fördelningar som du simulerade i deluppgift 1.

Redovisning: Endast skriven väl läsbar text med figurer och ett minimum av formler och matlabkommandon som tydligt visar vilka fördelningar som simulerats. Redovisningen görs som text och grafik på papper och inte i form av dataprogram och inte heller som elektronisk fil.
Två personer kan samarbeta men båda skall vara aktiva och lämnar i så fall in personligen till mig och skall vara beredda att svara på någon fråga om sin del av lösningen (min koll på aktiv medverkan).

Deadline (ej förhandlingsbar) för inlämning

Vid det sista övningstillfället. Lämnas hos den respektive övningsledaren. Besked om erhållen bonus utlovas inte före läsperiodens slut men bonusen räknas i första tentan.