Zipf`s lag – Finlands städer

I förra inlägget presenterade bloggaren Zipfs lag och Zipf-fördelningen. Då tillämpades den på en längre engelskspråkig text. Nu ska vi se på ett annat exempel. Finlands städer har sorterats i avseende på befolknimngsmängd. Källa.

Hur ser det ut nu? Enligt Zipf ska befolkningsmängden vara omvänt proportionell mot ordningstalet i sorteringen!

Vi kör, denna gång med sortering från minsta till största:

05-05-2015 Skärmbild001

05-05-2015 Skärmbild002

05-05-2015 Skärmbild003

Stämmer för sjutton ganska bra!!

Annonser

Zipf`s lag – ett litet experiment

Vad är det för en lag?

Lagen är uppkallad efter den amerikanska lingvisten Georg Kingsley Zipf, som år 1939 föreslog en lagbundenhet mellan frekvensen av ett ord och dess förekomsttal (ranking). Det senare räknas alltså så, att det vanligaste ordet i en text ges förekomsttalet 1, det nästa vanliga nummer 2 osv.

Enligt Zipf är frekvensen omvänt proportionell mot förekomsttalet. Zipf påstod dessutom att detta gäller oberoende av språk. Dessutom kan man tillämpa idén på annat än ordfrekvenser, men vi ska här testa den saken. Nuförtiden har man modifierat lagen en aning. Man skriver

Skärmavbild 2015-05-02 kl. 20.39.05

där f är frekvensen, c är en konstant och k är förekomsttalet. I den ursprungliga versionen var s = 1, men man använder nu värden som avviker för ett också.

Mera om Zipfs lag och Zipffördelningen här.

Till att börja med krävs någon sorts mjukvara som beräknar frekvensern. På webben finns ett antal sådana. Vi väljer Writewords:

Sedan behöver vi en text i lämpligt format. Vi kan t.ex. välja den engelskspråkiga versionen av Aristoteles Fysik. Vi analyserar bara bok 1. Den som vill kan läsa in hela texten.Skärmavbild 2015-05-02 kl. 20.45.40

Texten målas och klistras in i Writewords:

Skärmavbild 2015-05-02 kl. 20.49.11

Ett tryck på Submit ger resultatet:

Skärmavbild 2015-05-02 kl. 20.50.38

Sedan till beräkningarna. För att inte överdriva mängden data kopierar jag här in bara de ord som förekommer mera än en gång. Genom att klistra och klippa, kan data föras över till CAS:

02-05-2015 Skärmbild005

De två första spalterna är direkt kopierade. Den tredje som anger rankingen och måste fyllas i på något sätt. T.ex. så här:

02-05-2015 Skärmbild006

Nu kör vi analysen på en statistikskärm:

02-05-2015 Skärmbild007

Den använda regressionen är ”potensform”. Inte så långt ifrån Zipfs ursprungliga idé alltså!

Kunde vara intressant att tillämpa detta på annat. Städers ”storlek” (area, befolkningsmängd…) kontra ranking t.ex. Olika författares texter. Olika språk. Det är bata att sätta igång. Verktygen ovan fungerar.

Poisson-fördelningen

I skolkurserna får man kanske en felaktig bild av sannolikhetsfördelningar. Man behandlar normalfördelningen, vars fördelningsfunktion är vackert symmetrisk. I verkliga världen är läget ofta ett helt annat. Vi tar här en liten titt på Poisson-fördelningen. Ingen större teorigenomgång! Material finns t.ex. på Wikipedia.

Anta att en kiosk har i medeltal 25 kunder per timme. Vilken är sannolikheten för att det till kiosken kommer åtminstone 30 kunder per timme (betyder 30 eller flera)?

Problemet ovan kan lämpa sig för analys via Poisson-fördelning. Vi har EN parameter, medeltalet 25 kunder per timme, som samtidigt är väntevärdet. Vi måste vidare anta att händelserna (kunderna anländer till kiosken) är oberoende av varandra. Fördelningen är vidare diskret. Antalet kunder per tidsenhet är ett heltal.

Vi säger att slumpvariabeln X har en Poisson-fördelning med parametern λ (större än noll) om värdemängden är k = 0,1,2,3,…. och

P(X=k)={{e}^{-\lambda }}\frac{{{\lambda }^{k}}}{k!}

Räknaren har färdiga rutiner för detta! Vi går via menu-tangenten på räknarskärmen

Här räknades sannolikheten för exakt 30 kunder. Kommandot poissPdf(λ,k) anger alltså sannolikheten för de enskilda fallen i fördelningen (p för punktsannolikhet??).

En kanske intressantare situation är den kumulativa fördelningen. Vi testar:

 

Nu har vi sannolikheten för högst 29 kunder per timme. Komplementet är åtminstone 30 kunder per timme.  vi räknar vidare:

 

Ca 18% alltså.

Hur ser fördelningen ut grafiskt?

Fördelningen ser nästan symmetrisk ut. Man kunde tro att det här är en normalfördelning. Orsaken är att 25 kunder per timme ligger långt ifrån minsta antalet möjliga, 0 kunder. En övre gräns finns teoretiskt sett inte. Hur går det om vi minskar antalet kunder per timme? Vi väljer talvärdet 5 i stället för 25.

 

Nu ser det annorlunda ut!

Den observanta läsaren inser säkert att det här är en viktig fördelning inom fysik och teknik. Radioaktivt sönderfall, serviceintervall av apparater och annat kan undersökas via Poissonfördelningen. Borde ingå i gymnasiekurserna!!!

Skolans storlek versus studentresultat _ svenskspråkiga gymnasier

Bloggaren skrev ett litet inlägg om gymnasiets storlek och dess eventuella samband med resultat i studentexamen. Blev kontaktad av en läsare, som vill vara anonym, med en förfrågan om de svenskspråkiga skolorna visar samma mönster som samtliga skolor. För samtliga gymnasier kunde åtminstone i år, inget samband påvisas. Vi hade nästan nollkorrelation mellan storlek och resultat.

OK. Vi gör analysen enbart för de svenskspråkiga skolorna:

(Filen med namnet SV_GY_V_12.tns finns i Statistik-arkivet i Box-verktyget till vänster).

Absolut ingen korrelation! Inget samband ser ut att finnas mellan skolstorlek och resultatnivå! Detta baserat på studentexamen våren 2012.

Källdata

Samband mellan en gymnasieskolas antal studenter och studentresultatet

Det följande inlägget är en liten analys av statistiken i Helsingin Sanomats:s rankinglista av gymnasieskolorna, våren 2012. Tidningen gjorde upp statistiken på basis av de fyra obligatoriska proven i studentexamen. Laudatur gav 7 poäng, eximia 6 poäng osv. Materialet är kopierat och direkt från tidningens webbsida till Excel och  vidare till räknarmjukvaran. Några rubriker är inskrivna i räknarens kalkylarksfönster. Ortsnamnen är inte översatta till svenska.

Filens HS.tns finns i Box-verktyget.

En evighetsfråga i diskussionen om gymnasienätverket, är om en skolas storlek har ett samband med resultatet. Presterar stora skolor bättre studenter t.ex.? Vi tar oss en titt på läget.

Vi ser först ”grafiskt” på situationen. Vi öppnar en dataskärm och markerar placeringen på x-axeln, samt antalet studenter på y-axeln. Efter den visuella granskningen, gör vi en linjär regression.

Vi har en ytterst svag negativ korrelation här (r är ca -0,21). Åtminstone tyder examen år 2012 INTE på något samband mellan stora skolor och goda resultat.

Källdata

När springer kvinnor snabbare än män? Ett litet experiment.

Data finns i BOX-verktyget med namnet 100m.tns. Analysen är inte gjord i den filen. Det får bli en ”övningsuppgift”.

Data kan importeras från t.ex. Wikipedia t.ex. genom att ”måla och klistra”. Om det inte fungerar, kan man prova med mellanimport till Excel. Ett problem är att man ofta har decimalkomma i Excel, medan räknaren kräver decimalpunkt. Man kan bli tvungen att ändra detta för hand.

Sedan till en analysmöjlighet. Välj en räknarskärm:

Vi analyserar på kalkylarksfliken:

Enter + motsvarande för männen. Sedan till graffliken, där vi måste göra en omdefinition:

Vi manipulerar inställningarna en aning och söker grafernas skärningspunkter:

Det ser ut som om damerna skulle springa snabbare än män ca år 2030.  Möjligt? Hm?

Tiden skulle vara ca 9,6 s på 100 m, vilket är relativt OK. Andra reflektioner överlämnar jag gärna åt var och en!

 

 

 

Statistik – grundberäkningar

Hur beräknar man medeltal och andra statistiska mått så enkelt som möjligt? Vi ska här se på några möjligheter.

Om valet är att jobba direkt på räknarskärmen, kan data matas in i listform (med mängdklammer). Sedan är det bara att reäkna:

Ett mångsidigare resultat får man med kalkylbladsskärmen:

Kan man göra motsvarande beräkningar med en frekvenslista? Vi tar ett exempel. Vi antar att vitsordsfördelningen i en grupp placeras i listan xd och frekvenserna i listan frekv.

Kan man framställa resultatet i ett histogram? Det går, om än på ett något avigt sätt: