Zipf`s lag – ett litet experiment

Vad är det för en lag?

Lagen är uppkallad efter den amerikanska lingvisten Georg Kingsley Zipf, som år 1939 föreslog en lagbundenhet mellan frekvensen av ett ord och dess förekomsttal (ranking). Det senare räknas alltså så, att det vanligaste ordet i en text ges förekomsttalet 1, det nästa vanliga nummer 2 osv.

Enligt Zipf är frekvensen omvänt proportionell mot förekomsttalet. Zipf påstod dessutom att detta gäller oberoende av språk. Dessutom kan man tillämpa idén på annat än ordfrekvenser, men vi ska här testa den saken. Nuförtiden har man modifierat lagen en aning. Man skriver

Skärmavbild 2015-05-02 kl. 20.39.05

där f är frekvensen, c är en konstant och k är förekomsttalet. I den ursprungliga versionen var s = 1, men man använder nu värden som avviker för ett också.

Mera om Zipfs lag och Zipffördelningen här.

Till att börja med krävs någon sorts mjukvara som beräknar frekvensern. På webben finns ett antal sådana. Vi väljer Writewords:

Sedan behöver vi en text i lämpligt format. Vi kan t.ex. välja den engelskspråkiga versionen av Aristoteles Fysik. Vi analyserar bara bok 1. Den som vill kan läsa in hela texten.Skärmavbild 2015-05-02 kl. 20.45.40

Texten målas och klistras in i Writewords:

Skärmavbild 2015-05-02 kl. 20.49.11

Ett tryck på Submit ger resultatet:

Skärmavbild 2015-05-02 kl. 20.50.38

Sedan till beräkningarna. För att inte överdriva mängden data kopierar jag här in bara de ord som förekommer mera än en gång. Genom att klistra och klippa, kan data föras över till CAS:

02-05-2015 Skärmbild005

De två första spalterna är direkt kopierade. Den tredje som anger rankingen och måste fyllas i på något sätt. T.ex. så här:

02-05-2015 Skärmbild006

Nu kör vi analysen på en statistikskärm:

02-05-2015 Skärmbild007

Den använda regressionen är ”potensform”. Inte så långt ifrån Zipfs ursprungliga idé alltså!

Kunde vara intressant att tillämpa detta på annat. Städers ”storlek” (area, befolkningsmängd…) kontra ranking t.ex. Olika författares texter. Olika språk. Det är bata att sätta igång. Verktygen ovan fungerar.