Mikä on suomenkielen yleisin iso kirjain (lauseen ensimmäiset kirjaimet &...

Mikä on suomenkielen yleisin iso kirjain (lauseen ensimmäiset kirjaimet &...

Vastaus
03.03.201018:58
21429
38

En löytänyt tutkimistani lähteistä tietoa kysymästäsi asiasta, joten päätin selvittää isojen kirjainten esiintymistä omalla pienellä tutkimuksella. Käytin aineistona useita Gutenberg-projektin tekijänoikeuksista vapautuneita kaunokirjallisia proosateoksia, koska ne ovat helposti saatavilla ja kätevästi tähän tarkoitukseen sopivassa muodossa. Aineiston suppeuden ja vain yhteen tekstilajiin keskittymisen vuoksi tuloksia ei voi leimata yleispäteväksi, ainoastaan jonkinlaista suuntaa antavaksi.

Tutkimusaineistoni käsittää 1 825 543 merkkiä, jotka ovat jakautuneet 47 618 riville. Olisin ottanut mielelläni suuremmankin aineiston, mutta tietokoneen teho ei tahtonut oikein riittää sen käsittelyyn. Poistin aineistosta lukujen numerointiin käytetyt roomalaiset numerot, koska nehän eivät ole isoja kirjaimia siinä mielessä kuin virkkeiden tai nimien alussa olevat isot kirjaimet.

Omassa analyysissäni yleisimmäksi isoksi kirjaimeksi osoittautui M, jota oli kaikista tekstin isoista alkukirjaimista noin 11,17 %. M-kirjaimen yleisyyttä ehkä selittää, että tekstissä esiintyi usein M-alkuinen kysymyssana virkkeen alussa, ja myös minä-sana aloitti aika usein virkkeen, etenkin vuoropuhelussa. On mahdollista, että esimerkiksi sanomalehtitekstissä olisi M-kirjaimen osuus vähäisempi. Eri tekstilajien tarkastelussa tarvittaisiin enemmän aikaa ja tehokkaampia välineitä kuin yksinkertainen Wordin etsi ja korvaa -toiminto, jota käytin määrien laskemisessa.

Kovin kauaksi M:stä eivät jää yleisyydessä S (noin 10,64 %) ja K (noin 10,04 %), joten isoissa alkukirjaimissa mennään varsin konsonanttipainotteiselle linjalla. Sitä varmaan selittää se, että suomen kielessä konsonantit ovat usein sanojen alkukirjaimina, kun taas vokaalien paikka on usein sanan sisällä. Osoitteesta http://www.cs.tut.fi/~jkorpela/kielikello/kirjtil.html löytyvän Matti Pääkkösen tutkimus kertookin, että yleisimmät kirjaimet koko tekstissä ovat a ja i. Ne eivät kuitenkaan yllä oman tutkimukseni mukaan isoissa kirjaimissa kärkijoukkoon.

Analyysissäni oli mukana 54 325 isoa alkukirjainta. Laitan tähän vielä kaikkien kirjainten prosenttiosuudet suuruusjärjestyksessä ja suluissa aineistossa esiintyvän kappalemäärän: M 11,17 % (6 068 kpl), S 10,64 % (5 779 kpl), K 10,04 % (5 455 kpl), E 8,74 % (4 748 kpl), A 7,55 % (4 101 kpl), O 6,50 % (3 530 kpl), J 6,19 % (3 363 kpl), T 6,07 % (3 295 kpl), H 5,92 % (3 217 kpl), N 5,08 % (2 762 kpl), I 4,41 % (2 395 kpl), V 4,12 % (2 238 kpl), L 3,98 % (2 160 kpl), P 3,46 % (1 878 kpl), R 3,21 % (1 742 kpl), U 1,51 % (822 kpl), Ä 0,60 % (327 kpl), Y 0,51 % (275 kpl), Ö 0,15 % (83 kpl), Z 0,03 % (16 kpl), D 0,03 % (15 kpl), F 0,03 % (14 kpl), B 0,02 % (13 kpl), W 0,02 % (12 kpl), G 0,01 % (8 kpl), C 0,01 % (7 kpl), Å 0,00 % (2 kpl), X 0,00 % (0 kpl), Q 0,00 % (0 kpl).

Kommentit (0)

Vastauksesi