Pakkenamn | Minoritetsspråk inkludert | Maj.språk |
---|---|---|
samisk | sma, smj, sme, sms, smn, sje | nor, swe, fin |
k-uralsk | myv, mdf, mrj, mhr, udm, kpv, sjd, koi, yrk | rus |
ø-finsk | vro, liv, olo, izh, vot, vep | est, fin, lav |
algonquin | crk-Latn, crk-Cans, ciw, bla, hdn | eng, fra |
Kommando for å henta fram bokstavfrekvens:
cat $GTBIG/langs/LANG/corp/*.txt \
| sed 's/\(.\)/\1 /g;' | tr ' ' '\n' \
| grep -v '[0-9.,:;A-ZÁŠČ§()]' \
| sort | uniq -c | sort -nr \
| sed 's/^ *//g;' | see
Bestem eit omfang (10000 ord?)
- Frekvensliste av ordformer:
- Ta dei vanlegaste ordformene i løpande tekst av relevant korpus
- Ta dei vanlegaste ordformene i løpande tekst av stort korpus
- .. og fyll til saman 1/3
- Sentralt ordforråd + generere kjerneparadigmer
- Vanlegaste 500 av verba og generere indikativformene
- Sikre at pronomen, adverb, interjeksjonar er med
Test:
Følg denne oppskrifta for norsk og sjå kva som fell ut av eksisterande
Telefonar har 16Gb eller meir. Våre fst-ar vil truleg vere maksimalt 20MB i vhfst-formatet. Dette vil vere ok.
- Vekte lista (ovafor) på topp etter frekvensinformasjon
- Vekte bøyingsformer
- Blokkere for uvekta fst-framlegg på under 4 bokstavar