Skip to content

Ohjeita tietokoneavusteiseen oikolukuun

aapo edited this page Oct 3, 2012 · 5 revisions

Ohjeita oikolukuun

(Ubuntu specifiset ohjelmien asennusohjeet).

##MUUTA pdf tekstimuotoiseksi (helpompi kuin copy-paste käsin)

#sudo apt-get install poppler-utils
pdftotext kirja.pdf kirja.txt

HUOM: varsinkin monipalstaiset (eli marginaalimerkinnät ja kaavat) saattavat aiheuttaa ylimääräisiä kirjaimia sanoihin.

###Muodsta LISTA virheellisistä sanoista (ilman kontekstia)

#sudo apt-get install libvoikko-dev 
voikkogc --tokenize < kirja.txt | grep  --color=no W: | sed 's/W://g' | sed 's/"//g' | sed 's/ //g' >   sanalista.txt
voikkospell < sanalista.txt | grep --color=no W: | sed 's/W: //g'  | uniq > virheelliset_sanat.txt

###virheellisen sanan voi sitten ETSIÄ lähdekoodista vaikkapa näin (esimerkiksi 'rational')

find 0* -wholename -prune -o -type f -print0 | xargs -0 grep -niI --color=yes rational

##Tai käy INTERAKTIIVISESTI tekstimuotoinen läpi.

# Tämä voi muuttua puuduttavaksi koska numerosarjoja on jonkin verran (esim K2006)
#sudo apt-get install aspell aspell-fi
aspell check kirja.txt