Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Fjerne semtagger ved derivasjoner ( #7

Open
albbas opened this issue Nov 2, 2018 · 18 comments
Open

Fjerne semtagger ved derivasjoner ( #7

albbas opened this issue Nov 2, 2018 · 18 comments
Labels
bug Something isn't working

Comments

@albbas
Copy link
Contributor

albbas commented Nov 2, 2018

This issue was created automatically with bugzilla2github

Bugzilla Bug 2522

Date: 2018-11-02T11:22:33+01:00
From: Lene Antonsen <<lene.antonsen>>
To: Sjur Nørstebø Moshagen <<sjur.n.moshagen>>
CC: elena.j.paulsen, lene.antonsen, linda.wiechetek, maja.l.kappfjell, sjur.n.moshagen, thomas.omma, trond.trosterud

Last updated: 2019-06-27T18:08:33+02:00

@albbas
Copy link
Contributor Author

albbas commented Nov 2, 2018

Comment 13077

Date: 2018-11-02 11:22:33 +0100
From: Lene Antonsen <<lene.antonsen>>

Vi må få fjernet semtagger ved derivasjoner.

Semtaggen gir feil informasjon ved de fleste derivasjoner, f.eks.

ceavzilvuohta ceavzil+Ex/A+Sem/Hum+Der/vuota+N+Sg+Nom

hvor ceavzilvuohta ikke kan være Sem/hum

Unntaket er der hvor vi har N Der/ N, f.eks. biillaš biila+Ex/N+Sem/Veh+Der/Dimin+N+Sg+Nom

@albbas
Copy link
Contributor Author

albbas commented Jun 14, 2019

Comment 13498

Date: 2019-06-14 11:22:55 +0200
From: Linda Wiechetek <<linda.wiechetek>>

Ja, fant også eksempler. Det ødelegger for disambiguering av særskrivinger.

; "geatnegas" Ex/A Sem/Hum Ex/Attr Der/vuota N Sg Gen Allegro <W:0.0> REMOVE:3463
; "geatnegas" Ex/A Sem/Hum Der/vuota N Sg Gen Allegro <W:0.0> REMOVE:3463
; "geatnegas" Ex/A Sem/Hum Der/vuota N Sg Acc <W:0.0> REMOVE:3601:r542
; "geatnegas" Ex/A Sem/Hum Der/vuota N Sg Gen <W:0.0> REMOVE:3601:r542
; "geatnegas" Ex/A Sem/Hum Ex/Attr Der/vuota N Sg Gen <W:0.0> REMOVE:3601:r542
; "geatnegas" Ex/A Sem/Hum Ex/Attr Der/vuota N Sg Acc <W:0.0> REMOVE:3601:r542

@albbas
Copy link
Contributor Author

albbas commented Jun 14, 2019

Comment 13499

Date: 2019-06-14 12:04:35 +0200
From: Sjur Nørstebø Moshagen <<sjur.n.moshagen>>

De vil fjerna taggane, heller enn å endra dei? (Det er det lettaste, reint teknisk.)

@albbas
Copy link
Contributor Author

albbas commented Jun 14, 2019

Comment 13500

Date: 2019-06-14 13:06:24 +0200
From: Lene Antonsen <<lene.antonsen>>

(In reply to Sjur Nørstebø Moshagen from comment #2)

De vil fjerna taggane, heller enn å endra dei? (Det er det lettaste, reint
teknisk.)

Jeg foreslår å fjerne bortsett fra for +Der/Dimin, hvis det er mulig. Dinimutiv beholder det semantiske innholdet som stammen har.

For de andre derivasjonene, kan man vurdere å legge inn en tagg i derivasjonsstien, hvis det er ønskelig for grammatikkDivvun. F.eks. +Sem/State for alle +Der/vuohta. Det vil i hvertfall være ganske nært, og vil utelukke +Sem/Hum osv. De ordene som er leksikaliserte, vil jo få taggen som er lagt i stemsfile, f.eks

ráhkisvuohta+N+Sem/Perc-emo+Sg+Nom

De som ikke er leskikaliserte, vil dat få +Sem/State

@albbas
Copy link
Contributor Author

albbas commented Jun 14, 2019

Comment 13501

Date: 2019-06-14 13:09:10 +0200
From: Sjur Nørstebø Moshagen <<sjur.n.moshagen>>

Lag til i svn rev. 180817-180827. Jamfør FØR:

$ echo ceavzilvuohta | hfst-lookup -q analyser-gramcheck-gt-desc.hfstol
ceavzilvuohta ceavzilvuohta+N+Sem/Dummytag+Sg+Nom 0,000000
ceavzilvuohta ceavzil+Ex/A+Sem/Hum+Der/vuota+N+Sg+Nom 0,000000

og ETTER:

$ echo ceavzilvuohta | hfst-lookup -q analyser-disamb-gt-desc.hfstol
ceavzilvuohta ceavzilvuohta+N+Sem/Dummytag+Sg+Nom 0,000000
ceavzilvuohta ceavzil+Ex/A+Der/vuota+N+Sg+Nom 0,000000

Eg har ikkje lagt til sperre mot Der/Dimin - slik filteret er no så blir alle semtaggar fjerna framfor alle derivasjonar. Vi prøver med det, og så ser vi kva som bør endrast etter kvart (og kva som er mogleg).

@albbas
Copy link
Contributor Author

albbas commented Jun 17, 2019

Comment 13503

Date: 2019-06-17 09:38:39 +0200
From: Linda Wiechetek <<linda.wiechetek>>

(In reply to Sjur Nørstebø Moshagen from comment #4)

Lag til i svn rev. 180817-180827. Jamfør FØR:

$ echo ceavzilvuohta | hfst-lookup -q analyser-gramcheck-gt-desc.hfstol
ceavzilvuohta ceavzilvuohta+N+Sem/Dummytag+Sg+Nom 0,000000
ceavzilvuohta ceavzil+Ex/A+Sem/Hum+Der/vuota+N+Sg+Nom 0,000000

og ETTER:

$ echo ceavzilvuohta | hfst-lookup -q analyser-disamb-gt-desc.hfstol
ceavzilvuohta ceavzilvuohta+N+Sem/Dummytag+Sg+Nom 0,000000
ceavzilvuohta ceavzil+Ex/A+Der/vuota+N+Sg+Nom 0,000000

Eg har ikkje lagt til sperre mot Der/Dimin - slik filteret er no så blir
alle semtaggar fjerna framfor alle derivasjonar. Vi prøver med det, og så
ser vi kva som bør endrast etter kvart (og kva som er mogleg).

Vil det si alle derivasjonan som finnes i lista nedenfor (selvfølgelig bare om ordet har en semtag for å begynne med)?

! 1 2 3 4 POS type
+Der1 +Der2 +Der3 +Der4
! Der#1
+Der/t ! NA
+Der/ár ! ACRO>N
+Der/Dimin ! NN (was: Der/aš & Der/š)
+Der/lasj ! NA
+Der/meahttun ! VA
+Der/d ! VV
+Der/h ! VV - -hit/Causative
+Der/Caus ! VV - -ahtti/Causative
+Der/huhtti ! VV
+Der/l ! VV
+Der/st ! VV
+Der/las ! VA * +Der1+Der2 - can only combine with Der3
+Der/Car ! NA * +Der1+Der2 - can only combine with Der3
+Der/laakan ! AA * +Der1+Der2 - can only combine with Der3
+Der/halla ! VV * +Der1+Der2 - can only combine with Der3
+Der/huvva ! VV * +Der1+Der2 - can only combine with Der3
+Der/stuvva ! VV * +Der1+Der2 - can only combine with Der3
+Der/PassS ! VV - short passive

! Der#2
+Der/NomAg
+Der/NomAct ! VN Der/NomAct har to realisasjonar, med ulike restriksjonar,
! this is previous Der/eapmi
+Der/sasj ! NA
+Der/adda ! VV
+Der/alla ! VV
+Der/AAdv ! QA ! check this!
+Der/easti ! VV
+Der/laagasj ! QA
! Der#3
+Der/PassL ! VV - long passive

                       +Der/vuota                    ! AN

! Der#4
+Der/InchL ! VV
+Der/amoš ! VN
+Der/eamoš ! VN
+Der/geahtes ! VA
+Der/keahtta ! VA
+Der/muš ! VN
+Der/supmi ! VN
! +Der/NomAct ! VN Der/NomAct har to realisasjonar, med ulike restriksjonar,
! this is previous Der/n. This realisation is Der4.
! Outcommented to not define the tag twice, but kept
! here for documentation purposes.
+Der/upmi ! VN

@albbas
Copy link
Contributor Author

albbas commented Jun 17, 2019

Comment 13504

Date: 2019-06-17 09:44:13 +0200
From: Sjur Nørstebø Moshagen <<sjur.n.moshagen>>

(In reply to Linda Wiechetek from comment #5)

Vil det si alle derivasjonan som finnes i lista nedenfor (selvfølgelig bare
om ordet har en semtag for å begynne med)?

! 1 2 3 4 POS type
+Der1 +Der2 +Der3 +Der4

Ja. Rettare sagt så fjernar eg semantiske taggar framfor desse taggane:

+Der +Der1 +Der2 +Der3 +Der4 +Der5

fordi alle andre derivasjonstaggar skal ha ein slik generell (posisjons)derivasjonstagg framfor seg.

@albbas
Copy link
Contributor Author

albbas commented Jun 18, 2019

Comment 13505

Date: 2019-06-18 09:14:34 +0200
From: Lene Antonsen <<lene.antonsen>>

Ja. Rettare sagt så fjernar eg semantiske taggar framfor desse taggane:

+Der +Der1 +Der2 +Der3 +Der4 +Der5

fordi alle andre derivasjonstaggar skal ha ein slik generell
(posisjons)derivasjonstagg framfor seg.

Ved å gjøre unntak for +Der1, så beholder +Der/Dimin sem-taggen. Det er tre tagger med +Der1 som involverer +N:
+Der/Dimin
+Der/lasj
+Der/Car

og alle disse vil beholde sin semantikk ved derivasjon.

@albbas
Copy link
Contributor Author

albbas commented Jun 18, 2019

Comment 13506

Date: 2019-06-18 09:25:19 +0200
From: Lene Antonsen <<lene.antonsen>>

Det er flere tagger, fordi vi må se både på dem som grå fra +A og +N:
+Der/Dimin stuollu+Ex/N+Der/Dimin+N+Sg+Nom
+Der/lasj motorihkka+Ex/N+Der/lasj+A+Sg+Nom
+Der/Car mánáheapme mánná+Ex/N+Der/Car+A+Sg+Nom
+Der/laakan boareslágan boaris+A+Attr+Der/laakan+A+v1+Sg+Nom

+Der/ár NSR+Ex/N+Prop+ACR+Der/ár+N+Sg+Acc+Err/Orth-nom-acc
+Der/t gáivuonat Gáivuotna+Ex/N+Prop+Sem/Plc+Sg+Gen+Der/t+A+Sg+Nom

For de to siste vil ikke semtaggen holde stikk, fordi NSR er +Sem/Org, Gáivuona er+Sem/Plc og og derivasjonenene burde være +Sem/Hum
Disse to derivasjonene er nokså marginale i bruk, hva sier Linda om fordeler og ulemper? Kunne de flyttes til en annen +DerN?

Den siste har fremdeles +Sem/Plc, hvorfor det? Slik er stien:

@U.Cap.Opt@+Der1+Der/t+A+CmpN/SgN+CmpN/SgG+CmpN/Pl

@albbas
Copy link
Contributor Author

albbas commented Jun 18, 2019

Comment 13507

Date: 2019-06-18 09:31:24 +0200
From: Lene Antonsen <<lene.antonsen>>

og ulemper? Kunne de flyttes til en annen +DerN?

+Der/NomAg er +Der2- Thomas, burde også +Der/t og +Der/ár være samme +DerN som +Der/NomAg ?

@albbas
Copy link
Contributor Author

albbas commented Jun 18, 2019

Comment 13509

Date: 2019-06-18 10:01:06 +0200
From: Linda Wiechetek <<linda.wiechetek>>

(In reply to Lene Antonsen from comment #8)

Det er flere tagger, fordi vi må se både på dem som grå fra +A og +N:
+Der/Dimin stuollu+Ex/N+Der/Dimin+N+Sg+Nom
+Der/lasj motorihkka+Ex/N+Der/lasj+A+Sg+Nom
+Der/Car mánáheapme mánná+Ex/N+Der/Car+A+Sg+Nom
+Der/laakan boareslágan boaris+A+Attr+Der/laakan+A+v1+Sg+Nom

+Der/ár NSR+Ex/N+Prop+ACR+Der/ár+N+Sg+Acc+Err/Orth-nom-acc
+Der/t gáivuonat Gáivuotna+Ex/N+Prop+Sem/Plc+Sg+Gen+Der/t+A+Sg+Nom

For de to siste vil ikke semtaggen holde stikk, fordi NSR er +Sem/Org,
Gáivuona er+Sem/Plc og og derivasjonenene burde være +Sem/Hum
Disse to derivasjonene er nokså marginale i bruk, hva sier Linda om fordeler
og ulemper? Kunne de flyttes til en annen +DerN?

Den siste har fremdeles +Sem/Plc, hvorfor det? Slik er stien:

@U.Cap.Opt@+Der1+Der/t+A+CmpN/SgN+CmpN/SgG+CmpN/Pl

Æ snakka akkurat med Duommá om det og han sier at de siste to kan tas bort eller flyttes til en anna DerN. Æ kunne bare tenkt mæ at Der/t kan være fint å ha om man sammenligner med Der/laš etter Sem/Plc. Ellers har æ ingen store preferanser.

@albbas
Copy link
Contributor Author

albbas commented Jun 18, 2019

Comment 13510

Date: 2019-06-18 10:04:28 +0200
From: Linda Wiechetek <<linda.wiechetek>>

(In reply to Lene Antonsen from comment #9)

og ulemper? Kunne de flyttes til en annen +DerN?

+Der/NomAg er +Der2- Thomas, burde også +Der/t og +Der/ár være samme +DerN
som +Der/NomAg ?

Er ikke Der/NomAg noen som er agens, mens Der/ár og Der/t noen som har en tilhørighet til en plass/organisasjon?

@albbas
Copy link
Contributor Author

albbas commented Jun 18, 2019

Comment 13511

Date: 2019-06-18 10:40:35 +0200
From: Lene Antonsen <<lene.antonsen>>

Er ikke Der/NomAg noen som er agens, mens Der/ár og Der/t noen som har en
tilhørighet til en plass/organisasjon?
Ja, mitt poeng er at alle disse derivasjonene substantiver og mennesker, og at ordene kan sannsynligvis ha samme posisjon i forhold til andre derivasjoner.

@albbas
Copy link
Contributor Author

albbas commented Jun 18, 2019

Comment 13512

Date: 2019-06-18 10:42:16 +0200
From: Lene Antonsen <<lene.antonsen>>

Æ snakka akkurat med Duommá om det og han sier at de siste to kan tas bort
eller flyttes til en anna DerN. Æ kunne bare tenkt mæ at Der/t kan være fint
å ha om man sammenligner med Der/laš etter Sem/Plc. Ellers har æ ingen store
preferanser.

Jeg er enig i å flytte til +Der2, jeg har ikke foreslått å fjerne dem.

@albbas
Copy link
Contributor Author

albbas commented Jun 18, 2019

Comment 13513

Date: 2019-06-18 10:55:25 +0200
From: Lene Antonsen <<lene.antonsen>>

Den siste har fremdeles +Sem/Plc, hvorfor det? Slik er stien:

@U.Cap.Opt@+Der1+Der/t+A+CmpN/SgN+CmpN/SgG+CmpN/Pl

Kanskje det ikke er tatt høyde for +N+Prop+Sem/Plc+Der... ?

@albbas
Copy link
Contributor Author

albbas commented Jun 21, 2019

Comment 13516

Date: 2019-06-21 10:34:52 +0200
From: Linda Wiechetek <<linda.wiechetek>>

(In reply to Lene Antonsen from comment #14)

Den siste har fremdeles +Sem/Plc, hvorfor det? Slik er stien:

@U.Cap.Opt@+Der1+Der/t+A+CmpN/SgN+CmpN/SgG+CmpN/Pl

Kanskje det ikke er tatt høyde for +N+Prop+Sem/Plc+Der... ?

Det må kanskje Duommá svare på?

@albbas
Copy link
Contributor Author

albbas commented Jun 21, 2019

Comment 13517

Date: 2019-06-21 10:41:46 +0200
From: Lene Antonsen <<lene.antonsen>>

(In reply to Linda Wiechetek from comment #15)

(In reply to Lene Antonsen from comment #14)

Den siste har fremdeles +Sem/Plc, hvorfor det? Slik er stien:

@U.Cap.Opt@+Der1+Der/t+A+CmpN/SgN+CmpN/SgG+CmpN/Pl

Kanskje det ikke er tatt høyde for +N+Prop+Sem/Plc+Der... ?

Det må kanskje Duommá svare på?

Beklager at jeg var uklar, jeg burde ha skrevet:

Årsaken er kanskje at Sjur ikke har tatt høyde for +N+Prop+Sem/Plc+Der.. i filteret.

@albbas
Copy link
Contributor Author

albbas commented Jun 27, 2019

Comment 13524

Date: 2019-06-27 18:08:33 +0200
From: Lene Antonsen <<lene.antonsen>>

Etter Sjurs endring, så får vi
ceavzilvuohta ceavzil+Ex/A+Der/vuota+N+Sg+Nom (BRA)
biillaš biila+Ex/N+Sem/Veh+Der/Dimin+N+Sg+Nom (BRA)

Jeg ser at hvis det er en +Err/Orth, så blir ikke sem-taggen fjernet:
ráhkesvuohta ráhkis+Ex/A+Ex/Attr+Der/vuota+N+Sg+Nom
ráhkisvuohta ráhkis+Ex/A+Sem/Hum+Err/Orth+Ex/Attr+Der/vuota+N+Sg+Nom

vn ci -m "endret fra +Der1 til +Der2 for +Der/t og +Der/ár, se Bz. 2522" src/morphology/root.lexc src/morphology/affixes/
Sending src/morphology/affixes/acronyms.lexc
Sending src/morphology/affixes/nouns.lexc
Sending src/morphology/root.lexc
Transmitting file data ...done
Committing transaction...
Committed revision 181390.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

1 participant