Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Semtag categories (Bugzilla Bug 2593) #15

Open
albbas opened this issue May 27, 2019 · 23 comments
Open

Semtag categories (Bugzilla Bug 2593) #15

albbas opened this issue May 27, 2019 · 23 comments
Assignees
Labels
enhancement New feature or request low priority

Comments

@albbas
Copy link
Contributor

albbas commented May 27, 2019

This issue was created automatically with bugzilla2github

Bugzilla Bug 2593

Date: 2019-05-27T16:30:45+02:00
From: Linda Wiechetek <<linda.wiechetek>>
To: Linda Wiechetek <<linda.wiechetek>>
CC: elena.j.paulsen, lene.antonsen, linda.wiechetek, maja.l.kappfjell, marja-liisa.olthuis, rueter.jack, sjur.n.moshagen, thomas.omma, trond.trosterud

Last updated: 2020-04-17T12:05:04+02:00

@albbas
Copy link
Contributor Author

albbas commented May 27, 2019

Comment 13463

Date: 2019-05-27 16:30:45 +0200
From: Linda Wiechetek <<linda.wiechetek>>

Her vil vi ha diskusjoner angånde semantiske kategorier, bruk av tagger, overflødige tagger, muligens flere distinksjoner, osv. Det blir lettere å følge med og dokumentere på denne måten.

@albbas
Copy link
Contributor Author

albbas commented May 27, 2019

Comment 13464

Date: 2019-05-27 16:57:43 +0200
From: Lene Antonsen <<lene.antonsen>>

Spørsmål om hovedtagg og undergruppe.

De mange tilfeller har vi hovedkategori og under-gruppe som er en delmengde av hovedkategorien, f.eks.

+Sem/Tool
+Sem/Tool-catch
+Sem/Tool-clean
+Sem/Tool-it
+Sem/Tool-measr
+Sem/Tool-music
+Sem/Tool-write

Dette vil si at vi i CG legger alle disse under Sem/Tool, f.eks. for å finne komitativ vs. lokativ, bortsett fra de gangene vi ønsker å differensiere.

Hvordan er det med -part?
+Sem/Build-part
+Sem/Clth-part
+Sem/Plant-part

Jeg ser at +Sem/Clth-part er slike ting som man ikke kler på seg (riesa, lubma), Sem/Plant-part er kanskje litt samme fordi man kan plante soahki, men ikke soahkelasta?

Jeg ser at Sem/Build-part som oftest er rom, f.eks. gievkkan. Sem/Build har ikke ekstra tagg Sem/Plc, men ved å være Sem/Build, tar vi dette settet med i PLACE-kategorien. De fleste medlemmene av +Sem/Build-part passer også der, men ikke alle, fordi her er også noen medlemmer som seaidni og sis-gáhttu.

Dette burde differensieres. Hvis det passer å si at -part ikke har samme syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett +Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt forstå at inneholder substantiv som passer inn i PLACE.

Og da kan vi ha som hovedregel at -part-settene ikke er delsett av hovedkategorien.

@albbas
Copy link
Contributor Author

albbas commented May 27, 2019

Comment 13465

Date: 2019-05-27 17:18:00 +0200
From: Lene Antonsen <<lene.antonsen>>

I sme-katalogen har vi denne taggen lea +Sem/Body-abstr_Feat-cogn
men vi har ingen Feat-cogn

Vi har:
LIST Sem/Feat-measr =
LIST Sem/Feat-phys =
LIST Sem/Feat-psych =

Skal +Sem/Body-abstr_Feat-cogn egentlig være +Sem/Body-abstr_Feat-psych?

@albbas
Copy link
Contributor Author

albbas commented May 27, 2019

Comment 13466

Date: 2019-05-27 17:43:22 +0200
From: Lene Antonsen <<lene.antonsen>>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#1)

Spørsmål om hovedtagg og undergruppe.

Dette burde differensieres. Hvis det passer å si at -part ikke har samme

syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett
+Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt
forstå at inneholder substantiv som passer inn i PLACE.

Og da kan vi ha som hovedregel at -part-settene ikke er delsett av
hovedkategorien.

Jeg foreslå part uten bindestrek:

+Sem/Buildpart
+Sem/Clthpart
+Sem/Plantpart

tilsvarende at vi har

+Sem/Aniprod
som jo er noe annet enn

+Sem/Ani
+Sem/Ani-fish

Dvs at med bindestrek: underkategori
uten bindestrek: en ny hovedkategori

@albbas
Copy link
Contributor Author

albbas commented May 28, 2019

Comment 13467

Date: 2019-05-28 10:25:59 +0200
From: Linda Wiechetek <<linda.wiechetek>>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#1)

Spørsmål om hovedtagg og undergruppe.

De mange tilfeller har vi hovedkategori og under-gruppe som er en delmengde
av hovedkategorien, f.eks.

+Sem/Tool
+Sem/Tool-catch
+Sem/Tool-clean
+Sem/Tool-it
+Sem/Tool-measr
+Sem/Tool-music
+Sem/Tool-write

Dette vil si at vi i CG legger alle disse under Sem/Tool, f.eks. for å finne
komitativ vs. lokativ, bortsett fra de gangene vi ønsker å differensiere.

Hvordan er det med -part?
+Sem/Build-part
+Sem/Clth-part
+Sem/Plant-part

Jeg ser at +Sem/Clth-part er slike ting som man ikke kler på seg (riesa,
lubma), Sem/Plant-part er kanskje litt samme fordi man kan plante soahki,
men ikke soahkelasta?

Jeg ser at Sem/Build-part som oftest er rom, f.eks. gievkkan. Sem/Build har
ikke ekstra tagg Sem/Plc, men ved å være Sem/Build, tar vi dette settet med
i PLACE-kategorien. De fleste medlemmene av +Sem/Build-part passer også der,
men ikke alle, fordi her er også noen medlemmer som seaidni og sis-gáhttu.

Dette burde differensieres. Hvis det passer å si at -part ikke har samme
syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett
+Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt
forstå at inneholder substantiv som passer inn i PLACE.

Og da kan vi ha som hovedregel at -part-settene ikke er delsett av
hovedkategorien.

Ja det er sånn som du sier og for å bli konsekvent foreslår æ at vi skriver:

Sem/Buildpart
Sem/Clthpart
Sem/Plantpart

i ett ord for det som ikke kan karakteriseres som Build, Clth eller Plant.

Og at vi lager den taggen du foreslår for ord som "gievkan", dvs.:

Sem/Build-room

@albbas
Copy link
Contributor Author

albbas commented May 28, 2019

Comment 13468

Date: 2019-05-28 10:28:41 +0200
From: Linda Wiechetek <<linda.wiechetek>>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#2)

I sme-katalogen har vi denne taggen lea +Sem/Body-abstr_Feat-cogn
men vi har ingen Feat-cogn

Vi har:
LIST Sem/Feat-measr =
LIST Sem/Feat-phys =
LIST Sem/Feat-psych =

Skal +Sem/Body-abstr_Feat-cogn egentlig være +Sem/Body-abstr_Feat-psych?

Ja, vi tar Feat-psych og sletter Feat-cogn. Tror det kanskje er en feil at Feat-cogn kom inn. Æ har det ihvertfall ikke i min liste over mulige tagger.

@albbas
Copy link
Contributor Author

albbas commented May 28, 2019

Comment 13469

Date: 2019-05-28 10:33:44 +0200
From: Linda Wiechetek <<linda.wiechetek>>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#3)

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#1)

Spørsmål om hovedtagg og undergruppe.

Dette burde differensieres. Hvis det passer å si at -part ikke har samme

syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett
+Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt
forstå at inneholder substantiv som passer inn i PLACE.

Og da kan vi ha som hovedregel at -part-settene ikke er delsett av
hovedkategorien.

Jeg foreslå part uten bindestrek:

+Sem/Buildpart
+Sem/Clthpart
+Sem/Plantpart

tilsvarende at vi har

+Sem/Aniprod
som jo er noe annet enn

+Sem/Ani
+Sem/Ani-fish

Dvs at med bindestrek: underkategori
uten bindestrek: en ny hovedkategori

Ja, æ er enig. Foreslo akkurat det samme uten at æ så kommentaren din :)

@albbas
Copy link
Contributor Author

albbas commented May 28, 2019

Comment 13470

Date: 2019-05-28 10:40:11 +0200
From: Lene Antonsen <<lene.antonsen>>

Ja, vi tar Feat-psych og sletter Feat-cogn. Tror det kanskje er en feil at
Feat-cogn kom inn. Æ har det ihvertfall ikke i min liste over mulige tagger.

jeg har sjekket inn endringene i sme, smj og smn.

@albbas
Copy link
Contributor Author

albbas commented May 28, 2019

Comment 13471

Date: 2019-05-28 10:42:46 +0200
From: Lene Antonsen <<lene.antonsen>>

Sem/Buildpart
Sem/Clthpart
Sem/Plantpart

i ett ord for det som ikke kan karakteriseres som Build, Clth eller Plant.

Og at vi lager den taggen du foreslår for ord som "gievkan", dvs.:

Sem/Build-room

Jeg kan endre dette for de samiske språkene. Når det gjelder å endre fra Sem/Buildpart til Sem/Build-room, så bør dette gjøres av hver enkelt lingvist for sitt språk. Jeg kan ta sme.

@albbas
Copy link
Contributor Author

albbas commented May 28, 2019

Comment 13472

Date: 2019-05-28 14:20:54 +0200
From: Linda Wiechetek <<linda.wiechetek>>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#8)

Sem/Buildpart
Sem/Clthpart
Sem/Plantpart

i ett ord for det som ikke kan karakteriseres som Build, Clth eller Plant.

Og at vi lager den taggen du foreslår for ord som "gievkan", dvs.:

Sem/Build-room

Jeg kan endre dette for de samiske språkene. Når det gjelder å endre fra
Sem/Buildpart til Sem/Build-room, så bør dette gjøres av hver enkelt
lingvist for sitt språk. Jeg kan ta sme.

Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra når du er ferdig.

@albbas
Copy link
Contributor Author

albbas commented May 28, 2019

Comment 13473

Date: 2019-05-28 15:14:15 +0200
From: Lene Antonsen <<lene.antonsen>>

Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra
når du er ferdig.

Jeg er ferdig.

@albbas
Copy link
Contributor Author

albbas commented May 29, 2019

Comment 13476

Date: 2019-05-29 13:49:21 +0200
From: Linda Wiechetek <<linda.wiechetek>>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#10)

Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra
når du er ferdig.

Jeg er ferdig.

Takk! Da setter æ igang.

@albbas
Copy link
Contributor Author

albbas commented May 29, 2019

Comment 13478

Date: 2019-05-29 15:57:51 +0200
From: Linda Wiechetek <<linda.wiechetek>>

(In reply to Linda Wiechetek from comment giellalt/bugzilla-dummy#11)

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#10)

Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra
når du er ferdig.

Jeg er ferdig.

Takk! Da setter æ igang.

Nå har æ oppdatert de semantiske taggan i valency.cg3, grammarchecker.cg3 og mwe-dis.cg3:

Sem/Buildpart
Sem/Clthpart
Sem/Plantpart
Sem/Build-room

@albbas
Copy link
Contributor Author

albbas commented May 29, 2019

Comment 13479

Date: 2019-05-29 16:00:07 +0200
From: Lene Antonsen <<lene.antonsen>>

Jeg har laget et forslag til automatisk skripting for å oppdatere taggene alle steder hvor de skal oppdateres, vi kan diskutere dette i neste uke.

@albbas
Copy link
Contributor Author

albbas commented May 31, 2019

Comment 13482

Date: 2019-05-31 11:33:42 +0200
From: Linda Wiechetek <<linda.wiechetek>>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#13)

Jeg har laget et forslag til automatisk skripting for å oppdatere taggene
alle steder hvor de skal oppdateres, vi kan diskutere dette i neste uke.

Inkluderer det taggdefinisjonan av denne typen?

LIST Sem/Body = Sem/Body Sem/Body_Body-abstr Sem/Body_Clth Sem/Body_Food Sem/Body_Group_Hum Sem/Body_Group_Hum_Time Sem/Body_Hum Sem/Body_Mat Sem/Body_Measr Sem/Body_Obj_Tool-catch Sem/Body_Plc Sem/Body_Time ;

Dvs. blir alle nye tagkombinasjonan oppdatert i settan?

@albbas
Copy link
Contributor Author

albbas commented May 31, 2019

Comment 13483

Date: 2019-05-31 12:47:51 +0200
From: Lene Antonsen <<lene.antonsen>>

Inkluderer det taggdefinisjonan av denne typen?

LIST Sem/Body = Sem/Body Sem/Body_Body-abstr Sem/Body_Clth Sem/Body_Food
Sem/Body_Group_Hum Sem/Body_Group_Hum_Time Sem/Body_Hum Sem/Body_Mat
Sem/Body_Measr Sem/Body_Obj_Tool-catch Sem/Body_Plc Sem/Body_Time ;

Dvs. blir alle nye tagkombinasjonan oppdatert i settan?

Ja, det er meninga. Semtaggene skal inn i flere filer i forskjellige formater, og meninga er at skriptet skal gjøre dette. Jeg har laget et halvferdig skript, men jeg trenger hjelp til å gjøre det helt ferdig. Og vi må se på noen tekniske løsninger, som f.eks. å ha semsettene i en egen fil som inkluderes i cg3-fila via INCLUDE, slik som jeg nå har gjort for sme. Men meninga var at vi diskuterer dette på møtet slik at vi kan ta hensyn til alle filer og behov når det gjelder semsettene.

@albbas
Copy link
Contributor Author

albbas commented Jun 5, 2019

Comment 13487

Date: 2019-06-05 09:19:38 +0200
From: Elena Junie Paulsen <<elena.j.paulsen>>

Noen som vil se på sammensatte ord som slutter på -prográmma sammen med meg. Det er todelt utfordring; forstå hva begrepene faktisk betyr/inneholder, samt tag'e de med riktig Sem-tag ut i fra dette. De tag'ene som går igjen for denne "ordgruppen" er sålangt Act, Edu, Tool-it, Prod-vis, Prod-audio; dvs veldig varierende fra "program" til "program" :-)

Her er de utaggede fra smj (er laangt flere i sma):
belludakprográmma
gæhttjaladdamprográmma
kvalitæhttaprográmma
lånudallamprográmma
nuppástuhttemprográmma
oasseprográmma
rekruttierimprográmma
teknihkkaprográmma
vitalisierimprográmma
válggaprográmma (taget med Sem/Prod, uvisst om det er for uspesifisert)
álggoálmmukprográmma
árvvobuvtadimprográmma
åvdedimprográmma

prográmma som enkeltstående ord er nå tagget +Sem/Act_Tool-it
-men det skulle strengt tatt også vært tagget med Edu, Prod-vis også, i hvertfall? Og hva med Txt???

@albbas
Copy link
Contributor Author

albbas commented Jun 6, 2019

Comment 13491

Date: 2019-06-06 10:30:03 +0200
From: Linda Wiechetek <<linda.wiechetek>>

(In reply to Elena Junie Paulsen from comment giellalt/bugzilla-dummy#16)

Noen som vil se på sammensatte ord som slutter på -prográmma sammen med meg.
Det er todelt utfordring; forstå hva begrepene faktisk betyr/inneholder,
samt tag'e de med riktig Sem-tag ut i fra dette. De tag'ene som går igjen
for denne "ordgruppen" er sålangt Act, Edu, Tool-it, Prod-vis, Prod-audio;
dvs veldig varierende fra "program" til "program" :-)

Her er de utaggede fra smj (er laangt flere i sma):
belludakprográmma
gæhttjaladdamprográmma
kvalitæhttaprográmma
lånudallamprográmma
nuppástuhttemprográmma
oasseprográmma
rekruttierimprográmma
teknihkkaprográmma
vitalisierimprográmma
válggaprográmma (taget med Sem/Prod, uvisst om det er for uspesifisert)
álggoálmmukprográmma
árvvobuvtadimprográmma
åvdedimprográmma

prográmma som enkeltstående ord er nå tagget +Sem/Act_Tool-it
-men det skulle strengt tatt også vært tagget med Edu, Prod-vis også, i
hvertfall? Og hva med Txt???

I sme ser det slik ut:
når det er et dataprogram så blir det Sem/Tool-it
når det er et programm som et parti (belludakprográmma?) eller en organisasjon har så burde det bli Txt
Txt fordi det går an å si "I programmet står det følgende" eller "Programmet sier følgende"
Act skal det bli når det er en rekke av aktiviteter og man kan si "prográmma maŋŋel"
Edu burde det være når man kan si:
"Mun váccán ...prográmma", sånn som man kan si "Mun váccán skuvlla", hvis det ikke går an å si det om bare prográmma, så burde det ikke få Edu

Når det er noe man kan se på, sånn som et TV-program, så burde det være Prod-vis. Om man kan si "Mun geahčan prográmma" så kan "prográmma" få Prod-vis også.

Det er lurt å se i korpus om ordan virkelig blir brukt sånn som man tror. Man kan får store overraskelser..

@albbas
Copy link
Contributor Author

albbas commented Jun 13, 2019

Comment 13493

Date: 2019-06-13 13:01:25 +0200
From: Linda Wiechetek <<linda.wiechetek>>

Nå har æ oppdatert semtaggan i den lulesamiske disambiguatoren: smj/src/syntax/disambiguator.cg3 også.

@albbas
Copy link
Contributor Author

albbas commented Jun 13, 2019

Comment 13494

Date: 2019-06-13 14:29:08 +0200
From: Lene Antonsen <<lene.antonsen>>

(In reply to Linda Wiechetek from comment giellalt/bugzilla-dummy#18)

Nå har æ oppdatert semtaggan i den lulesamiske disambiguatoren:
smj/src/syntax/disambiguator.cg3 også.

og jeg har oppdatert sme, smn, sma

@albbas
Copy link
Contributor Author

albbas commented Apr 2, 2020

Comment 13877

Date: 2020-04-02 09:27:45 +0200
From: Jack Rueter <<rueter.jack>>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#1)

Spørsmål om hovedtagg og undergruppe.

De mange tilfeller har vi hovedkategori og under-gruppe som er en delmengde
av hovedkategorien, f.eks.

+Sem/Tool
+Sem/Tool-catch
+Sem/Tool-clean
+Sem/Tool-it
+Sem/Tool-measr
+Sem/Tool-music
+Sem/Tool-write

I am working with languages in the Russian environment where names include both GENDER and TYPE:
+Sem/Fem
+Sem/Mal

+Sem/Sur
+Sem/Patr
+Sem/Ant (This is Apertium for anthroponym, which I quess would distinguish them from dog, cat and other names for pets. Russian has nick names that do not distinguish Fem vs Mal, so it is good to know which Sasha or Evgeni you are talking about.)

My question is one of categorization:

+Sem/Sur-Fem, +Sem/Patr-Mal, +Sem/Ant-Fem or possibly just +Sem/Fem, +Sem/Mal
OR
+Sem/Fem-Sur, Sem/Mal-Patr, +Sem/Fem-Ant or simply +Sem/Fem, Sem/Mal

There are merits to both:
+Sem/Sur, +Sem/Patr, +Sem/Ant automatically indicates that we are dealing with names.

+Sem/Fem(-...) and +Sem/Mal(-...) indicates we are dealing with categories that might have direct bearing on congruence.

@albbas
Copy link
Contributor Author

albbas commented Apr 2, 2020

Comment 13879

Date: 2020-04-02 10:21:44 +0200
From: Sjur Nørstebø Moshagen <<sjur.n.moshagen>>

Eg føreslår at slike allmenne diskusjonar blir flytta over i Zulip, t.d. https://giella.zulipchat.com/#narrow/stream/124588-all_langs, og med ein eigen tråd, t.d. #Semtags.

I suggest we use Zulip and not Bugzilla for discussions like these, going forward.

@albbas
Copy link
Contributor Author

albbas commented Apr 17, 2020

Comment 13891

Date: 2020-04-17 12:05:04 +0200
From: Linda Wiechetek <<linda.wiechetek>>

virker å være en god løsning

@albbas albbas transferred this issue from giellalt/bugzilla-dummy Sep 3, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request low priority
Projects
None yet
Development

No branches or pull requests

4 participants