-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
telefonnr-analysator for alle språk #2
Comments
Fyrste del av telefonnummeret blir rett og slett ikkje kjent igjen av analysatoren, slik at det er stavekontrollen som blir brukt til å generera "retteforslag, jf |
teknisk er det ganske enkelt å laga lexicon eller regulære uttrykk av telefonnummerformata, største problem har vart jo at i shared det blir problematisk for en eller annet bruk, til eksempel, det finnes allerede ukommentert telefonnummerleksikon i shared-smi: https://github.com/giellalt/shared-smi/blob/main/src/fst/stems/arabic_roman_digits.lexc#L354-L368, (den er for gammelt for att æ kunne finne ut kem som har utkomentert den men kanskje det er noen som vet bakgrunn til det her?) |
Det er berre å ignorera utkommenterte, gamle ting. Vi treng ein felles telefonnummerparsar, så om du kan leggja til ein i Og så må telefonnumra sjølvsagt taggast slik at det er lett å disambiguera dei, eller heilt fjerna dei frå fst-en. |
den er i shared-mul og lang-smj nå: $ echo tel. 073-786 58 10 | hfst-tokenise -g tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst
"<tel.>"
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Attr <W:0.0> "<tel>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Attr <W:0.0>
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Acc <W:0.0> "<tel>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Acc <W:0.0>
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Gen <W:0.0> "<tel>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Gen <W:0.0>
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Nom <W:0.0> "<tel>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Nom <W:0.0>
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Nom <W:0.0> "<tel>"
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Gen <W:0.0> "<tel>"
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Pl Nom <W:0.0> "<tel>"
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Attr <W:0.0> "<tel>"
:
"<073-786 58 10>"
"073-786 58 10" Num Arab TEL <W:0.0>
:\n |
Vi mangler en telefonr-analusator for alle språk. Enten i shared-smi elelr shared-mul.
Nå ser det slik ut i lulesamisk, og der blir svenske telefonnr særlig utfordrende da disse får blir "typos" da de begynner med
0
:The text was updated successfully, but these errors were encountered: