@@ -48,29 +48,6 @@ def test_create_sentence_with_extra_whitespace():
48
48
assert sentence .get_token (4 ).text == "."
49
49
50
50
51
- @pytest .mark .skip (reason = "Fix these issues for StaccatoTokenizer in future PR" )
52
- def test_create_sentence_difficult_encoding ():
53
- text = "so out of the norm ❤ ️ enjoyed every moment️"
54
- sentence = Sentence (text )
55
- assert len (sentence ) == 9
56
-
57
- text = (
58
- "equivalently , accumulating the logs as :( 6 ) sl = 1N ∑ t = 1Nlogp "
59
- "( Ll | xt \u200b , θ ) where "
60
- "p ( Ll | xt \u200b , θ ) represents the class probability output"
61
- )
62
- sentence = Sentence (text )
63
- assert len (sentence ) == 37
64
-
65
- text = "This guy needs his own show on Discivery Channel ! "
66
- sentence = Sentence (text )
67
- assert len (sentence ) == 10
68
-
69
- text = "n't have new vintages."
70
- sentence = Sentence (text , use_tokenizer = True )
71
- assert len (sentence ) == 5
72
-
73
-
74
51
def test_create_sentence_word_by_word ():
75
52
token1 : Token = Token ("Munich" )
76
53
token2 : Token = Token ("and" )
@@ -403,25 +380,25 @@ def test_print_sentence_plain(tasks_base_path):
403
380
sentence = corpus .train [0 ]
404
381
sentence .infer_space_after ()
405
382
assert (
406
- sentence .to_tokenized_string () == 'Schartau sagte dem " Tagesspiegel " vom Freitag , Fischer sei " in '
407
- "einer Weise aufgetreten , "
408
- 'die alles andere als überzeugend war " .'
383
+ sentence .to_tokenized_string () == 'Schartau sagte dem " Tagesspiegel " vom Freitag , Fischer sei " in '
384
+ "einer Weise aufgetreten , "
385
+ 'die alles andere als überzeugend war " .'
409
386
)
410
387
assert (
411
- sentence .to_plain_string () == 'Schartau sagte dem "Tagesspiegel" vom Freitag, Fischer sei "in einer '
412
- "Weise aufgetreten, die "
413
- 'alles andere als überzeugend war".'
388
+ sentence .to_plain_string () == 'Schartau sagte dem "Tagesspiegel" vom Freitag, Fischer sei "in einer '
389
+ "Weise aufgetreten, die "
390
+ 'alles andere als überzeugend war".'
414
391
)
415
392
416
393
sentence = corpus .train [1 ]
417
394
sentence .infer_space_after ()
418
395
assert (
419
- sentence .to_tokenized_string () == "Firmengründer Wolf Peter Bree arbeitete Anfang der siebziger Jahre als "
420
- "Möbelvertreter , als er einen fliegenden Händler aus dem Libanon traf ."
396
+ sentence .to_tokenized_string () == "Firmengründer Wolf Peter Bree arbeitete Anfang der siebziger Jahre als "
397
+ "Möbelvertreter , als er einen fliegenden Händler aus dem Libanon traf ."
421
398
)
422
399
assert (
423
- sentence .to_plain_string () == "Firmengründer Wolf Peter Bree arbeitete Anfang der siebziger Jahre als "
424
- "Möbelvertreter, als er einen fliegenden Händler aus dem Libanon traf."
400
+ sentence .to_plain_string () == "Firmengründer Wolf Peter Bree arbeitete Anfang der siebziger Jahre als "
401
+ "Möbelvertreter, als er einen fliegenden Händler aus dem Libanon traf."
425
402
)
426
403
427
404
@@ -616,6 +593,27 @@ def test_staccato_tokenizer_with_multilingual_text():
616
593
assert [token .text for token in arabic_sentence .tokens ] == ["مرحبا" , "بالعالم" , "!" , "123" ]
617
594
618
595
596
+ def test_create_sentence_difficult_encoding ():
597
+ text = "so out of the norm ❤ ️ enjoyed every moment️"
598
+ sentence = Sentence (text , use_tokenizer = StaccatoTokenizer ())
599
+ assert len (sentence ) == 9
600
+
601
+ text = "This guy needs his own show on Discivery Channel ! "
602
+ sentence = Sentence (text , use_tokenizer = StaccatoTokenizer ())
603
+ assert len (sentence ) == 10
604
+
605
+ text = "n't have new vintages."
606
+ sentence = Sentence (text , use_tokenizer = True )
607
+ assert len (sentence ) == 5
608
+
609
+ text = (
610
+ "equivalently , accumulating the logs as :( 6 ) sl = 1N ∑ t = 1Nlogp "
611
+ "( Ll | xt \u200b , θ ) where "
612
+ "p ( Ll | xt \u200b , θ ) represents the class probability output"
613
+ )
614
+ sentence = Sentence (text , use_tokenizer = StaccatoTokenizer ())
615
+ assert len (sentence ) == 40
616
+
619
617
def test_sentence_retokenize ():
620
618
# Create a sentence with default tokenization
621
619
sentence = Sentence ("01-03-2025 New York" )
0 commit comments