Pretraining the deberta-v3 by larger context length. #153

sherlcok314159 · 2024-07-12T03:16:54Z

Hi! I find that Deberta-v3 uses relative-position embedding so that it can takes in larger context compared to traditional BERT. Have you tried to pretrain deberta-v3 by 1024 or larger?

If I need to pretrain deberta-v3 from the scratch using a larger context length (e.g., 1024), are there any modification I should make besides the training script?

Thanks for any kind help!

sileod · 2024-09-15T14:18:01Z

Hi, I did a multi-task fine-tune with 1280 context length (1680 for small version)
https://huggingface.co/tasksource/deberta-base-long-nli

sherlcok314159 · 2024-09-23T08:14:05Z

Could you please open-source your code for learn?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Pretraining the deberta-v3 by larger context length. #153

Pretraining the deberta-v3 by larger context length. #153

sherlcok314159 commented Jul 12, 2024 •

edited

Loading

sileod commented Sep 15, 2024

sherlcok314159 commented Sep 23, 2024

Pretraining the deberta-v3 by larger context length. #153

Pretraining the deberta-v3 by larger context length. #153

Comments

sherlcok314159 commented Jul 12, 2024 • edited Loading

sileod commented Sep 15, 2024

sherlcok314159 commented Sep 23, 2024

sherlcok314159 commented Jul 12, 2024 •

edited

Loading