该项目是个人研究学习使用,为了节省空间,notebook都清空了输出
Note: 环境变更请使用git查看历史的requirements.txt
- mrc.ipynb > 基于BERT做的QA问答
- mlm.ipynb > 基于BERT的预训练
- generate_model_train.ipynv > 基于bloom的预训练
- lora_for_seq_cls.ipynb > 基于lora做的bert训练
- ner.ipynb -> 基于BERT做的NER任务
- lora_for_llm.ipynb -> 基于lora做的大模型NER任务
- agent_tools.ipynb -> 最基础的agent示例
- tokenizer_train.ipynb -> 实现了三种编码方式,以及如何解决tokenizer编码回来的空格问题。考虑后续做tiktoken集成到tokenizer中
- ocr_stage2.ipynb -> TrOCR二阶段训练