使用自己的领域数据扩充baichuan模型词表(其他模型也一样)
文章目录
前言
总的来说,扩充词表可以加快解码速度,对于对中文支持不太友好的模型(如llama),扩充词表还能提升模型在中文的表现。
环境
{ "jsonlines": "3.1.0", "sentencepiece": "0.1.99", "transformers": "4.28.1" } 项目结构
 其中 tokenization_baichuan.py是直接从百川模型文件夹里复制过来的
一、使用步骤
pip install -r requirements.txt cd src python main.py