查看大模型对应的准确参数量和网络结构的实战代码
文章目录
1. 前言
最近有同学提出疑问,不同大模型对应的准确参数量是多少?比如llama 7B对应的准确参数量是多少呢,是6B+五入到7B的,还是7B+四舍到6B的。与此同时,他还提出大模型对应的词表数量、详细网络结构具体是什么?
2. 实战代码
需要说明的是,本文是在Linux+CUDA 12.2+Python 3.10+transformers 4.36.2 环境下复现成功的。建议大家将GPU驱动、CUDA、CuDNN均升级为到CUDA最新版本12.2。