
1、7B的模型参数量就占到了16G而且你要检索要把所有的候选项candidate全部变成向量嵌入然后计算相似度3090的24G显存很容易爆而且数据量一旦大了一点达到几万基本就很难跑通了。如果输入还有图像的话显存更加容易溢出可以在加载模型的时候限制图片输入的像素例如max_pixel参数加载模型的时候也可以使用int4量化。2、例如原来是在64G的显存上跑有些时候即使你把batch_size改成1num_workers改成0也依然在24G的显存上跑不了。3、一般原来的论文用到H200A100基本上完整全部复现论文也需要这个配置24G可能只能复现部分论文。