Pytorch基础：torch.load_state_dict()方法在加载时不会检查类型-尧图网站设计

相关阅读Pytorch基础https://blog.csdn.net/weixin_45791458/category_12457644.html?spm1001.2014.3001.5482笔者在使用torch.nn.module的load_state_dict中出现了一个问题一个被注册的张量在加载后居然没有变化一开始以为是加载出现了问题但发现其他参数加载成功思索后发现是注册的张量的类型是整型而checkpoint中保存为浮点数类型恰好注册时的默认值给的是0而checkpoint中的浮点数又在0到1之间因此出现了这个令人困惑的bug。下面首先复现这个bug。import torch import torch.nn as nn # 定义一个简单的线性模型参数类型为整数 class SimpleModel(nn.Module): def __init__(self): super(SimpleModel, self).__init__() self.register_buffer(test, torch.tensor(0)) # 注册一个整型张量 # 创建一个简单模型实例 model SimpleModel() # 创建一个浮点数作为参数 float_parameter torch.tensor(0.6) # 将注册名指向另一个浮点型张量 model.test float_parameter # 保存模型 torch.save(model.state_dict(), model.pth) # 直接使用原模型加载 checkpoint torch.load(model.pth) model.load_state_dict(checkpoint) # 打印加载后的参数 print(model.test) # 直接使用新模型加载 model_1 SimpleModel() model_1.load_state_dict(checkpoint) # 打印加载后的参数 print(model_1.test)输出 tensor(0.6000) tensor(0)可以看到当模型中注册的名字(test)指向了一个类型不符的张量后并不会导致浮点型张量被截断为整型这是因为此处是直接使用赋值号使名字指向了另一个张量。但使用load_state_dict()方法与使用赋值号是不同的load_state_dict()方法的实现中调用了_load_from_state_dict()方法其中调用了copy_()方法进行了原位(in-place)数据替换这可能会进行截断下面是原位替换的一个例子。import torch # 创建两个张量 a torch.tensor([[1, 2], [3, 4]]) b torch.tensor([[5.1, 6.1], [7.1, 8.1]]) # 查看张量对象的id print(id(a)) print(id(b)) # 查看底层存储的内存地址 print(a.storage().data_ptr()) print(b.storage().data_ptr()) # 将张量 b 中的值复制到张量 a 中 a.copy_(b) # 打印复制后的结果 print(a) # 查看张量对象的id print(id(a)) print(id(b)) # 查看底层存储的内存地址 print(a.storage().data_ptr()) print(b.storage().data_ptr())输出 2604425272672 2604426953808 2604511348096 2602930352832 tensor([[5, 6], [7, 8]]) 2604425272672 2604426953808 2604511348096 2602930352832在保存了模型的状态字典后使用load_state_dict()方法加载后也不会有任何截断问题因为对于原模型而言名字test指向的是一个浮点型张量此时原位替换类型吻合。但是对于一个新的模型此时的test指向的是一个整型张量此时原位替换会发生截断。因此在注册一个张量时需要确保其在注册时和保存时的类型吻合此处除了指形状还有类型否则可能会出现意想不到的bug。

Pytorch基础：torch.load_state_dict()方法在加载时不会检查类型

相关新闻

DownKyi跨平台版终极指南：B站视频下载与音视频分离完整教程

CryptoJS 加密库完整指南：5个核心功能深度解析

macOS用户必看：vscode-icons安装与使用完整手册

QMCDecode终极指南：3步快速解锁QQ音乐加密格式，实现音频自由播放

3步解密网易云NCM音乐完整指南：高效实现跨平台播放自由

字体反爬破解实战：解析WOFF2 cmap表还原数字映射

Unity2D像素刀光实现：粒子方向控制与像素级渲染规范

Unity闪电链效果：实时物理模拟与高性能实现

Unity闪电链实现：物理驱动的连锁闪电特效系统

3小时重构视觉可信度：Midjourney拟物化风格紧急修复指南——含光照角度校准、微纹理叠加、物理反射模拟速查表

如何3分钟一键获取Steam游戏清单？Onekey工具终极指南

Postgresql基础实践教程（二）

2026年十大最佳地区搜索排名优化工具：权威榜单赋能企业高效增长

DDR3内存Row Hammer问题解析与防护方案

为ItsyBitsy ESP32设计3D打印外壳：从原型到产品的完整实践

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

全平台智能资源下载工具：res-downloader 完整使用教程