主机论坛

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
12
返回列表 发新帖
楼主: 吊打华伪

开启核显跑AI后,显存大小不是问题了,32B都满足不了我了!

[复制链接]

268

主题

309

回帖

1600

积分

金牌会员

Rank: 6Rank: 6

积分
1600
 楼主| 发表于 2025-4-12 14:43:30 | 显示全部楼层
吊打华伪 发表于 2025-4-12 15:04
你跑的时最小的吧,几GB的那种。 单凡你跑个10GB的, 就不可能有这个速度。

理论最好的情况10-6=4GB要传 ...

16B,模型大小8.9G
回复

使用道具 举报

17

主题

94

回帖

329

积分

中级会员

Rank: 3Rank: 3

积分
329
发表于 2025-4-12 14:28:00 | 显示全部楼层
杜甫 发表于 2025-4-12 15:30
16B,模型大小8.9G

你这个是moe的,每次只读取激活的权重,远远小于8.9.   大概率都小于6GB.

其他模型每次都要读取8.9GB.   不信你跑下其他模型,同样8.9GB, 你会发现速度大幅度下降。估计也就2token/s左右了。
回复

使用道具 举报

268

主题

309

回帖

1600

积分

金牌会员

Rank: 6Rank: 6

积分
1600
 楼主| 发表于 2025-4-12 15:04:24 | 显示全部楼层
吊打华伪 发表于 2025-4-12 16:07
你这个是moe的,每次只读取激活的权重,远远小于8.9.   大概率都小于6GB.

其他模型每次都要读取8.9GB.   ...

不懂。
128G的内存,能跑32B的模型了吧
回复

使用道具 举报

17

主题

94

回帖

329

积分

中级会员

Rank: 3Rank: 3

积分
329
发表于 2025-4-12 15:11:45 | 显示全部楼层
杜甫 发表于 2025-4-12 16:15
不懂。
128G的内存,能跑32B的模型了吧

能是能,就是超级慢。  你也不用折腾了,就跑i现在这个moe最合适了,换其他的8.9G 最多2token/s.
换更大24G的,会直接掉到0.3以下。  也就是你想跑大的模型,只能把p106去掉。会大幅度提高速度。

因为cpu算力虽然比显卡慢,但是最慢的数据传输部分,读取速度从矿卡的4GB/s大幅提高到了40GB/s(ddr4 3200双通道).
回复

使用道具 举报

268

主题

309

回帖

1600

积分

金牌会员

Rank: 6Rank: 6

积分
1600
 楼主| 发表于 2025-4-12 14:43:00 | 显示全部楼层
吊打华伪 发表于 2025-4-12 17:03
能是能,就是超级慢。  你也不用折腾了,就跑i现在这个moe最合适了,换其他的8.9G 最多2token/s.
换更大 ...

就是说去掉烂显卡,反而会快很多?
回复

使用道具 举报

45

主题

467

回帖

1385

积分

金牌会员

Rank: 6Rank: 6

积分
1385
发表于 2025-4-12 15:30:15 | 显示全部楼层
杜甫 发表于 2025-4-12 17:11
就是说去掉烂显卡,反而会快很多?

对大体积的而言,确实会快。 但是不是快太多。但肯定比被pcie 1.1*16限制下的0.3 token每秒快很多。2token差不多吧。

除了moe模型之外,其他模型每算一个token就要读取整个模型大小。

对大体积的而言,超过了你显存,cpu再慢,也用不了数据传输那么久。
回复

使用道具 举报

268

主题

309

回帖

1600

积分

金牌会员

Rank: 6Rank: 6

积分
1600
 楼主| 发表于 2025-4-12 15:04:00 | 显示全部楼层
吊打华伪 发表于 2025-4-12 14:35
香菇肥牛,有印象    记得以前看过你博客的一篇教程。

没有独显,纯核显。

用的OpenVino? 我去研究研究
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|主机论坛

GMT+8, 2025-5-5 13:54 , Processed in 0.079189 second(s), 16 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表