开启核显跑AI后，显存大小不是问题了，32B都满足不了我了！

吊打华伪 · 发表于 2025-4-12 11:45:57

跑个20G的模型，都是家常便饭

以前8G显卡只能跑个6G的模型，再大就用内存了，速度就和核显没区别了。

gdtv · 发表于 2025-4-12 12:18:22

有教程吗

Ausxilia · 发表于 2025-4-12 12:31:57

恩，知道你动作慢了

杜甫 · 发表于 2025-4-12 13:55:29

同求教程。
不过我试P106-100 6G显卡+48G内存也可以跑32B啊，只是很慢

shc · 发表于 2025-4-12 13:57:09

楼主是只有核显，还是有独显再开核显？

cici9911 · 发表于 2025-4-12 14:25:06

780m？  intel的核显好像不能共享内存

吊打华伪 · 发表于 2025-4-12 14:28:50

杜甫发表于 2025-4-12 13:55
同求教程。
不过我试P106-100 6G显卡+48G内存也可以跑32B啊，只是很慢

你比我还慢。。。准确的说慢多了。
pcie, 你矿卡才1.1*16，你理论值才4GB/s 比我慢多了。双通道内存带宽理论值有51.2GB/s, 实际算36GB。跑24G大小的模型，我的速度有36/24=1.5token/s 你最多0.3. --------当然你要是跑小模型，几GB的那种，你的速度就吊打我了。

我也有矿卡，7B Q4的模型，核显只有5个token, 矿卡有好几十

吊打华伪 · 发表于 2025-4-12 13:55:00

本帖最后由吊打华伪于 2025-4-12 14:36 编辑

shc 发表于 2025-4-12 13:57
楼主是只有核显，还是有独显再开核显？

香菇肥牛，有印象

记得以前看过你博客的一篇教程。

没有独显，纯核显。

你可能不了解，现代AI构架都已经支持异步了，就是总时间=计算和传输的最大，而不是二者之和。独显算力比核显强再多，只要传输的时间多，算力就毫无意义。

杜甫 · 发表于 2025-4-12 14:35:25

吊打华伪发表于 2025-4-12 14:28
你比我还慢。。。准确的说慢多了。
pcie, 你矿卡才1.1*16，你理论值才4GB/s 比我慢多了。双通道内存带宽 ...

刚试了下，
跑deepseek-coder-v2 16B 这个模型
速度有9token/秒，不知道把P106拔下来后有多少

杜甫 · 发表于 2025-4-12 13:57:00

杜甫发表于 2025-4-12 14:43
刚试了下，
跑deepseek-coder-v2 16B 这个模型
速度有9token/秒，不知道把P106拔下来后有多少

你跑的时最小的吧，几GB的那种。单凡你跑个10GB的，就不可能有这个速度。

理论最好的情况10-6=4GB要传输。至少1秒。

--------------以上针对密集模型，比如qwq32和llama以及deepseek微调的那些。---------------

啊，想起来了，你这个deepseek原生是moe模型，每次加载一小部分。所以速度还行。但是仅限于moe的才有这个速度，其他的绝大部分模型都不行。

杜甫发表于 2025-4-12 14:43
刚试了下，
跑deepseek-coder-v2 16B 这个模型
速度有9token/秒，不知道把P106拔下来后有多少

我之前用这个https://hostloc.com/thread-1399611-1-1.html
生成文章的效果不是一般的差。

不知道你这个coder版本质量怎么样。

		自动登录	找回密码
密码			立即注册