正在经营“罗孚传说”和“罗孚在上海”两个频道,希望能成为布道师和生活家。正在经营“罗孚传说”和“罗孚在上海”两个频道,希望能成为布道师和生活家。

不管是小主机还是服务器,一般都无法跑超出显存或内存容量的大模型,小主机的内存肯定小于服务器内存,所以小主机基本只剩使用大模型API这一条路,不过小主机外接显卡也是一种可探讨的方案。本文还详细介绍了小主机的优点,同时也认为没有真实性价比。
通过256GB内存以及2张P106显卡下的多场景测试,证明了一个毋庸置疑的结论:显卡推理完胜纯CPU推理以及混合推理。虽然证明了一个寂寞,但也给低成本多显卡推理带来了一些希望。
两千元服务器,也能运行671B DeepSeek-R1!虽速度不快,但性价比极高,是理(无)想(奈)的本地部署纯CPU推理方案。本文探讨了部署目的,回顾了翻车原因,进行了速度测试,提供了质量参考,还提出了后续方案,并附上模型文件与测试代码下载链接,欢迎大家沟通交流。
花费一两千元使用E5 CPU搭建的纯CPU推理70B大模型服务器翻车了,CPU指令集和DDR4内存带宽是致命问题,以后对于不支持AVX512或AMX指令集的CPU还是不要考虑了吧。
人与人之间存在差距,个人认知存在局限,人有不同的脾气,也有不同的追求,这些元素构成了人性的复杂画卷。我们或许无法彻底消除差距或改变认知,但通过理解与包容,能在差异中找到和谐。愿我们在思考中成长,在包容中前行,拥抱人性的多元与美好。
通过对比服务器、小主机和工作站的优缺点,我发现一两千元搭建一台使用纯 CPU 推理 70B 大模型的服务器是完全可行的,性能不差,内存充足,总体很强大。
大模型token输出速度通常用TPS(tokens per second)或tokens/s衡量。我分享了一段测试代码,并附上我的渣渣机跑出来的分数。你也来测试一下你的大模型性能,一起看看不同硬件下的速度表现吧!
Intel版MacBook用ollama跑大模型,显卡没用上,只能靠CPU硬扛。如果改用llama.cpp等程序来跑大模型,应该可以将独立显卡利用起来。而通过输出token速度测试,侧面证明“使用CPU硬扛大模型”的方式也完全可行。
使用家用PC和家庭宽带,低成本部署DeepSeek大模型并实现互联网访问,从技术方案上看完全可行。然而,距离真正达到完全可用的程度,还有很长的路要走。
区区一百元,装块矿渣显卡就能让老电脑焕然一新,能玩黑神话,能跑大模型,不得不说P106显卡真香!