罗孚

SXM2版V100显卡很麻烦但很香：14B大模型速度超50！附折腾攻略

RoverTang 发布于 2025-05-25 收录于 AI

SXM2版V100显卡非常具有性价比，适合AI大模型，单卡16GB版本一千出头，就能有不错的推理速度体验。但确实非常的折腾，转接卡、散热器、安装过程、系统兼容问题、驱动问题等都有不少的麻烦，坑有点多。只建议动手能力强的朋友入手。

RoverTang 发布于 2025-05-05 收录于 AI

不管是小主机还是服务器，一般都无法跑超出显存或内存容量的大模型，小主机的内存肯定小于服务器内存，所以小主机基本只剩使用大模型API这一条路，不过小主机外接显卡也是一种可探讨的方案。本文还详细介绍了小主机的优点，同时也认为没有真实性价比。

RoverTang 发布于 2025-05-04 收录于 AI

通过256GB内存以及2张P106显卡下的多场景测试，证明了一个毋庸置疑的结论：显卡推理完胜纯CPU推理以及混合推理。虽然证明了一个寂寞，但也给低成本多显卡推理带来了一些希望。

RoverTang 发布于 2025-04-05 收录于 AI

两千元服务器，也能运行671B DeepSeek-R1！虽速度不快，但性价比极高，是理(无)想(奈)的本地部署纯CPU推理方案。本文探讨了部署目的，回顾了翻车原因，进行了速度测试，提供了质量参考，还提出了后续方案，并附上模型文件与测试代码下载链接，欢迎大家沟通交流。

RoverTang 发布于 2025-03-08 收录于 AI

花费一两千元使用E5 CPU搭建的纯CPU推理70B大模型服务器翻车了，CPU指令集和DDR4内存带宽是致命问题，以后对于不支持AVX512或AMX指令集的CPU还是不要考虑了吧。

RoverTang 发布于 2025-03-01 收录于心理心灵

人与人之间存在差距，个人认知存在局限，人有不同的脾气，也有不同的追求，这些元素构成了人性的复杂画卷。我们或许无法彻底消除差距或改变认知，但通过理解与包容，能在差异中找到和谐。愿我们在思考中成长，在包容中前行，拥抱人性的多元与美好。

RoverTang 发布于 2025-02-23 收录于 AI

通过对比服务器、小主机和工作站的优缺点，我发现一两千元搭建一台使用纯 CPU 推理 70B 大模型的服务器是完全可行的，性能不差，内存充足，总体很强大。

RoverTang 发布于 2025-02-16 收录于 AI

大模型token输出速度通常用TPS(tokens per second)或tokens/s衡量。我分享了一段测试代码，并附上我的渣渣机跑出来的分数。你也来测试一下你的大模型性能，一起看看不同硬件下的速度表现吧！

RoverTang 发布于 2025-02-12 收录于 AI

Intel版MacBook用ollama跑大模型，显卡没用上，只能靠CPU硬扛。如果改用llama.cpp等程序来跑大模型，应该可以将独立显卡利用起来。而通过输出token速度测试，侧面证明“使用CPU硬扛大模型”的方式也完全可行。

RoverTang 发布于 2025-02-03 收录于 AI

使用家用PC和家庭宽带，低成本部署DeepSeek大模型并实现互联网访问，从技术方案上看完全可行。然而，距离真正达到完全可用的程度，还有很长的路要走。