今天看了一下 ollama 上提供的所有 deepseek-r1 模型,除了 671b,其他都是蒸馏的,为什么会这样?
671b
https://ollama.com/library/deepseek-r1
微信里点“发现”,扫一下
二维码便可将本文分享至朋友圈。
在 https://github.com/deepseek-ai/DeepSeek-R1 的 readme 中找到了答案:
To support the research community, we have open-sourced DeepSeek-R1-Zero, DeepSeek-R1, and six dense models distilled from DeepSeek-R1 based on Llama and Qwen.
以下是 readme 中的表格截图