作为二十年网龄的老网虫,年后的互联网有点怪。

首先就是全球尺度大语言模型的底线被deepseek v3与r1拉高到了一个明显强于社会平均人的水准。很多人会拿着一些比较怪的题去测试不同大语言模型,然后给个排名啥的,这没必要,应用层面关注的是下限,只要用20%的资源可以解决80%的问题,那就是个好工具。deepseek现在给出的模型,不管是官方的,或者第三方托管的,还是蒸馏其他开源模型的小推理模型,都已经明显到了可用的水平了。事实上,deepseek v2 的coder模型之前就是开源模型里做本地补全最好的那一批,另外我有点替阿里的千问模型感到可惜,到去年年底deepseek …