Acone Tech BLOG

DeepSeek新突破:解读SPCT技术与通用奖励模型DeepSeek-GRM

引言 近期,国内人工智能公司DeepSeek在大型语言模型(LLM)领域再掀波澜,发布了一项名为SPCT(Sparse Pre-training and Context Tuning)的新技术,旨在提升通用奖励模型(General Reward Model, GRM)的性能和AI对齐效率。这项技术不仅展示了DeepSeek在模型优化方面的深厚实力,也可能预示着其下一代模型(如传闻中的R2)...