⏰ Full-time

混元大语言模型后训练算法工程师（深圳/北京/上海）

🏢

Tencent

                    Location
                    📍 Shenzhen, China
                

                    Posted
                    📅 June 23, 2026
                

                    Work Type
                    ⏰ Full-time
                

Position Overview

                    混元大语言模型后训练算法工程师（深圳/北京/上海） 深圳 分享 
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
 收藏 TEG 点击了解更多BG信息 技术 三年以上工作经验 更新于年06月15日 岗位职责 1.负责大语言模型后训练（Post-Training）阶段的核心技术研发，构建和优化高质量的奖励系统（Reward System），通过Reward Modeling (RM) 和强化学习（RL）算法持续提升模型在复杂指令遵循、逻辑推理及价值观对齐方面的能力；
2.深入研究和优化 RLHF 等后训练算法，提升模型训练的稳定性和最终效果；
3.负责大模型个性化（Personalization）与长期记忆（Memory）机制的算法研发，构建精准的“千人千面”用户建模体系，探索模型如何理解、提取、记忆并动态适应不同用户的长期偏好，持续提升个性化交互体验；
4.负责后训练阶段的数据合成与管理，设计高效的数据飞轮机制，利用SFT、Self-Instruct等技术合成高质量训练数据，并负责建立从用户多维反馈（User Feedback）到模型迭代的闭环信号建模体系；
5.负责后训练模型的全维度评测与分析，制定科学的评价指标，跟进前沿技术动态，将最新研究成果快速转化为业务价值。
 岗位要求 1.计算机科学/软件工程/人工智能等相关专业硕士及以上学历；
2.深入理解 Transformer 架构及大语言模型训练原理，在 LLM Alignment、RLHF、Reward Modeling、**个性化大模型（Personalized LLM）、记忆机制（Memory/RAG）**等后训练领域之一有深入的研究和实践经验；
3.在用户画像建模、推荐系统与大模型结合、或超长上下文/长期记忆模型优化方面有丰富实战经验者优先；
4.具备扎实的算法基础和工程实现能力，熟练掌握 Python，熟悉 PyTorch/TensorFlow 等深度学习框架；
5.拥有分布式训练实战经验，熟悉 Megatron-LM, DeepSpeed, vLLM 等大规模训练及推理框...
                

Apply Now

Submit Application →

Quick and easy application process

Job Details

⏰

Employment Type

Full-time

📊