⏰ Full-time

微信-WeLM 大模型 RL 环境构建研发工程师（深圳、上海）

🏢

Tencent

                    Location
                    📍 Beijing, China
                

                    Posted
                    📅 June 12, 2026
                

                    Work Type
                    ⏰ Full-time
                

Position Overview

                    微信-WeLM 大模型 RL 环境构建研发工程师（深圳、上海） 北京 分享 
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
 收藏 WXG 点击了解更多BG信息 技术 两年以上工作经验 更新于年06月17日 岗位职责 1.环境沙箱构建：设计并实现支持 RL环境 执行代码、操作 API 或进行多步推理的隔离沙箱环境（基于 Docker, WebAssembly 或 VM）；
2.交互协议定义：优化 RL 训练与环境之间的 Observation/Action 循环，提升工具调用的准确率；
3.自动化评价体系：构建针对特定场景（如数据分析、自动化办公、软件工程）的评测基座（Benchmark），客观衡量执行成功率；
4.前沿技术探索：研究如何通过环境反馈（Environment Feedback）进行强化学习（RLHF/RLAIF），加速模型的迭代进化。
 岗位要求 1.扎实的计算机基础：优秀的编程能力（Python/Go/C++ 至少精通一门），熟悉 Linux 系统和容器化技术；
2.熟悉 ReAct、AutoGPT、LangChain 或 AutoGen 等开源框架，对 LLM 调用工具有实战经验或深度思考；
3.解决问题的韧性：RL 执行环境往往涉及复杂的依赖管理和安全隔离，需要你有较强的 Debug 能力和工程直觉。
 加分项 有顶会论文（ACL, EMNLP, NeurIPS 等）、知名开源项目贡献经历，或在复杂系统设计方面有经验者优先。

Apply Now

Submit Application →

Quick and easy application process

Job Details

⏰

Employment Type

Full-time

📊