求职者

自动驾驶决策规划算法工程师（端到端RL）

Back

资讯科技

Job Ref. SPGSZ2026021302802

地点深圳

发布日期 2026-02-13

公司描述：

某车联网解决方案领先企业

工作地点：

北京、上海

工作职责

致力于研发下一代端到端自动驾驶系统中的强化学习训练范克式
构建高效、稳定、可扩展的大规模强化学习闭环训练框架。
重点提升强化学习在数据利用效率、训练速度、算法稳定性及多场景泛化能力等方面的表现,探索并验证规模化规律(scaling law)
推动强化学习技术在真实物理世界中的落地与应用。

任职要求

硕士或博士学历,机器学习、计算机科学、数学、统计学等用关专业背景
具备扎实的强化学习理论基础,熟悉PPO、SAC、DPO、GRPO等主流算法及其变种,具备相关项目实践经验, 熟悉如OpenAI Gym、Spinning Up、CleanRL、Open-R1、R1-V.IsaacSim等开发平台;
深入理解数据结构、算法设计、并行编程及大规模数据处理技术,熟练掌握C/C++或Python编程语言,具备 ACM竞赛经验者优先;
在计算机视觉、机器学习、机器人等相关领域发表过顶级会议(如 CVPR/ICCV/ECCV/ICML/NeurIPS/ICLR/ICRA/CORL)或期刊(如TPAMI/IJCV/TIP/TRO)论文者优先,具备高水平学术竞赛获奖经历或实际工程项目经验者优先。

Job Apply

我们是谁

招聘

求职指导及资源

需要招聘？ 发送我们你的空缺招聘人才

© 版权所有2016 Springer Professional Group。保留所有权利。