职位概述
我们在构建一个能持续自我迭代的 AI Agent 系统。你的工作是为这个系统提供可用、可信、可扩展的训练与评估数据——包括多轮对话轨迹、工具调用序列、边界策略样本等。数据质量直接决定 Agent 能力的上限,这个角色的产出会直接影响模型迭代节奏。
你会做什么
- 设计并构建面向 Agent 训练与评估的数据管道,覆盖采集、清洗、标注、增强全链路
- 构建高质量指令数据集与 Context Policy 数据集(多轮轨迹、工具调用序列、边界策略样本),支撑大模型持续迭代
- 与 Agent 研发团队协作,理解任务分解、工具调用等场景的数据需求并独立交付
- 建立数据质量评估体系,用量化指标持续监控和改善训练语料
- 用 LLM 自动化或半自动化数据生产流程,持续提升规模化效率
我们看重的特质
- 独立思考:习惯重新定义问题,而不是照着既有答案走
- 好奇心:对 AI 保持强烈好奇,总想第一时间上手
- 执行力:想到就做,用 demo 和作品说话
- AI Native:用 LLM 辅助数据生产、质检和流程自动化是你的日常
- 长期主义:愿意为真正有价值的事情持续投入
背景要求
加分项
- 有大模型训练数据、Context Policy 或 Agent Harness 数据构造的实践经验
- 熟悉 Agent 框架(LangChain、AutoGen、ReAct 等)或参与过 Agent 系统开发
- 有开源项目、论文、Hackathon 或数据竞赛经历
基础背景
- 计算机 / AI / 数据科学相关专业,工程基础扎实
- 能用 Python 独立构建数据处理系统,理解大模型训练基本流程
我们更看重真实能力与作品,而不是背景标签。