快速上手¶ 安装说明 安装 OpenRL 版本查看 使用Docker 开始智能体训练 训练环境 测试环境 训练多智能体强化学习算法 通过配置文件修改训练参数 使用wandb跟踪训练过程 加载训练好的智能体 训练自然语言对话任务 DailyDialog任务介绍 创建环境与加载数据 使用 Hugging Face 的模型进行训练 使用奖励模型 自定义wandb输出 使用混合精度训练加速 使用 DeepSpeed 加速训练 OpenRL训练结果 和训练好的智能体进行对话