ppo - MdEditor

在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs

@HuggingFace · 2023-03-29 13:01:34

Unity ML-agents 参数设置解明

@行者AI · 2021-07-27 15:01:14

@osc_94968528 · 2021-04-17 12:01:49

深度强化学习之：PPO训练红白机1942

@阿泽的学习笔记 · 2021-03-29 10:41:37

从零开始学习PPO算法编程（pytorch版本）

@osc_3g4j2ghj · 2021-01-21 11:03:01

股票市场交易中的强化学习

@deephub · 2021-01-11 10:02:51

ml-agents项目实践（一）

@osc_5l7bcj86 · 2021-01-10 13:02:05

ml-agents项目实践（一）

@行者AI · 2021-01-06 13:02:07

matlab强化学习DDPG算法改编/菜鸟理解2——航天器三轴姿态稳定器学习算例

@osc_i5jwwgir · 2021-01-06 10:02:00

强化学习中的调参经验与编程技巧（on policy篇）

@osc_8db3mwb5 · 2021-01-01 16:01:33

腾讯AI足球队夺冠Kaggle竞赛，绝悟强化学习方案迁移至足球队

@osc_kvcz9ju6 · 2021-01-01 14:02:12

Join Query Optimization with Deep Reinforcement Learning Algorithms

@osc_43xj61td · 2020-12-30 10:01:56

李宏毅强化学习完整笔记！开源项目《LeeDeepRL-Notes》发布

@osc_ybv4169f · 2020-12-01 12:02:51

强化学习离轨策略：从失败中获得成功经验 - 以追女孩为例 | 采样率的数学意义

@Piper蛋窝 · 2020-11-03 17:01:20

OnRL: 基于在线强化学习的移动视频传输优化

@阿里巴巴淘系技术官方 · 2020-10-14 17:01:26

不用键盘也能玩超级玛丽！当乐高马里奥变身遥控器，真‧手动控制 - 知乎

@osc_7780asxx · 2020-10-10 11:01:16