MdEditor
在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs
@
HuggingFace
·
2023-03-29 13:01:34
Unity ML-agents 参数设置解明
@
行者AI
·
2021-07-27 15:01:14
ppo1ppo1
@
osc_94968528
·
2021-04-17 12:01:49
深度强化学习之:PPO训练红白机1942
@
阿泽的学习笔记
·
2021-03-29 10:41:37
从零开始学习PPO算法编程(pytorch版本)
@
osc_3g4j2ghj
·
2021-01-21 11:03:01
股票市场交易中的强化学习
@
deephub
·
2021-01-11 10:02:51
ml-agents项目实践(一)
@
osc_5l7bcj86
·
2021-01-10 13:02:05
ml-agents项目实践(一)
@
行者AI
·
2021-01-06 13:02:07
matlab强化学习DDPG算法改编/菜鸟理解2——航天器三轴姿态稳定器学习算例
@
osc_i5jwwgir
·
2021-01-06 10:02:00
强化学习中的调参经验与编程技巧(on policy篇)
@
osc_8db3mwb5
·
2021-01-01 16:01:33
腾讯AI足球队夺冠Kaggle竞赛,绝悟强化学习方案迁移至足球队
@
osc_kvcz9ju6
·
2021-01-01 14:02:12
Join Query Optimization with Deep Reinforcement Learning Algorithms
@
osc_43xj61td
·
2020-12-30 10:01:56
李宏毅强化学习完整笔记!开源项目《LeeDeepRL-Notes》发布
@
osc_ybv4169f
·
2020-12-01 12:02:51
强化学习离轨策略:从失败中获得成功经验 - 以追女孩为例 | 采样率的数学意义
@
Piper蛋窝
·
2020-11-03 17:01:20
OnRL: 基于在线强化学习的移动视频传输优化
@
阿里巴巴淘系技术官方
·
2020-10-14 17:01:26
不用键盘也能玩超级玛丽!当乐高马里奥变身遥控器,真‧手动控制 - 知乎
@
osc_7780asxx
·
2020-10-10 11:01:16
上一页
第1页
下一页