3 minute read
Generalized Advantage Estimation(GAE)推导与直觉
1 minute read
数据并行
5 minute read
训练时的显存开销
SGLang
2 minute read
交叉熵中的数学