VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training | Guobin Shen et al.

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training | Guobin Shen et al. | ResearchPod