STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability | ResearchPod

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability | ResearchPod