liuyixiu's picture

3 1

liuyixiu

liuyx0903

·

AI & ML interests

None yet

Recent Activity

liked a Space about 1 month ago

HuggingFaceTB/smol-training-playbook

upvoted a paper about 2 months ago

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

upvoted a paper 5 months ago

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

View all activity

Organizations

upvoted a paper about 2 months ago

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

Paper • 2510.18927 • Published Oct 21 • 83

upvoted a paper 5 months ago

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

Paper • 2506.20512 • Published Jun 25 • 47

upvoted a paper 7 months ago

Efficient Agent Training for Computer Use

Paper • 2505.13909 • Published May 20 • 44