Alexander Gurung's picture

Alexander Gurung PRO

agurung

·

alex-gurung

AI & ML interests

None yet

Recent Activity

updated a model 4 days ago

agurung/cobalt-v2-rft-mixed-12

published a model 4 days ago

agurung/cobalt-v2-rft-mixed-12

updated a model 4 days ago

agurung/cobalt-v2-rft-iid-12

View all activity

Organizations

agurung 's models 94

agurung/cobalt-v2-rft-mixed-12

Updated 4 days ago • 22

agurung/cobalt-v2-rft-iid-12

Updated 4 days ago • 12

agurung/lcb-ft-v2-qwen3-4b-rft-mixed-24-lora-r128-a32-lr2p5e-4-const-lr2p5e-4-qps8-gpuauto-ep4

Updated 27 days ago • 47

agurung/lcb-ft-v2-qwen3-4b-rft-iid-24-lora-r128-a32-lr2p5e-4-const-lr2p5e-4-qps8-gpuauto-ep4

Updated 27 days ago • 23

agurung/lcb-ft-v2-qwen3-4b-dft-mixed-24-lora-r128-a32-lr2p5e-4-const-lr2p5e-4-qps8-gpuauto-ep4

Updated 27 days ago • 20

agurung/lcb-ft-v2-qwen3-4b-sft-mixed-24-lora-r128-a32-lr2p5e-4-const-lr2p5e-4-qps8-gpuauto-ep4

Updated 27 days ago • 27

agurung/lcb-ft-v2-qwen3-4b-dft-iid-24-lora-r128-a32-lr2p5e-4-const-lr2p5e-4-qps8-gpuauto-ep4

Updated 27 days ago • 25

agurung/lcb-ft-v2-qwen3-4b-sft-iid-24-lora-r128-a32-lr2p5e-4-const-lr2p5e-4-qps8-gpuauto-ep4

Updated 27 days ago • 18

agurung/coconut-gemma-3-4b-ff-reward-filtered

agurung/coconut-qwen3-4b-ff-reward-filtered

agurung/coconut-gemma-3-1b-gsm-hard

agurung/flawed-fictions-gemma-3-4b-litereason-sft-positive

5B • Updated Apr 14 • 3

agurung/flawed-fictions-qwen3-4b-litereason-sft-positive

4B • Updated Apr 14 • 2

agurung/colar-gemma-3-1b-gsm-hard-rl

Reinforcement Learning • 1.0B • Updated Apr 9 • 2

agurung/colar-gemma-3-1b-gsm-hard-sft

1.0B • Updated Apr 9 • 4

agurung/colar-gemma-3-4b-ff-sft

4B • Updated Apr 9 • 3

agurung/colar-qwen3-4b-ff-rl

Reinforcement Learning • 4B • Updated Apr 9 • 1

agurung/colar-qwen25-7b-ff-post-rl

Reinforcement Learning • 8B • Updated Apr 9 • 2

agurung/colar-qwen25-7b-ncp-post-rl

Reinforcement Learning • 8B • Updated Apr 9 • 1

agurung/colar-qwen25-7b-ncp-post-sft

8B • Updated Apr 9 • 2

agurung/flawed-fictions-qwen3-4b-litereason

Reinforcement Learning • 4B • Updated Mar 21 • 5

agurung/flawed-fictions-qwen3-4b

Reinforcement Learning • 4B • Updated Mar 21 • 1

agurung/colar-qwen25-7b-ff-post-sft

8B • Updated Mar 15

agurung/qwen-coconut-ff-v2

8B • Updated Mar 15 • 1

agurung/ncp-qwen25-7b-lengthpenalty

Reinforcement Learning • 8B • Updated Mar 11 • 2

agurung/flawed-fictions-qwen3-4b-lengthpenalty-litereason

Reinforcement Learning • 4B • Updated Mar 10 • 2

agurung/colar-qwen3-4b-ff-sft

4B • Updated Mar 9 • 1

agurung/flawed-fictions-gemma-3-4b-lengthpenalty

Reinforcement Learning • 4B • Updated Feb 25 • 1

agurung/flawed-fictions-qwen3-4b-lengthpenalty

Reinforcement Learning • 4B • Updated Feb 24 • 4

agurung/qwen3-4b-ff-grpo-lengthpenalty

4B • Updated Feb 24 • 1