radna commited on Mar 31

Commit

24aafe0

verified ·

1 Parent(s): 68cd72a

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

checkpoint-10/adapter_config.json +4 -4
checkpoint-10/trainer_state.json +12 -12
checkpoint-10/training_args.bin +1 -1
checkpoint-12/adapter_config.json +4 -4
checkpoint-12/trainer_state.json +15 -15
checkpoint-12/training_args.bin +1 -1
checkpoint-14/adapter_config.json +4 -4
checkpoint-14/trainer_state.json +17 -17
checkpoint-14/training_args.bin +1 -1
checkpoint-16/adapter_config.json +4 -4
checkpoint-16/trainer_state.json +19 -19
checkpoint-16/training_args.bin +1 -1
checkpoint-18/adapter_config.json +4 -4
checkpoint-18/trainer_state.json +22 -22
checkpoint-18/training_args.bin +1 -1
checkpoint-2/adapter_config.json +4 -4
checkpoint-2/trainer_state.json +2 -2
checkpoint-2/training_args.bin +1 -1
checkpoint-20/adapter_config.json +4 -4
checkpoint-20/trainer_state.json +24 -24
checkpoint-20/training_args.bin +1 -1
checkpoint-22/adapter_config.json +4 -4
checkpoint-22/trainer_state.json +26 -26
checkpoint-22/training_args.bin +1 -1
checkpoint-24/adapter_config.json +4 -4
checkpoint-24/trainer_state.json +29 -29
checkpoint-24/training_args.bin +1 -1
checkpoint-26/adapter_config.json +4 -4
checkpoint-26/trainer_state.json +31 -31
checkpoint-26/training_args.bin +1 -1
checkpoint-28/adapter_config.json +4 -4
checkpoint-28/trainer_state.json +33 -33
checkpoint-28/training_args.bin +1 -1
checkpoint-30/adapter_config.json +4 -4
checkpoint-30/global_step30/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt +3 -0
checkpoint-30/global_step30/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt +3 -0
checkpoint-30/global_step30/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt +3 -0
checkpoint-30/global_step30/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt +3 -0
checkpoint-30/global_step30/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt +3 -0
checkpoint-30/global_step30/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt +3 -0
checkpoint-30/global_step30/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt +3 -0
checkpoint-30/global_step30/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt +3 -0
checkpoint-30/rng_state_24.pth +3 -0
checkpoint-30/rng_state_25.pth +3 -0
checkpoint-30/rng_state_26.pth +3 -0
checkpoint-30/rng_state_27.pth +3 -0
checkpoint-30/rng_state_28.pth +3 -0
checkpoint-30/rng_state_29.pth +3 -0
checkpoint-30/rng_state_30.pth +3 -0
checkpoint-30/rng_state_31.pth +3 -0

checkpoint-10/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
     "v_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-10/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 186.69,
       "step": 6,
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     }

checkpoint-10/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

checkpoint-12/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
     "v_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-12/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 186.69,
       "step": 6,
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12

checkpoint-12/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

checkpoint-14/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
     "v_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-14/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 186.69,
       "step": 6,
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     }

checkpoint-14/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

checkpoint-16/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
     "v_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-16/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 180.29,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 186.69,
       "step": 6,
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     }

checkpoint-16/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

checkpoint-18/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
     "v_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-18/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 180.29,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 180.29,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 186.69,
       "step": 6,
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18

checkpoint-18/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

checkpoint-2/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
     "v_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-2/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     }

checkpoint-2/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

checkpoint-20/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
     "v_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-20/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 180.29,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 180.29,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -311,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -327,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 180.29,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 186.69,
       "step": 6,
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
+      "memory(GiB)": 186.69,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     }

checkpoint-20/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

checkpoint-22/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
     "v_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-22/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 180.29,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 180.29,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -311,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -327,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 180.29,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -339,7 +339,7 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
@@ -355,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 180.29,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 186.69,
       "step": 6,
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
+      "memory(GiB)": 186.69,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
+      "memory(GiB)": 186.69,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     }

checkpoint-22/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

checkpoint-24/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
     "v_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-24/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 180.29,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 180.29,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -311,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -327,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 180.29,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -339,7 +339,7 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
@@ -355,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 180.29,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
@@ -367,7 +367,7 @@
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
@@ -381,7 +381,7 @@
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
-      "memory(GiB)": 180.29,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
@@ -396,7 +396,7 @@
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1045.0616,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 186.69,
       "step": 6,
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
+      "memory(GiB)": 186.69,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
+      "memory(GiB)": 186.69,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
+      "memory(GiB)": 186.69,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1045.0653,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24

checkpoint-24/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

checkpoint-26/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
     "v_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-26/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 180.29,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 180.29,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -311,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -327,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 180.29,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -339,7 +339,7 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
@@ -355,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 180.29,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
@@ -367,7 +367,7 @@
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
@@ -381,7 +381,7 @@
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
-      "memory(GiB)": 180.29,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
@@ -396,7 +396,7 @@
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1045.0616,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
@@ -409,7 +409,7 @@
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
@@ -425,7 +425,7 @@
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
-      "memory(GiB)": 180.29,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 186.69,
       "step": 6,
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
+      "memory(GiB)": 186.69,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
+      "memory(GiB)": 186.69,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
+      "memory(GiB)": 186.69,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1045.0653,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
+      "memory(GiB)": 186.69,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     }

checkpoint-26/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

checkpoint-28/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
     "v_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-28/trainer_state.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
@@ -33,7 +33,7 @@
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
-      "memory(GiB)": 180.29,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
@@ -45,7 +45,7 @@
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
@@ -61,7 +61,7 @@
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
-      "memory(GiB)": 180.29,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
@@ -73,7 +73,7 @@
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
@@ -87,9 +87,9 @@
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
-      "memory(GiB)": 180.29,
       "step": 6,
-      "train_speed(iter/s)": 0.000458
     },
     {
       "epoch": 1.4210526315789473,
@@ -102,7 +102,7 @@
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1030.1223,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
@@ -115,7 +115,7 @@
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
@@ -131,7 +131,7 @@
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
-      "memory(GiB)": 180.29,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
@@ -143,7 +143,7 @@
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
@@ -159,7 +159,7 @@
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
-      "memory(GiB)": 180.29,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
@@ -171,7 +171,7 @@
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
@@ -185,7 +185,7 @@
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
-      "memory(GiB)": 180.29,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
@@ -200,7 +200,7 @@
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1025.9045,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
@@ -213,7 +213,7 @@
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
@@ -229,7 +229,7 @@
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
-      "memory(GiB)": 180.29,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
@@ -241,7 +241,7 @@
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
@@ -257,7 +257,7 @@
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
-      "memory(GiB)": 180.29,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
@@ -269,7 +269,7 @@
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
@@ -283,7 +283,7 @@
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
-      "memory(GiB)": 180.29,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
@@ -298,7 +298,7 @@
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1041.2321,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
@@ -311,7 +311,7 @@
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
@@ -327,7 +327,7 @@
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
-      "memory(GiB)": 180.29,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
@@ -339,7 +339,7 @@
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
@@ -355,7 +355,7 @@
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
-      "memory(GiB)": 180.29,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
@@ -367,7 +367,7 @@
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
@@ -381,7 +381,7 @@
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
-      "memory(GiB)": 180.29,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
@@ -396,7 +396,7 @@
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
-      "eval_runtime": 1045.0616,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
@@ -409,7 +409,7 @@
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
@@ -425,7 +425,7 @@
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
-      "memory(GiB)": 180.29,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     },
@@ -437,7 +437,7 @@
       "kl": 0.174560546875,
       "learning_rate": 6.710100716628344e-05,
       "loss": -0.03593946248292923,
-      "memory(GiB)": 180.29,
       "response_clip_ratio": 0.513671875,
       "reward": 0.04752760287374258,
       "reward_std": 0.14935147762298584,
@@ -453,7 +453,7 @@
       "kl": 0.182373046875,
       "learning_rate": 6.434016163555452e-05,
       "loss": -0.03595500811934471,
-      "memory(GiB)": 180.29,
       "step": 28,
       "train_speed(iter/s)": 0.000422
     }

       "kl": 0.0,
       "learning_rate": 1.6666666666666667e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.11328125,
       "reward": -0.002658387296833098,
       "reward_std": 0.06134121119976044,
       "kl": 0.0,
       "learning_rate": 3.3333333333333335e-05,
       "loss": -0.11016345024108887,
+      "memory(GiB)": 186.69,
       "step": 2,
       "train_speed(iter/s)": 0.000466
     },
       "kl": 9.50181856751442e-07,
       "learning_rate": 5e-05,
       "loss": -0.06604708731174469,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.13671875,
       "reward": 0.0006296975770965219,
       "reward_std": 0.07172460854053497,
       "kl": 1.1101365089416504e-05,
       "learning_rate": 6.666666666666667e-05,
       "loss": -0.06727766245603561,
+      "memory(GiB)": 186.69,
       "step": 4,
       "train_speed(iter/s)": 0.000458
     },
       "kl": 0.00017762184143066406,
       "learning_rate": 8.333333333333334e-05,
       "loss": -0.09315311908721924,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.119140625,
       "reward": -0.005135859013535082,
       "reward_std": 0.07994875870645046,
       "grad_norm": 0.18263348937034607,
       "learning_rate": 0.0001,
       "loss": -0.1041698157787323,
+      "memory(GiB)": 186.69,
       "step": 6,
+      "train_speed(iter/s)": 0.000459
     },
     {
       "epoch": 1.4210526315789473,
       "eval_reward_std": 0.08769983053207397,
       "eval_rewards/CosineReward": 0.012996694073081017,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1030.1122,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 6
       "kl": 0.017406463623046875,
       "learning_rate": 9.991540791356342e-05,
       "loss": -0.051375165581703186,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.1484375,
       "reward": 0.004909618757665157,
       "reward_std": 0.08167182095348835,
       "kl": 0.089599609375,
       "learning_rate": 9.966191788709716e-05,
       "loss": -0.05105742812156677,
+      "memory(GiB)": 186.69,
       "step": 8,
       "train_speed(iter/s)": 0.000433
     },
       "kl": 0.0963134765625,
       "learning_rate": 9.924038765061042e-05,
       "loss": -0.05842069163918495,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.255859375,
       "reward": 0.03643610421568155,
       "reward_std": 0.11898956261575222,
       "kl": 0.1185302734375,
       "learning_rate": 9.865224352899119e-05,
       "loss": -0.06491819024085999,
+      "memory(GiB)": 186.69,
       "step": 10,
       "train_speed(iter/s)": 0.000436
     },
       "kl": 0.1275634765625,
       "learning_rate": 9.789947561577445e-05,
       "loss": -0.04600231721997261,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.361328125,
       "reward": 0.023204635945148766,
       "reward_std": 0.10593634657561779,
       "grad_norm": 0.05781339108943939,
       "learning_rate": 9.698463103929542e-05,
       "loss": -0.05069056898355484,
+      "memory(GiB)": 186.69,
       "step": 12,
       "train_speed(iter/s)": 0.000439
     },
       "eval_reward_std": 0.10685288906097412,
       "eval_rewards/CosineReward": 0.03234308212995529,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1025.9053,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 12
       "kl": 0.151123046875,
       "learning_rate": 9.591080534401371e-05,
       "loss": -0.02191038429737091,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.419921875,
       "reward": 0.035983758978545666,
       "reward_std": 0.11553369648754597,
       "kl": 0.169189453125,
       "learning_rate": 9.468163201617062e-05,
       "loss": -0.022672578692436218,
+      "memory(GiB)": 186.69,
       "step": 14,
       "train_speed(iter/s)": 0.000427
     },
       "kl": 0.166748046875,
       "learning_rate": 9.330127018922194e-05,
       "loss": -0.059799157083034515,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.4765625,
       "reward": 0.03584331553429365,
       "reward_std": 0.11829411797225475,
       "kl": 0.16748046875,
       "learning_rate": 9.177439057064683e-05,
       "loss": -0.06071458384394646,
+      "memory(GiB)": 186.69,
       "step": 16,
       "train_speed(iter/s)": 0.000431
     },
       "kl": 0.1787109375,
       "learning_rate": 9.01061596377522e-05,
       "loss": -0.04504441097378731,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.027318883687257767,
       "reward_std": 0.10441224090754986,
       "grad_norm": 0.005998397711664438,
       "learning_rate": 8.83022221559489e-05,
       "loss": -0.045487549155950546,
+      "memory(GiB)": 186.69,
       "step": 18,
       "train_speed(iter/s)": 0.000432
     },
       "eval_reward_std": 0.10691346973180771,
       "eval_rewards/CosineReward": 0.03729327768087387,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1041.2277,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 18
       "kl": 0.1820068359375,
       "learning_rate": 8.636868207865244e-05,
       "loss": -0.03466903418302536,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.466796875,
       "reward": 0.04069916973821819,
       "reward_std": 0.11991005763411522,
       "kl": 0.19287109375,
       "learning_rate": 8.43120818934367e-05,
       "loss": -0.03502114117145538,
+      "memory(GiB)": 186.69,
       "step": 20,
       "train_speed(iter/s)": 0.000424
     },
       "kl": 0.17626953125,
       "learning_rate": 8.213938048432697e-05,
       "loss": -0.008662773296236992,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.5625,
       "reward": 0.04996980866417289,
       "reward_std": 0.13849420100450516,
       "kl": 0.178955078125,
       "learning_rate": 7.985792958513931e-05,
       "loss": -0.008743642829358578,
+      "memory(GiB)": 186.69,
       "step": 22,
       "train_speed(iter/s)": 0.000426
     },
       "kl": 0.1796875,
       "learning_rate": 7.74754489035403e-05,
       "loss": -0.03423420712351799,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.583984375,
       "reward": 0.034468831261619925,
       "reward_std": 0.11841745302081108,
       "grad_norm": 0.014131724834442139,
       "learning_rate": 7.500000000000001e-05,
       "loss": -0.03426633030176163,
+      "memory(GiB)": 186.69,
       "step": 24,
       "train_speed(iter/s)": 0.000427
     },
       "eval_reward_std": 0.10456253588199615,
       "eval_rewards/CosineReward": 0.04339282959699631,
       "eval_rewards/RepetitionPenalty": 0.0,
+      "eval_runtime": 1045.0653,
       "eval_samples_per_second": 0.001,
       "eval_steps_per_second": 0.001,
       "step": 24
       "kl": 0.1800537109375,
       "learning_rate": 7.243995901002312e-05,
       "loss": -0.02097315341234207,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.6171875,
       "reward": 0.03010205877944827,
       "reward_std": 0.10742511600255966,
       "kl": 0.18408203125,
       "learning_rate": 6.980398830195785e-05,
       "loss": -0.02103913575410843,
+      "memory(GiB)": 186.69,
       "step": 26,
       "train_speed(iter/s)": 0.000421
     },
       "kl": 0.174560546875,
       "learning_rate": 6.710100716628344e-05,
       "loss": -0.03593946248292923,
+      "memory(GiB)": 186.69,
       "response_clip_ratio": 0.513671875,
       "reward": 0.04752760287374258,
       "reward_std": 0.14935147762298584,
       "kl": 0.182373046875,
       "learning_rate": 6.434016163555452e-05,
       "loss": -0.03595500811934471,
+      "memory(GiB)": 186.69,
       "step": 28,
       "train_speed(iter/s)": 0.000422
     }

checkpoint-28/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7039ba231031019d68d36961179e879852b9f8a6de15562e5b792330bcbb4412
 size 9809

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e699c24e86e1a1f412d6f8c2d25c0baf53692e08baa670377bbc8abc7e07257
 size 9809

checkpoint-30/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "q_proj",
     "v_proj",
     "up_proj",
-    "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "gate_proj",
     "v_proj",
+    "k_proj",
     "up_proj",
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-30/global_step30/bf16_zero_pp_rank_24_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b1a3cd6933506800a430038393b6941bd000301ef9f2dc6faeb6e1459140ba3
+size 51616527

checkpoint-30/global_step30/bf16_zero_pp_rank_25_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d490b31e4ae11c61f13bceb96677e15b12a5316213c042d2a6ac1c5568b18e27
+size 51616015

checkpoint-30/global_step30/bf16_zero_pp_rank_26_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f96828d4477387a7cfbbff0217d2e06634144ead2d4531d5d012f92cbd3915ca
+size 51616527

checkpoint-30/global_step30/bf16_zero_pp_rank_27_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:703767cfa56852356c051e72a843812484422326afdc2226c9cb7315ddac9a0f
+size 51616015

checkpoint-30/global_step30/bf16_zero_pp_rank_28_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f30b72531a3686bb479a405afecb9a5e36ded3a1f0e77715b982d34b35bf4ea5
+size 51616527

checkpoint-30/global_step30/bf16_zero_pp_rank_29_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad1f53600a2e0547e940bc9d6722d6db5881c6b0b82db04e4633a3a671d790e5
+size 51616015

checkpoint-30/global_step30/bf16_zero_pp_rank_30_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62085edea348819aeb01edf89abb88dbc38895b13a999c46c497f8876545ab5d
+size 51616527

checkpoint-30/global_step30/bf16_zero_pp_rank_31_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:049092cac5d4dbecc59edf2e1beae0aa6ecb9be85a1769e39277b8132173827c
+size 51616015

checkpoint-30/rng_state_24.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:550197960179c76e27d753c57b888a6aceb5f7914c64eb2030d99039f4c10ee3
+size 16340

checkpoint-30/rng_state_25.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86494bd509e73b62b00dd992dd55557dc6918b884ceabf488a48de384d5a3124
+size 16340

checkpoint-30/rng_state_26.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36e2ab1725dde0d17f163d31707c459492db313385e56d7d908960b9da1e3104
+size 16404

checkpoint-30/rng_state_27.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:628965fd355f90ce9405c61784b5296f30f4d56f2d8079593166eb50fef5820c
+size 16404

checkpoint-30/rng_state_28.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:653a95667e1e4ab42ade2b12f244e882d81edce91454b60df85abd86914e1c3a
+size 16404

checkpoint-30/rng_state_29.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:148fc9650216d30f813309a1ff1a4839c72be88ef17b2125497372c57fe47150
+size 16340

checkpoint-30/rng_state_30.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78a03b2904d2254d43024a5c2e00b159e258a66d6078b0523311e69df02402e8
+size 16468

checkpoint-30/rng_state_31.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ada7dafd49fa06d30df1afdde7f7b919cb8d007421630f594e9f61fffd246751
+size 16340