Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

README.md +110 -0
hparams.yaml +107 -0
tb_logs.parquet +3 -0
version_0/events.out.tfevents.1753374478.dev-gpu-pl487.1896758.0 +3 -0
version_0/events.out.tfevents.1753457634.dev-gpu-pl487.1896758.1 +3 -0
version_0/hparams.yaml +65 -0

README.md ADDED Viewed

	@@ -0,0 +1,110 @@

+## Experiment Configuration
+```yaml
+callbacks:
+  grad_norm:
+    _target_: primer.callbacks.grad_norm.GradNorm
+    check_clipping: false
+    group_separator: /
+    histogram_freq: null
+    log_weight_distribution: false
+    norm_type: 2
+    only_total: true
+  lr_monitor:
+    _target_: primer.callbacks.lr_monitor.SimpleLearningRateMonitor
+  model_checkpoint:
+    _target_: primer.callbacks.model_checkpoint.ModelCheckpoint
+    dirpath: .checkpoints
+    enable_version_counter: false
+    every_n_train_steps: 2000
+    filename: '{step}'
+    save_initial_checkpoint: true
+    save_last: link
+    save_top_k: -1
+    verbose: true
+  speed_monitor:
+    _target_: primer.callbacks.speed_monitor.SpeedMonitor
+data:
+  batch_size: 64
+  drop_last: true
+  eval_batch_size: 64
+  intra_doc_causal_mask: true
+  multiprocessing_context: null
+  num_workers: 8
+  persistent_workers: false
+  pin_memory: true
+  prefetch_factor: 2
+  shuffle_seed: 42
+loggers:
+  tensorboard:
+    _target_: primer.trainer.TensorBoardLogger
+    name: ''
+    save_dir: ./
+    version: null
+model:
+  attention_bias: false
+  attention_dropout: 0.0
+  head_dim: 128
+  hidden_act: silu
+  hidden_size: 768
+  initializer_range: 0.02
+  intermediate_size: 2048
+  mlp_bias: false
+  model_type: llama
+  name: small
+  num_attention_heads: 6
+  num_hidden_layers: 6
+  num_key_value_heads: 6
+  pretraining_tp: 1
+  rms_norm_eps: 1.0e-05
+  rope_scaling: null
+  rope_theta: 10000.0
+  tie_word_embeddings: true
+optim:
+  grad_acc_schedule:
+    0: 2
+  lr: 0.0006
+  num_warmup_steps: 2000
+  optim_kwargs:
+    betas:
+    - 0.9
+    - 0.95
+    capturable: true
+    eps: 1.0e-08
+    fused: true
+  optim_name: adamw
+  scheduler_kwargs:
+    min_lr_ratio: 0.0
+    num_decay_steps: 4000
+  scheduler_name: warmup_stable_decay
+  set_grad_to_none: true
+  weight_decay: 0.01
+  weight_decay_embedding: false
+  zloss_factor: null
+out_parent_folder: model_train
+pwd: ./unimixlm
+resume_from_checkpoint: .checkpoints/last.ckpt
+run_folder: small_tokmix128k__2025-07-24T17-27-55
+save_initial_checkpoint: true
+seed: 42
+tok_name: tokmix128k
+tok_path: ./unimixlm/tokenizers/tokmix128k
+tok_subfolder: null
+torch_compile: true
+train_data_path: ./unimixlm/data/tokmix128k/train
+trainer:
+  accelerator: gpu
+  deterministic: false
+  devices: 1
+  enable_progress_bar: true
+  fast_dev_run: false
+  gradient_clip_algorithm: norm
+  gradient_clip_val: 1.0
+  limit_train_batches: null
+  limit_val_batches: 500
+  log_every_n_steps: 1
+  max_steps: 50000
+  precision: bf16-true
+  val_check_interval: 2000
+use_liger: true
+val_data_path: ./unimixlm/data/tokmix128k/validation
+```

hparams.yaml ADDED Viewed

	@@ -0,0 +1,107 @@

+loggers:
+  tensorboard:
+    _target_: primer.trainer.TensorBoardLogger
+    save_dir: ./
+    name: ''
+    version: null
+callbacks:
+  lr_monitor:
+    _target_: primer.callbacks.lr_monitor.SimpleLearningRateMonitor
+  grad_norm:
+    _target_: primer.callbacks.grad_norm.GradNorm
+    norm_type: 2
+    group_separator: /
+    histogram_freq: null
+    check_clipping: false
+    log_weight_distribution: false
+    only_total: true
+  speed_monitor:
+    _target_: primer.callbacks.speed_monitor.SpeedMonitor
+  model_checkpoint:
+    _target_: primer.callbacks.model_checkpoint.ModelCheckpoint
+    dirpath: .checkpoints
+    filename: '{step}'
+    enable_version_counter: false
+    every_n_train_steps: 2000
+    save_top_k: -1
+    save_last: link
+    verbose: true
+    save_initial_checkpoint: true
+model:
+  name: small
+  model_type: llama
+  head_dim: 128
+  hidden_size: 768
+  hidden_act: silu
+  intermediate_size: 2048
+  initializer_range: 0.02
+  num_hidden_layers: 6
+  num_attention_heads: 6
+  num_key_value_heads: 6
+  rms_norm_eps: 1.0e-05
+  tie_word_embeddings: true
+  rope_theta: 10000.0
+  rope_scaling: null
+  attention_bias: false
+  mlp_bias: false
+  attention_dropout: 0.0
+  pretraining_tp: 1
+pwd: /home/pl487/unimixlm
+out_parent_folder: model_train
+run_folder: small_tokmix128k__2025-07-24T17-27-55
+tok_path: /home/pl487/unimixlm/tokenizers/tokmix128k
+tok_subfolder: null
+train_data_path: /home/pl487/unimixlm/data/tokmix128k/train
+val_data_path: /home/pl487/unimixlm/data/tokmix128k/validation
+resume_from_checkpoint: .checkpoints/last.ckpt
+save_initial_checkpoint: true
+seed: 42
+torch_compile: true
+use_liger: true
+data:
+  batch_size: 64
+  eval_batch_size: 64
+  shuffle_seed: 42
+  drop_last: true
+  num_workers: 8
+  pin_memory: true
+  persistent_workers: false
+  prefetch_factor: 2
+  multiprocessing_context: null
+  intra_doc_causal_mask: true
+optim:
+  optim_name: adamw
+  lr: 0.0006
+  grad_acc_schedule:
+    0: 2
+  zloss_factor: null
+  weight_decay: 0.01
+  optim_kwargs:
+    fused: true
+    eps: 1.0e-08
+    betas:
+    - 0.9
+    - 0.95
+    capturable: true
+  scheduler_name: warmup_stable_decay
+  num_warmup_steps: 2000
+  scheduler_kwargs:
+    num_decay_steps: 4000
+    min_lr_ratio: 0.0
+  weight_decay_embedding: false
+  set_grad_to_none: true
+trainer:
+  accelerator: gpu
+  devices: 1
+  precision: bf16-true
+  deterministic: false
+  log_every_n_steps: 1
+  enable_progress_bar: true
+  fast_dev_run: false
+  gradient_clip_val: 1.0
+  gradient_clip_algorithm: norm
+  val_check_interval: 2000
+  max_steps: 50000
+  limit_val_batches: 500
+  limit_train_batches: null
+tok_name: tokmix128k

tb_logs.parquet ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41970db3b6a8d5d97551b5de981afe130fd222f4e91efe838ab371ba5c277dd5
+size 2393529

version_0/events.out.tfevents.1753374478.dev-gpu-pl487.1896758.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eee2f849a1e61d1ee9141156164fdd1d5df138e026523698d5a73a8c6245056b
+size 30575909

version_0/events.out.tfevents.1753457634.dev-gpu-pl487.1896758.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad2461c3692276aeea280cb312220735e8a954756be63612989eea1ea986e0c6
+size 14907

version_0/hparams.yaml ADDED Viewed

	@@ -0,0 +1,65 @@

+config:
+  vocab_size: 128000
+  bos_token_id: 0
+  eos_token_id: 1
+  pad_token_id: 2
+  torch_dtype: bfloat16
+  use_cache: false
+  max_position_embeddings: 2048
+  _attn_implementation: flash_attention_2
+  name: small
+  model_type: llama
+  head_dim: 128
+  hidden_size: 768
+  hidden_act: silu
+  intermediate_size: 2048
+  initializer_range: 0.02
+  num_hidden_layers: 6
+  num_attention_heads: 6
+  num_key_value_heads: 6
+  rms_norm_eps: 1.0e-05
+  tie_word_embeddings: true
+  rope_theta: 10000.0
+  rope_scaling: null
+  attention_bias: false
+  mlp_bias: false
+  attention_dropout: 0.0
+  pretraining_tp: 1
+optim_config:
+  optim_name: adamw
+  lr: 0.0006
+  weight_decay: 0.01
+  weight_decay_embedding: false
+  set_grad_to_none: true
+  optim_kwargs:
+    fused: true
+    eps: 1.0e-08
+    betas:
+    - 0.9
+    - 0.95
+    capturable: true
+  scheduler_name: warmup_stable_decay
+  num_warmup_steps: 2000
+  scheduler_kwargs:
+    num_decay_steps: 4000
+    min_lr_ratio: 0.0
+  grad_acc_schedule:
+    0: 2
+  zloss_factor: null
+use_torch_compile: true
+use_liger: true
+train_data_path: /home/pl487/unimixlm/data/tokmix128k/train
+val_data_path: /home/pl487/unimixlm/data/tokmix128k/validation
+seq_len: 2048
+eos_token_id: 1
+dataloader_config:
+  batch_size: 64
+  eval_batch_size: 64
+  shuffle_seed: 42
+  intra_doc_causal_mask: true
+  num_workers: 8
+  pin_memory: true
+  drop_last: true
+  persistent_workers: false
+  multiprocessing_context: null
+  prefetch_factor: 2