--- language: - ro license: apache-2.0 tags: - sentence-transformers - ro - cosine-similarity - paraphrase - generated_from_trainer - dataset_size:1012436 - loss:CosineSimilarityLoss base_model: readerbench/RoBERT-base widget: - source_sentence: După aceea i-a dus în casa lui și le-a pus masa. Și s-a bucurat foarte mult, împreună cu toți cei din casa lui, pentru că a crezut în Dumnezeu. sentences: - După ce i-a dus în casă, le-a pus masa și s-a bucurat cu toată casa lui că a crezut în Dumnezeu. - 'Doamne, ascultă! Doamne, iartă! Doamne, ia aminte: fă și nu întârzia, de dragul tău, Dumnezeule! Pentru că numele tău este invocat asupra cetății tale și asupra poporului tău».' - De aceea se vor numi argint lepădat, căci Domnul i-a lepădat.” - source_sentence: Și chiar dacă aș avea dar de profeție și înțeleg toate misterele și toată cunoașterea, și chiar dacă aș avea toată credința încât să mut munții, dar nu am dragoste creștină, nu sunt nimic. sentences: - El i-a întrebat:‒ Dar voi, cine ziceți că sunt Eu?Petru, răspunzând, I-a zis:‒ Tu ești Cristosul! - Și dacă aș avea darul profeției și aș pătrunde toate tainele și toată cunoașterea, dacă aș avea toată credința, încât să mut și munții, dar n‑aș avea dragoste, n‑aș fi nimic. - Și s-a dus primul și a turnat potirul său peste pământ; și a căzut o rană vătămătoare și dureroasă peste oamenii care au avut semnul fiarei și peste cei ce s-au închinat icoanei ei. - source_sentence: În fața lor, am cântărit Argintul, aurul primit Și-uneltele care s-au dat În dar – de către împărat, De sfetnici și de-aceia cari Erau în slujba lui mai mari – Casei lui Dumnezeu, pe care El, la Ierusalim, o are. sentences: - 'Moise și Aaron le-au zis tuturor fiilor lui Israel: „Diseară, veți ști că Domnul v-a scos din țara Egiptului,' - 'Așa vorbește Domnul Dumnezeu, care a făcut cerurile și le-a întins, care a întins pământul și cele de pe el, care a dat suflare celor ce-l locuiesc și suflet celor ce merg pe el:' - Am cântărit înaintea lor argintul, aurul și uneltele date în dar pentru Casa Dumnezeului nostru de către împărat, sfetnicii și căpeteniile lui și de toți cei din Israel care se aflau acolo. - source_sentence: Rabit, Chișion, Ebeț, sentences: - 'Fariseii, văzând aceasta, I‑au zis: „Uite că ucenicii Tăi fac ce nu este îngăduit să se facă în ziua sabatului!”' - Bărbații lui Israel se întorseseră; și bărbații lui Beniamin s-au înspăimântat, văzând prăpădul care avea să-i ajungă. - Scutură-te de țărână!Ridică-te! Așază-te pe tron, Ierusalime!Dezleagă-ți legăturile de la gât,fiică a Sionului, aflată în captivitate! - source_sentence: Mai bine e să locuiești Pe casă, decât să trăiești În ea – oricât ar fi de mare – C-o soață rea, gâlcevitoare. sentences: - Nu i s-a spus domnului meu ce am făcut când Izabela a ucis pe profeții DOMNULUI, cum am ascuns o sută de bărbați dintre profeții DOMNULUI, câte cincizeci într-o peșteră și i-am hrănit cu pâine și apă? - Și acum trimite‐mi un bărbat iscusit să lucreze în aur și în argint și în aramă și în fier și în purpură și în cârmezin și albastru și care să știe să facă săpături, ca să stea cu bărbații iscusiți care sunt la mine în Iuda și in Ierusalim, pe care i‐a pregătit David, tatăl meu. - Când te lovește cineva peste un obraz, întoarce-i-l și pe celălalt. Iar dacă cineva îți ia haina (cu forța), nu te opune să îi lași și cămașa. datasets: - andyP/ro-paraphrase-bible pipeline_tag: sentence-similarity library_name: sentence-transformers metrics: - pearson_cosine - spearman_cosine model-index: - name: Romanian Sentence Transformers, trained on the Romanian Paraphrase Bible dataset, Cosine Similarity results: - task: type: semantic-similarity name: Semantic Similarity dataset: name: Unknown type: unknown metrics: - type: pearson_cosine value: 0.9914988976559584 name: Pearson Cosine - type: spearman_cosine value: 0.9723966272575787 name: Spearman Cosine - task: type: semantic-similarity name: Semantic Similarity dataset: name: ro similarity test type: ro_similarity-test metrics: - type: pearson_cosine value: 0.9916272056252884 name: Pearson Cosine - type: spearman_cosine value: 0.9727582743535126 name: Spearman Cosine --- # Romanian Sentence Transformers, trained on the Romanian Paraphrase Bible dataset, Cosine Similarity This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [readerbench/RoBERT-base](https://huggingface.co/readerbench/RoBERT-base) on the [Romanian Paraphrase Bible dataset](https://huggingface.co/datasets/andyP/ro-paraphrase-bible) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for Sentence Similarity. ## Model Details ### Model Description - **Model Type:** Sentence Transformer - **Base model:** [readerbench/RoBERT-base](https://huggingface.co/readerbench/RoBERT-base) - **Maximum Sequence Length:** 512 tokens - **Output Dimensionality:** 768 dimensions - **Similarity Function:** Cosine Similarity - **Training Dataset:** - [Romanian Paraphrase Bible dataset](https://huggingface.co/datasets/andyP/ro-paraphrase-bible) - **Language:** ro - **License:** apache-2.0 ### Model Sources - **Documentation:** [Sentence Transformers Documentation](https://sbert.net) - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers) - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers) ### Full Model Architecture ``` SentenceTransformer( (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'BertModel'}) (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) ) ``` ## Usage ### Direct Usage (Sentence Transformers) First install the Sentence Transformers library: ```bash pip install -U sentence-transformers ``` Then you can load this model and run inference. ```python from sentence_transformers import SentenceTransformer # Download from the 🤗 Hub model = SentenceTransformer("andyP/ro-sentence-transformers-v2") # Run inference sentences = [ 'Mai bine e să locuiești Pe casă, decât să trăiești În ea – oricât ar fi de mare – C-o soață rea, gâlcevitoare.', 'Nu i s-a spus domnului meu ce am făcut când Izabela a ucis pe profeții DOMNULUI, cum am ascuns o sută de bărbați dintre profeții DOMNULUI, câte cincizeci într-o peșteră și i-am hrănit cu pâine și apă?', 'Și acum trimite‐mi un bărbat iscusit să lucreze în aur și în argint și în aramă și în fier și în purpură și în cârmezin și albastru și care să știe să facă săpături, ca să stea cu bărbații iscusiți care sunt la mine în Iuda și in Ierusalim, pe care i‐a pregătit David, tatăl meu.', ] embeddings = model.encode(sentences) print(embeddings.shape) # [3, 768] # Get the similarity scores for the embeddings similarities = model.similarity(embeddings, embeddings) print(similarities) # tensor([[1.0000, 0.3137, 0.2443], # [0.3137, 1.0000, 0.3197], # [0.2443, 0.3197, 1.0000]]) ``` ## Evaluation ### Metrics #### Semantic Similarity * Datasets: `` and `ro_similarity-test` * Evaluated with [EmbeddingSimilarityEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator) | Metric | | ro_similarity-test | |:--------------------|:-----------|:-------------------| | pearson_cosine | 0.9915 | 0.9916 | | **spearman_cosine** | **0.9724** | **0.9728** | ## Training Details ### Training Dataset #### Romanian Paraphrase Bible dataset * Dataset: [Romanian Paraphrase Bible dataset](https://huggingface.co/datasets/andyP/ro-paraphrase-bible) * Size: 1,012,436 training samples * Columns: text1, text2, and label * Approximate statistics based on the first 1000 samples: | | text1 | text2 | label | |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------| | type | string | string | float | | details | | | | * Samples: | text1 | text2 | label | |:---------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------|:------------------| | O altă temelie dar, Față de cea care s-a pus – Și care e Hristos Iisus – Să mai așeze, nimenea, Nicicând, de-acum, nu va putea. | Căci nimeni nu poate pune o altă temelie în afară de Cea care este așezată și Care este Isus Cristos. | 0.81 | | Voi da în mâna lui mareași în dreapta lui râurile. | Voi pune mâna lui pe mare și dreapta lui pe râuri. | 0.89 | | Căutați binele, nu răul,ca să trăiți!Astfel Domnul, Dumnezeul Oștirilor,va fi cu voi, așa cum spuneți că este! | Căutați binele, și nu răul, ca să trăiți!Astfel, Domnul Dumnezeul Sabaótva fi cu voi, după cum spuneți. | 0.9 | * Loss: [CosineSimilarityLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosinesimilarityloss) with these parameters: ```json { "loss_fct": "torch.nn.modules.loss.MSELoss" } ``` ### Evaluation Dataset #### Romanian Paraphrase Bible dataset * Dataset: [Romanian Paraphrase Bible dataset](https://huggingface.co/datasets/andyP/ro-paraphrase-bible) * Size: 56,246 evaluation samples * Columns: text1, text2, and label * Approximate statistics based on the first 1000 samples: | | text1 | text2 | label | |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:---------------------------------------------------------------| | type | string | string | float | | details | | | | * Samples: | text1 | text2 | label | |:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------| | Cel ce le arde, să păzească Ce trebuie să împlinească:‘Nainte ca să intre iară, În tabără, să-și spele-afară, Trupul și straiele și-apoi, Să intre-n tabără-napoi. ” | Cel care le va arde, trebuie să își spele hainele și tot corpul în apă; apoi va putea reveni în tabără. | 0.77 | | Și nu cumva, când vin din nou, Dumnezeul meu să mă umilească printre voi și să deplâng pe mulți care au păcătuit deja și nu s-au pocăit de necurăția și curvia și desfrânarea pe care le-au practicat. | Mă tem ca nu cumva, atunci când vin din nou, Dumnezeul meu să mă smerească înaintea voastră și să trebuiască astfel să-i jelesc pe mulți care au păcătuit în trecut și nu s-au pocăit de necurăția, imoralitatea și depravarea în care au trăit. | 0.82 | | Nu suspina după noapte,care ia popoarele din locul lor. | Căci se vor ridica hristoși mincinoși și proroci mincinoși și vor face semne și minuni ca să ducă în rătăcire, dacă este cu putință, pe cei aleși. | 0.27 | * Loss: [CosineSimilarityLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosinesimilarityloss) with these parameters: ```json { "loss_fct": "torch.nn.modules.loss.MSELoss" } ``` ### Training Hyperparameters #### Non-Default Hyperparameters - `eval_strategy`: steps - `per_device_train_batch_size`: 156 - `per_device_eval_batch_size`: 256 - `learning_rate`: 2e-05 - `num_train_epochs`: 20 - `warmup_ratio`: 0.1 - `bf16`: True - `load_best_model_at_end`: True - `batch_sampler`: no_duplicates #### All Hyperparameters
Click to expand - `overwrite_output_dir`: False - `do_predict`: False - `eval_strategy`: steps - `prediction_loss_only`: True - `per_device_train_batch_size`: 156 - `per_device_eval_batch_size`: 256 - `per_gpu_train_batch_size`: None - `per_gpu_eval_batch_size`: None - `gradient_accumulation_steps`: 1 - `eval_accumulation_steps`: None - `torch_empty_cache_steps`: None - `learning_rate`: 2e-05 - `weight_decay`: 0.0 - `adam_beta1`: 0.9 - `adam_beta2`: 0.999 - `adam_epsilon`: 1e-08 - `max_grad_norm`: 1.0 - `num_train_epochs`: 20 - `max_steps`: -1 - `lr_scheduler_type`: linear - `lr_scheduler_kwargs`: {} - `warmup_ratio`: 0.1 - `warmup_steps`: 0 - `log_level`: passive - `log_level_replica`: warning - `log_on_each_node`: True - `logging_nan_inf_filter`: True - `save_safetensors`: True - `save_on_each_node`: False - `save_only_model`: False - `restore_callback_states_from_checkpoint`: False - `no_cuda`: False - `use_cpu`: False - `use_mps_device`: False - `seed`: 42 - `data_seed`: None - `jit_mode_eval`: False - `use_ipex`: False - `bf16`: True - `fp16`: False - `fp16_opt_level`: O1 - `half_precision_backend`: auto - `bf16_full_eval`: False - `fp16_full_eval`: False - `tf32`: None - `local_rank`: 1 - `ddp_backend`: None - `tpu_num_cores`: None - `tpu_metrics_debug`: False - `debug`: [] - `dataloader_drop_last`: True - `dataloader_num_workers`: 0 - `dataloader_prefetch_factor`: None - `past_index`: -1 - `disable_tqdm`: False - `remove_unused_columns`: True - `label_names`: None - `load_best_model_at_end`: True - `ignore_data_skip`: False - `fsdp`: [] - `fsdp_min_num_params`: 0 - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False} - `fsdp_transformer_layer_cls_to_wrap`: None - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None} - `deepspeed`: None - `label_smoothing_factor`: 0.0 - `optim`: adamw_torch - `optim_args`: None - `adafactor`: False - `group_by_length`: False - `length_column_name`: length - `ddp_find_unused_parameters`: None - `ddp_bucket_cap_mb`: None - `ddp_broadcast_buffers`: False - `dataloader_pin_memory`: True - `dataloader_persistent_workers`: False - `skip_memory_metrics`: True - `use_legacy_prediction_loop`: False - `push_to_hub`: False - `resume_from_checkpoint`: None - `hub_model_id`: None - `hub_strategy`: every_save - `hub_private_repo`: None - `hub_always_push`: False - `hub_revision`: None - `gradient_checkpointing`: False - `gradient_checkpointing_kwargs`: None - `include_inputs_for_metrics`: False - `include_for_metrics`: [] - `eval_do_concat_batches`: True - `fp16_backend`: auto - `push_to_hub_model_id`: None - `push_to_hub_organization`: None - `mp_parameters`: - `auto_find_batch_size`: False - `full_determinism`: False - `torchdynamo`: None - `ray_scope`: last - `ddp_timeout`: 1800 - `torch_compile`: False - `torch_compile_backend`: None - `torch_compile_mode`: None - `include_tokens_per_second`: False - `include_num_input_tokens_seen`: False - `neftune_noise_alpha`: None - `optim_target_modules`: None - `batch_eval_metrics`: False - `eval_on_start`: False - `use_liger_kernel`: False - `liger_kernel_config`: None - `eval_use_gather_object`: False - `average_tokens_across_devices`: False - `prompts`: None - `batch_sampler`: no_duplicates - `multi_dataset_batch_sampler`: proportional - `router_mapping`: {} - `learning_rate_mapping`: {}
### Training Logs | Epoch | Step | Training Loss | Validation Loss | spearman_cosine | ro_similarity-test_spearman_cosine | |:-----------:|:---------:|:-------------:|:---------------:|:---------------:|:----------------------------------:| | 0.3083 | 1000 | 0.0161 | 0.0053 | 0.8762 | - | | 0.6165 | 2000 | 0.0044 | 0.0045 | 0.8992 | - | | 0.9248 | 3000 | 0.0036 | 0.0036 | 0.9133 | - | | 1.2330 | 4000 | 0.0031 | 0.0032 | 0.9212 | - | | 1.5413 | 5000 | 0.0027 | 0.0028 | 0.9278 | - | | 1.8496 | 6000 | 0.0023 | 0.0026 | 0.9319 | - | | 2.1578 | 7000 | 0.002 | 0.0022 | 0.9381 | - | | 2.4661 | 8000 | 0.0018 | 0.0021 | 0.9407 | - | | 2.7744 | 9000 | 0.0015 | 0.0019 | 0.9451 | - | | 3.0826 | 10000 | 0.0014 | 0.0018 | 0.9471 | - | | 3.3909 | 11000 | 0.0012 | 0.0018 | 0.9496 | - | | 3.6991 | 12000 | 0.0011 | 0.0016 | 0.9524 | - | | 4.0074 | 13000 | 0.001 | 0.0017 | 0.9534 | - | | 4.3157 | 14000 | 0.0009 | 0.0015 | 0.9534 | - | | 4.6239 | 15000 | 0.0009 | 0.0014 | 0.9565 | - | | 4.9322 | 16000 | 0.0008 | 0.0014 | 0.9574 | - | | 5.2404 | 17000 | 0.0008 | 0.0014 | 0.9584 | - | | 5.5487 | 18000 | 0.0007 | 0.0014 | 0.9597 | - | | 5.8570 | 19000 | 0.0007 | 0.0013 | 0.9603 | - | | 6.1652 | 20000 | 0.0006 | 0.0013 | 0.9602 | - | | 6.4735 | 21000 | 0.0006 | 0.0013 | 0.9603 | - | | 6.7818 | 22000 | 0.0006 | 0.0013 | 0.9626 | - | | 7.0900 | 23000 | 0.0006 | 0.0013 | 0.9634 | - | | 7.3983 | 24000 | 0.0005 | 0.0012 | 0.9634 | - | | 7.7065 | 25000 | 0.0005 | 0.0012 | 0.9643 | - | | 8.0148 | 26000 | 0.0005 | 0.0012 | 0.9651 | - | | 8.3231 | 27000 | 0.0005 | 0.0012 | 0.9648 | - | | 8.6313 | 28000 | 0.0005 | 0.0011 | 0.9664 | - | | 8.9396 | 29000 | 0.0004 | 0.0012 | 0.9660 | - | | 9.2478 | 30000 | 0.0004 | 0.0012 | 0.9659 | - | | 9.5561 | 31000 | 0.0004 | 0.0011 | 0.9667 | - | | 9.8644 | 32000 | 0.0004 | 0.0011 | 0.9677 | - | | 10.1726 | 33000 | 0.0004 | 0.0011 | 0.9677 | - | | 10.4809 | 34000 | 0.0004 | 0.0011 | 0.9678 | - | | 10.7891 | 35000 | 0.0004 | 0.0011 | 0.9680 | - | | 11.0974 | 36000 | 0.0004 | 0.0011 | 0.9680 | - | | 11.4057 | 37000 | 0.0004 | 0.0011 | 0.9685 | - | | 11.7139 | 38000 | 0.0003 | 0.0011 | 0.9691 | - | | 12.0222 | 39000 | 0.0003 | 0.0011 | 0.9692 | - | | 12.3305 | 40000 | 0.0003 | 0.0011 | 0.9690 | - | | 12.6387 | 41000 | 0.0003 | 0.0011 | 0.9693 | - | | 12.9470 | 42000 | 0.0003 | 0.0010 | 0.9698 | - | | 13.2552 | 43000 | 0.0003 | 0.0010 | 0.9697 | - | | 13.5635 | 44000 | 0.0003 | 0.0010 | 0.9704 | - | | 13.8718 | 45000 | 0.0003 | 0.0010 | 0.9703 | - | | 14.1800 | 46000 | 0.0003 | 0.0010 | 0.9703 | - | | 14.4883 | 47000 | 0.0003 | 0.0010 | 0.9696 | - | | 14.7965 | 48000 | 0.0003 | 0.0010 | 0.9707 | - | | 15.1048 | 49000 | 0.0003 | 0.0010 | 0.9707 | - | | 15.4131 | 50000 | 0.0003 | 0.0010 | 0.9711 | - | | 15.7213 | 51000 | 0.0003 | 0.0010 | 0.9714 | - | | 16.0296 | 52000 | 0.0003 | 0.0010 | 0.9716 | - | | 16.3379 | 53000 | 0.0003 | 0.0010 | 0.9712 | - | | 16.6461 | 54000 | 0.0003 | 0.0010 | 0.9718 | - | | 16.9544 | 55000 | 0.0003 | 0.0010 | 0.9716 | - | | 17.2626 | 56000 | 0.0002 | 0.0010 | 0.9717 | - | | 17.5709 | 57000 | 0.0002 | 0.0010 | 0.9716 | - | | 17.8792 | 58000 | 0.0002 | 0.0010 | 0.9719 | - | | 18.1874 | 59000 | 0.0002 | 0.0010 | 0.9718 | - | | 18.4957 | 60000 | 0.0002 | 0.0010 | 0.9719 | - | | 18.8039 | 61000 | 0.0002 | 0.0010 | 0.9723 | - | | 19.1122 | 62000 | 0.0002 | 0.0010 | 0.9723 | - | | 19.4205 | 63000 | 0.0002 | 0.0010 | 0.9724 | - | | **19.7287** | **64000** | **0.0002** | **0.0009** | **0.9724** | **-** | | -1 | -1 | - | - | - | 0.9728 | * The bold row denotes the saved checkpoint. ### Framework Versions - Python: 3.12.3 - Sentence Transformers: 5.0.0 - Transformers: 4.53.3 - PyTorch: 2.7.1+cu126 - Accelerate: 1.9.0 - Datasets: 4.0.0 - Tokenizers: 0.21.2 ## Citation ### BibTeX #### Sentence Transformers ```bibtex @inproceedings{reimers-2019-sentence-bert, title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", author = "Reimers, Nils and Gurevych, Iryna", booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing", month = "11", year = "2019", publisher = "Association for Computational Linguistics", url = "https://arxiv.org/abs/1908.10084", } ```