Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 13
How to use phuocsang/contrastive-encoder-2 with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("phuocsang/contrastive-encoder-2")
sentences = [
"Công ty truyền tải điện quốc gia Bồ Đào Nha là Redes Energéticas Nacionais (REN), sử dụng mô hình phức tạp để dự báo thời tiết, đặc biệt là kiểu gió, và các chương trình máy tính để tính toán năng lượng từ các nhà máy năng lượng tái tạo khác nhau. Trước khi phát triển năng lượng mặt trời và gió, Bồ Đào Nha sản xuất điện từ các nhà máy thuỷ điện trên các sông trong nhiều thập niên. Các chương trình mới kết hợp năng lượng gió và nước: Các tua bin gió bơm nước lên phía trên vào ban đêm, tức thời gian có gió mạnh nhất; sau đó nước chảy xuống vào ban ngày, tạo ra điện năng khi có nhu cầu sử dụng cao hơn. Hệ thống phân phối của Bồ Đào Nha nay là một đường hai chiều, thay vì chỉ phân phối điện năng, nó còn thu điện năng từ các máy phát nhỏ như các tấm pin năng lượng mặt trời trên mái nhà. Chính phủ khuyến khích phân phối như vậy bằng cách áp mức giá cao cho những người bán điện năng từ quang năng sản xuất trên mái nhà.[SEP]Chính phủ Bồ Đào Nha không sử dụng hệ thống phân phối điện một chiều chỉ để thu điện từ các tấm pin mặt trời. Thực tế, Bồ Đào Nha đã phát triển một chương trình tích hợp năng lượng gió và nước, sử dụng các tua bin gió để bơm nước lên cao, tối ưu hóa việc",
"Sự tồn tại của con người ở những vùng vốn có điều kiện khắc nghiệt đối với cuộc sống như Nam Cực hay ngoài không gian rất hạn chế về mặt thời gian và chỉ tồn tại ở những lĩnh vực thám hiểm, nghiên cứu khoa học, quân sự và công nghiệp. Nhất là sự sống trên không gian vũ trụ, trong quá khứ và hiện tại, chưa có quá 13 người từng sống trên không gian cùng lúc. Giữa năm 1969 và 1972, chỉ có hai người bước đi cùng lúc trên Mặt Trăng. Đến năm 2006, chưa có một thiên thể tự nhiên nào khác có bước chân của con người ngoại trừ Mặt Trăng mặc dù luôn có con người hiện diện trên trạm không gian quốc tế từ ngày 31 tháng 10 năm 2000. Từ năm 1800 đến 2000, dân số con người đã tăng lên 6 lần: từ 1 tỉ lên 5 tỉ. Vào năm 2004, khoảng 2,5 tỉ trên 6,3 tỉ người (39.7%) sống trong những vùng nông thôn, và con số này sẽ tăng mạnh trong thế kỉ 21. Vấn đề mà những người trong những đô thị lớn đang gặp phải là ô nhiễm, tội ác và nghèo đói, nhất là ở trung tâm và những khu vực vùng ven.[SEP]Không, thiên thể duy nhất có dấu chân của con người tính đến năm 2006 là Mặt Trăng, không phải sao Hỏa.",
"Roma đã bắt đầu sáp nhập các tỉnh mới của nó từ thế kỷ thứ 3 trước Công nguyên, và quá trình này kéo dài suốt bốn thế kỷ trước khi lãnh thổ của nó đạt đến mức cực đỉnh, và theo chiều hướng là một \"đế chế\" trong khi vẫn cai trị như là một nhà nước cộng hòa. Các tỉnh Cộng hòa thì được cai quản bởi các viên cựu chấp chính quan và cựu pháp quan, vốn được bầu hàng năm và nắm giữ quyền lực tuyệt đối . Với việc tập trung quá nhiều của cải cũng như sức mạnh quân đội trong tay của một vài người thông qua quyền cai trị các tỉnh, nó đã trở thành nhân tố chính trong quá trình chuyển từ nhà nnước cộng hòa sang chế độ quân chủ chuyên chế.[SEP]việc tập trung quyền lực trong tay một vài người thông qua quyền cai trị các tỉnh đã củng cố thêm thể chế cộng hòa của La Mã, giúp duy trì sự ổn định và ngăn chặn chuyển đổi sang chế độ quân chủ.",
"Đa số dân chúng sử dụng một trong những ngôn ngữ Iran, gồm ngôn ngữ chính thức, tiếng Ba Tư. Trong khi về số lượng, tỷ lệ và cách định nghĩa các dân tộc khác nhau ở Iran hiện vẫn còn đang gây tranh cãi, các nhóm sắc tộc chính và thiểu số gồm người Ba Tư (51%), Azeris (24%), Gilaki và Mazandarani (8%), Kurds (7%), Ả rập (3%), Baluchi (2%), Lurs (2%), Turkmens (2%), Qashqai, Armenia, Ba Tư Do Thái, Gruzia, người Assyri, Circassia, Tats,Pashtuns và các nhóm khác (1%). Số lượng người sử dụng tiếng Ba Tư là tiếng mẹ đẻ tại Iran được ước tính khoảng 40 triệu. Phương tiện truyền thông đại chúng, hệ thống giáo dục và việc di cư tới các thành phố lớn khiến đa số dân Iran nói và hiểu được tiếng Ba Tư. Iran có tỷ lệ biết đọc viết là 79.4%. Đa số dân Iran là người Hồi giáo; 90% thuộc nhánh Shi'a của Đạo Hồi, tôn giáo chính thức của quốc gia và khoảng 9% thuộc nhánh Sunni (đa số họ là người Kurds). Số còn lại là thiểu số theo các tôn giáo phi Hồi giáo, chủ yếu là Bahá'ís, Mandeans, Hỏa giáo, Do Thái giáo và Thiên chúa giáo. Ba nhóm thiểu số tôn giáo cuối cùng ở trên được công nhận và bảo vệ, và được dành riêng ghế bên trong Majles (Nghị viện). Trái lại, Đức tin Bahá'í, thiểu số tôn giáo lớn nhất ở Iran, không được chính thức công nhân, và từng bị đàn áp trong thời gian tồn tại ở Iran. Từ cuộc cách mạng năm 1979 những vụ đàn áp và hành quyết ngày càng tăng. Những vụ đàn áp Bahá'ís gần đây khiến Cao uỷ nhân quyền Liên hiệp quốc phải đề cập trong bản báo cáo ngày 20 tháng 3 năm 2006 rằng \"những hành động đàn áp tôn giáo ngày càng tăng gần đây cho thấy tình hình đối xử với các thiểu số tôn giáo ở Iran, trên thực tế, đang xấu đi.\"[SEP]Người dân Iran chủ yếu giao tiếp bằng tiếng Ba Tư, ngôn ngữ chính thức của quốc gia."
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from FacebookAI/xlm-roberta-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("phuocsang/contrastive-encoder-2")
# Run inference
sentences = [
'Trong năm 2005, mức thu nhập bình quân của người dân độ tuổi trên 18 là 3.317 đô la cho phụ nữ thất nghiệp, có gia đình gốc Á cho tới 55.935 đô la cho đàn ông có việc làm toàn thời gian gốc Á. Theo cục thống kê dân số Mỹ, nam giới có mức thu nhập cao hơn phụ nữ trong khi người Mỹ gốc châu Á và Âu kiếm nhiều tiền hơn người Mỹ gốc Phi và Tây Ban Nha. Thu nhập bình quân chung của tất cả người dân trên 18 tuổi là 24.062 đô la (và 32.140 đô la cho độ tuổi từ 25 trở lên) trong năm 2005.[SEP]Không, thông tin không đúng. Người Mỹ gốc Á không có mức thu nhập thấp nhất. Vào năm 2005, thu nhập bình quân của đàn ông gốc Á có việc làm toàn thời gian là 55.935 đô la mỗi năm.',
'Vào đầu công nguyên, xuất hiện hai vương quốc của người Malayo - Polynesia lớn trên bán đảo Ðông Dương: Phù Nam và Chiêm Thành. Lãnh thổ Phù Nam rộng từ Vịnh Thái Lan đến Biển Hồ nhưng ảnh hưởng tỏa lên Thượng Lào và Bắc Miến Ðiện. Chiêm Thành gồm nhiều vương quốc nhỏ sinh hoạt độc lập với nhau dọc các đồng bằng eo hẹp miền Trung đến chân dãy Trường Sơn về phía Tây: Lâm Ấp hay Indrapura (Bình Trị Thiên), Amaravati (Quảng Nam), Vijaya (Bình Định), Aryaru (Phú Yên), Kauthara (Khánh Hòa) và Panduranga (Phan Rang). Sinh hoạt chính của người Malayo - Polynesia là trồng lúa nước và buôn bán. Ðể tìm thêm nguồn hàng quí hiếm trao đổi với các thuyền buôn, người Malayo - Polynesia mở rộng tầm kiểm soát lên các vùng rừng núi đồng thời khuất phục luôn các nhóm dân cư bản địa đã có mặt từ trước, điển hình điển hình nhóm Bih ven krong A-na mà ngày nay được gọi là Ê Đê Bih với kỹ năng dệt, trang sức, làm gốm, trồng lúa nước. Nhóm Bih là nhóm Malayo - Polynesia định cư và chạy nạn sớm vào sâu nhất trong lục địa, họ đem theo kỹ thuật trồng lúa nước ven sông,dệt vải thô, trang sức hạt, và kỹ nghệ làm gốm thô. Theo chiều lịch sử, danh tự Ê Đê có nguồn gốc từ cách đọc âm của người Champa, bia ký Champa cổ nhất tại tháp Po Nagar vào khoảng thế kỷ VIII đã ghi chép về tộc danh Rang Đê vùng sông Nha Trang, sông Jing, sông Hing. Những bia ký sớm nhất của Champa thế kỷ VIII - đã có nhắc đến nhóm Rangde ven sông Ea trang (Nha Trang). Trong Bia Po Nagar được dựng năm 965 tại tháp Po Nagar (Nha Trang, Khánh Hòa): Nội dung bia như sau:Vào khoảng năm 703 - 706 lịch saka (781 - 784 Công lịch), vua Satyavarman cho dựng một linga (linh vật) thờ thần Siva và lập cháu mình lên làm vua Vikrantavarman(vì theo chế độ mẫu hệ nên cậu truyền ngôi cho cháu theo dòng mẹ)... và đức Vua có thu phục được người Randaya (Rang Đê).Rất có thể từ Rang Đê sau này bị biến âm thành Ra đê, Rađêy hay Ê đê. Ngoài ra, người Ê đê còn tự nhận là nhóm tộc Đêgar, Êđê Êga Anak Đêgar - người trên Cao Nguyên. Đêgar là từ tiếng Ấn Độ srakrit Deccan, và bản thân nó lại có nguồn gốc từ tiếng Phạn दक्षिण, Đêkṣarṇa, nghĩa là "cao nguyên phía nam".[SEP]Người Malayo - Polynesia đầu công nguyên đã phát triển mạnh mẽ ngành công nghiệp ô tô và hàng không, đây là các ngành kinh tế chủ yếu của họ, đóng góp lớn vào sự thịnh vượng của vương quốc.',
'Nhận ra rằng ông không thể nào giữ được Jerusalem cho dù ông có chiếm được nó, Richard ra lệnh rút lui. Có vài vụ xung đột nhỏ đã nổ ra giữa quân của Richard và Saladin khi hai người đàm phán để giải quyết cuộc xung đột, vì cả hai đều nhận ra rằng họ khó giữ vững được vị trí của mình nếu xung đột tiếp diễn. Richard biết rằng cả Philip và chính em trai ông John đều đang âm mưu chống lại mình. Tuy nhiên, Saladin buộc Richard phải san bằng các công sự mà ông đã xây dựng tại Ascalon và vài việc khác. Richard thực hiện một nỗ lực cuối cùng để giành thế thượng phong trên bàn đàm phán bằng việc xâm lược Ai Cập – nguồn tiếp vận chính của Saladin – nhưng thất bại. Cuối cùng, thời gian không còn nữa. Việc trở về không thể trì hoãn được nữa vì cả Philip và John đều đang lợi dụng sự vắng mặt của ông. Ông và Saladin đi đến một thỏa thuận vào ngày 2 tháng 9, 1192; bao gồm việc phá hủy các công sự của Ascalon, cùng với việc cho phép người hành hương và thương nhân Cơ đốc đến Jerusalem. Nó cũng bao gồm một hòa ước ba năm.[SEP]Richard cho xâm lược Ai Cập với mục đích chính là thiết lập một liên minh vững chắc với Saladin, nhằm củng cố mối quan hệ hòa bình lâu dài giữa hai bên và đảm bảo sự ổn định trong khu vực.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 1.0000, 1.0000],
# [1.0000, 1.0000, 1.0000],
# [1.0000, 1.0000, 1.0000]])
sentence_0 and label| sentence_0 | label | |
|---|---|---|
| type | string | int |
| details |
|
|
| sentence_0 | label |
|---|---|
Chính phủ liên bang thiết lập mọi nỗ lực mới trong nước để ngăn chặn các vụ tấn công tương lai. Đạo luật Yêu nước Mỹ gây nhiều tranh cãi tạo điều kiện gia tăng quyền hạn của chính phủ để theo dõi thông tin liên lạc và tháo vỡ các hạn chế pháp lý về chia sẻ thông tin giữa các cơ quan tình báo và thi hành luật pháp liên bang. Một cơ quan cấp nội các, được gọi là bộ nội an được thành lập để lãnh đạo và điều hợp các hoạt động chống khủng bố của chính phủ liên bang. Một trong số các nỗ lực chống khủng bố này, đặc biệt là việc chính phủ liên quan cầm giữ các phạm nhân tại nhà tù tại vịnh Guantanamo, dẫn đến các cáo buộc rằng chính phủ liên bang vị phạm nhân quyền.[SEP]Không, việc giam giữ các phạm nhân tại vịnh Guantanamo dẫn đến cáo buộc vi phạm nhân quyền, không phải quyền tự do ngôn luận được Hiến pháp Hoa Kỳ bảo đảm. |
0 |
Việc hợp nhất này đã tước đoạt chính sách đối ngoại độc lập của Bồ Đào Nha và dẫn đến việc họ tham gia Chiến tranh Tám mươi Năm giữa Tây Ban Nha và Hà Lan. Cuộc chiến này làm tổn hại quan hệ giữa Bồ Đào Nha và đồng minh lâu năm nhất của họ là Anh, và để mất cảng mậu dịch chiến lược Hormuz tại vùng vịnh Ba Tư. Từ năm 1595 đến năm 1663, Chiến tranh Hà Lan-Bồ Đào Nha chủ yếu liên quan đến việc các công ty Hà Lan xâm phạm nhiều thuộc địa và lợi ích thương nghiệp của Bồ Đào Nha tại Brasil, châu Phi, Ấn Độ và Viễn Đông, khiến Bồ Đào Nha bị mất thế độc quyền mậu dịch hàng hải trên Ấn Độ Dương.[SEP]Các công ty Hà Lan đã xâm phạm nhiều thuộc địa và lợi ích thương nghiệp của Bồ Đào Nha tại Brasil, châu Phi, Ấn Độ và Viễn Đông trong khoảng thời gian từ năm 1595 đến năm 1663. |
0 |
Bắc Ireland có cơ quan hành pháp và lập pháp địa phương, thi hành quyền lực được Anh phân quyền. Đứng đầu cơ quan hành pháp là bộ trưởng thứ nhất và thứ trưởng thứ nhất, còn các bộ trưởng được phân bổ theo tỷ lệ đại biểu của mỗi đảng trong nghị hội. Thủ đô Bắc Ireland là Belfast. Quyền lực chính trị tối hậu thuộc về Chính phủ Anh, Chính phủ Anh từng có các giai đoạn cai trị trực tiếp Bắc Ireland. Bắc Ireland được phân 18 ghế trong số 650 ghế của Hạ nghị viện Anh. Quốc vụ khanh về Bắc Ireland là một chức vụ cấp nội các trong chính phủ của Anh. Bắc Ireland tạo thành một trong ba khu vực phạm vi quyền hạn tư pháp riêng biệt của Anh, song Toà án Tối cao Anh là toà án tối cao.[SEP]Hạ nghị viện Anh có tổng cộng 700 ghế đại biểu, trong đó Bắc Ireland chiếm 18 ghế. Điều này cho phép họ có tiếng nói mạnh mẽ hơn trong các quyết định chính trị của Vương quốc Anh. |
1 |
BatchHardTripletLossper_device_train_batch_size: 32per_device_eval_batch_size: 32num_train_epochs: 2multi_dataset_batch_sampler: round_robinoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 32per_device_eval_batch_size: 32per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 2max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedeepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: round_robinrouter_mapping: {}learning_rate_mapping: {}@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{hermans2017defense,
title={In Defense of the Triplet Loss for Person Re-Identification},
author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
year={2017},
eprint={1703.07737},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
Base model
FacebookAI/xlm-roberta-base