Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 12
This is a sentence-transformers model finetuned from lighteternal/stsb-xlm-r-greek-transfer. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 400, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'κοινωνικών δικτύων, ο σημασιολογικός ιστός και η προσωποποίηση. Η κινητή επικοινωνία, το υπολογιστικό νέφος, τα',
'Στον τομέα των ψηφιακών τεχνολογιών, τρεις σημαντικές εξελίξεις ξεχωρίζουν: τα κοινωνικά δίκτυα, ο σημασιολογικός ιστός και η προσωποποιημένη εμπειρία χρήστη. Συγχρόνως, παρατηρείται ραγδαία πρόοδος στην κινητή επικοινωνία και τις τεχνολογίες υπολογιστικού νέφους, οι οποίες διαμορφώνουν το σύγχρονο τεχνολογικό τοπίο.',
'Η σύμβαση αφορά την εφαρμογή γνώσεων σε τρεις διαφορετικούς νομικούς κλάδους: στο εργατικό δίκαιο, στη φορολογική νομοθεσία και στην κοινοτική έννομη τάξη. Ο ανάδοχος πρέπει να εξασφαλίζει τη συμμόρφωση της εργασίας του με το σύνολο αυτών των νομικών πλαισίων.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
retrieval-evalInformationRetrievalEvaluator| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.7019 |
| cosine_accuracy@3 | 0.9022 |
| cosine_accuracy@5 | 0.9393 |
| cosine_accuracy@10 | 0.9688 |
| cosine_precision@1 | 0.7019 |
| cosine_precision@3 | 0.3007 |
| cosine_precision@5 | 0.1879 |
| cosine_precision@10 | 0.0969 |
| cosine_recall@1 | 0.7019 |
| cosine_recall@3 | 0.9022 |
| cosine_recall@5 | 0.9393 |
| cosine_recall@10 | 0.9688 |
| cosine_ndcg@10 | 0.8475 |
| cosine_mrr@10 | 0.8073 |
| cosine_map@100 | 0.8086 |
sentence_0 and sentence_1| sentence_0 | sentence_1 | |
|---|---|---|
| type | string | string |
| details |
|
|
| sentence_0 | sentence_1 |
|---|---|
Χαρακτήρα που του διαβιβάζει ο Υπεύθυνος Επεξεργασίας σε ξεχωριστό αρχείο από άλλα τυχόν δεδομένα που επεξεργάζεται |
Σε ξεχωριστή επεξεργασία από τα υπόλοιπα δεδομένα, ο υπεύθυνος επεξεργασίας αποστέλλει έναν χαρακτήρα μέσω ξεχωριστού αρχείου. |
IWXXM): • Πλήρες περιεχόμενο / κείμενο του κώδικα • Αποκωδικοποιημένες τιμές • Αναγνώριση των λανθασμένων |
Η ενότητα IWXXM περιλαμβάνει την πλήρη παρουσίαση του κώδικα κειμένου, τις αποκωδικοποιημένες τιμές και τον εντοπισμό σφαλμάτων. |
ειδικότερες ρυθμίσεις του περιφερειακού Προγράμματος Δημοσίων Επενδύσεων” (ΦΕΚ 1367/Β/05-06-2013), όπως τροποποιήθηκε και |
Τροποποιήσεις έχουν επέλθει στις συγκεκριμένες προβλέψεις που περιλαμβάνονται στο περιφερειακό Πρόγραμμα Δημοσίων Επενδύσεων και καταγράφονται στο ΦΕΚ με αριθμό 1367 τεύχος Β' της 5ης Ιουνίου του έτους 2013. |
MegaBatchMarginLosseval_strategy: stepsper_device_train_batch_size: 128per_device_eval_batch_size: 128num_train_epochs: 10multi_dataset_batch_sampler: round_robinoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 128per_device_eval_batch_size: 128per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 10max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size: 0fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: round_robin| Epoch | Step | Training Loss | retrieval-eval_cosine_ndcg@10 |
|---|---|---|---|
| 0.2161 | 250 | - | 0.7891 |
| 0.4322 | 500 | 0.2094 | 0.7791 |
| 0.6482 | 750 | - | 0.7863 |
| 0.8643 | 1000 | 0.2022 | 0.7824 |
| 1.0 | 1157 | - | 0.7851 |
| 1.0804 | 1250 | - | 0.7942 |
| 1.2965 | 1500 | 0.1905 | 0.7896 |
| 1.5125 | 1750 | - | 0.7950 |
| 1.7286 | 2000 | 0.1813 | 0.7966 |
| 1.9447 | 2250 | - | 0.8011 |
| 2.0 | 2314 | - | 0.7969 |
| 2.1608 | 2500 | 0.1726 | 0.8050 |
| 2.3768 | 2750 | - | 0.8044 |
| 2.5929 | 3000 | 0.1765 | 0.8064 |
| 2.8090 | 3250 | - | 0.8024 |
| 3.0 | 3471 | - | 0.8051 |
| 3.0251 | 3500 | 0.1684 | 0.8097 |
| 3.2411 | 3750 | - | 0.8099 |
| 3.4572 | 4000 | 0.1525 | 0.8167 |
| 3.6733 | 4250 | - | 0.8153 |
| 3.8894 | 4500 | 0.152 | 0.8153 |
| 4.0 | 4628 | - | 0.8194 |
| 4.1054 | 4750 | - | 0.8211 |
| 4.3215 | 5000 | 0.1442 | 0.8272 |
| 4.5376 | 5250 | - | 0.8216 |
| 4.7537 | 5500 | 0.1462 | 0.8212 |
| 4.9697 | 5750 | - | 0.8268 |
| 5.0 | 5785 | - | 0.8265 |
| 5.1858 | 6000 | 0.1318 | 0.8261 |
| 5.4019 | 6250 | - | 0.8281 |
| 5.6180 | 6500 | 0.1321 | 0.8236 |
| 5.8341 | 6750 | - | 0.8263 |
| 6.0 | 6942 | - | 0.8289 |
| 6.0501 | 7000 | 0.1239 | 0.8302 |
| 6.2662 | 7250 | - | 0.8318 |
| 6.4823 | 7500 | 0.1244 | 0.8354 |
| 6.6984 | 7750 | - | 0.8349 |
| 6.9144 | 8000 | 0.1195 | 0.8260 |
| 7.0 | 8099 | - | 0.8334 |
| 7.1305 | 8250 | - | 0.8365 |
| 7.3466 | 8500 | 0.1202 | 0.8385 |
| 7.5627 | 8750 | - | 0.8399 |
| 7.7787 | 9000 | 0.116 | 0.8362 |
| 7.9948 | 9250 | - | 0.8398 |
| 8.0 | 9256 | - | 0.8396 |
| 8.2109 | 9500 | 0.1091 | 0.8430 |
| 8.4270 | 9750 | - | 0.8408 |
| 8.6430 | 10000 | 0.1125 | 0.8431 |
| 8.8591 | 10250 | - | 0.8430 |
| 9.0 | 10413 | - | 0.8408 |
| 9.0752 | 10500 | 0.1051 | 0.8456 |
| 9.2913 | 10750 | - | 0.8469 |
| 9.5073 | 11000 | 0.1026 | 0.8441 |
| 9.7234 | 11250 | - | 0.8462 |
| 9.9395 | 11500 | 0.1049 | 0.8475 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@inproceedings{wieting-gimpel-2018-paranmt,
title = "{P}ara{NMT}-50{M}: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations",
author = "Wieting, John and Gimpel, Kevin",
editor = "Gurevych, Iryna and Miyao, Yusuke",
booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
month = jul,
year = "2018",
address = "Melbourne, Australia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/P18-1042",
doi = "10.18653/v1/P18-1042",
pages = "451--462",
}
Base model
lighteternal/stsb-xlm-r-greek-transfer