SentenceTransformer based on lighteternal/stsb-xlm-r-greek-transfer

This is a sentence-transformers model finetuned from lighteternal/stsb-xlm-r-greek-transfer. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: lighteternal/stsb-xlm-r-greek-transfer
  • Maximum Sequence Length: 400 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 400, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'κοινωνικών δικτύων, ο σημασιολογικός ιστός και η προσωποποίηση. Η κινητή επικοινωνία, το υπολογιστικό νέφος, τα',
    'Στον τομέα των ψηφιακών τεχνολογιών, τρεις σημαντικές εξελίξεις ξεχωρίζουν: τα κοινωνικά δίκτυα, ο σημασιολογικός ιστός και η προσωποποιημένη εμπειρία χρήστη. Συγχρόνως, παρατηρείται ραγδαία πρόοδος στην κινητή επικοινωνία και τις τεχνολογίες υπολογιστικού νέφους, οι οποίες διαμορφώνουν το σύγχρονο τεχνολογικό τοπίο.',
    'Η σύμβαση αφορά την εφαρμογή γνώσεων σε τρεις διαφορετικούς νομικούς κλάδους: στο εργατικό δίκαιο, στη φορολογική νομοθεσία και στην κοινοτική έννομη τάξη. Ο ανάδοχος πρέπει να εξασφαλίζει τη συμμόρφωση της εργασίας του με το σύνολο αυτών των νομικών πλαισίων.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.7019
cosine_accuracy@3 0.9022
cosine_accuracy@5 0.9393
cosine_accuracy@10 0.9688
cosine_precision@1 0.7019
cosine_precision@3 0.3007
cosine_precision@5 0.1879
cosine_precision@10 0.0969
cosine_recall@1 0.7019
cosine_recall@3 0.9022
cosine_recall@5 0.9393
cosine_recall@10 0.9688
cosine_ndcg@10 0.8475
cosine_mrr@10 0.8073
cosine_map@100 0.8086

Training Details

Training Dataset

Unnamed Dataset

  • Size: 296,064 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 5 tokens
    • mean: 38.34 tokens
    • max: 76 tokens
    • min: 21 tokens
    • mean: 49.89 tokens
    • max: 154 tokens
  • Samples:
    sentence_0 sentence_1
    Χαρακτήρα που του διαβιβάζει ο Υπεύθυνος Επεξεργασίας σε ξεχωριστό αρχείο από άλλα τυχόν δεδομένα που επεξεργάζεται Σε ξεχωριστή επεξεργασία από τα υπόλοιπα δεδομένα, ο υπεύθυνος επεξεργασίας αποστέλλει έναν χαρακτήρα μέσω ξεχωριστού αρχείου.
    IWXXM): • Πλήρες περιεχόμενο / κείμενο του κώδικα • Αποκωδικοποιημένες τιμές • Αναγνώριση των λανθασμένων Η ενότητα IWXXM περιλαμβάνει την πλήρη παρουσίαση του κώδικα κειμένου, τις αποκωδικοποιημένες τιμές και τον εντοπισμό σφαλμάτων.
    ειδικότερες ρυθμίσεις του περιφερειακού Προγράμματος Δημοσίων Επενδύσεων” (ΦΕΚ 1367/Β/05-06-2013), όπως τροποποιήθηκε και Τροποποιήσεις έχουν επέλθει στις συγκεκριμένες προβλέψεις που περιλαμβάνονται στο περιφερειακό Πρόγραμμα Δημοσίων Επενδύσεων και καταγράφονται στο ΦΕΚ με αριθμό 1367 τεύχος Β' της 5ης Ιουνίου του έτους 2013.
  • Loss: MegaBatchMarginLoss

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • num_train_epochs: 10
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 10
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss retrieval-eval_cosine_ndcg@10
0.2161 250 - 0.7891
0.4322 500 0.2094 0.7791
0.6482 750 - 0.7863
0.8643 1000 0.2022 0.7824
1.0 1157 - 0.7851
1.0804 1250 - 0.7942
1.2965 1500 0.1905 0.7896
1.5125 1750 - 0.7950
1.7286 2000 0.1813 0.7966
1.9447 2250 - 0.8011
2.0 2314 - 0.7969
2.1608 2500 0.1726 0.8050
2.3768 2750 - 0.8044
2.5929 3000 0.1765 0.8064
2.8090 3250 - 0.8024
3.0 3471 - 0.8051
3.0251 3500 0.1684 0.8097
3.2411 3750 - 0.8099
3.4572 4000 0.1525 0.8167
3.6733 4250 - 0.8153
3.8894 4500 0.152 0.8153
4.0 4628 - 0.8194
4.1054 4750 - 0.8211
4.3215 5000 0.1442 0.8272
4.5376 5250 - 0.8216
4.7537 5500 0.1462 0.8212
4.9697 5750 - 0.8268
5.0 5785 - 0.8265
5.1858 6000 0.1318 0.8261
5.4019 6250 - 0.8281
5.6180 6500 0.1321 0.8236
5.8341 6750 - 0.8263
6.0 6942 - 0.8289
6.0501 7000 0.1239 0.8302
6.2662 7250 - 0.8318
6.4823 7500 0.1244 0.8354
6.6984 7750 - 0.8349
6.9144 8000 0.1195 0.8260
7.0 8099 - 0.8334
7.1305 8250 - 0.8365
7.3466 8500 0.1202 0.8385
7.5627 8750 - 0.8399
7.7787 9000 0.116 0.8362
7.9948 9250 - 0.8398
8.0 9256 - 0.8396
8.2109 9500 0.1091 0.8430
8.4270 9750 - 0.8408
8.6430 10000 0.1125 0.8431
8.8591 10250 - 0.8430
9.0 10413 - 0.8408
9.0752 10500 0.1051 0.8456
9.2913 10750 - 0.8469
9.5073 11000 0.1026 0.8441
9.7234 11250 - 0.8462
9.9395 11500 0.1049 0.8475

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 4.1.0
  • Transformers: 4.51.3
  • PyTorch: 2.7.0+cu126
  • Accelerate: 1.6.0
  • Datasets: 3.5.0
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MegaBatchMarginLoss

@inproceedings{wieting-gimpel-2018-paranmt,
    title = "{P}ara{NMT}-50{M}: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations",
    author = "Wieting, John and Gimpel, Kevin",
    editor = "Gurevych, Iryna and Miyao, Yusuke",
    booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2018",
    address = "Melbourne, Australia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P18-1042",
    doi = "10.18653/v1/P18-1042",
    pages = "451--462",
}
Downloads last month
1
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for AlexKarap/newlighteternal

Finetuned
(9)
this model

Paper for AlexKarap/newlighteternal

Evaluation results