Быстрая модель BERT для тематической классификации/кластеризации текстов. Модель получена дистилляцией эмбеддингов русских и английских текстов BERTA в rubert-tiny-lite. Качество работы на английских текстах не проверялось.

Основные характеристики модели: размер ембеддинга - 256, длина контекста - 512, слоёв - 3.

Использование

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('sergeyzh/rubert-tiny-topic')

sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)

print(model.similarity(embeddings, embeddings))

Пример кластеризации текстов по темам

from sentence_transformers import SentenceTransformer, util
from datasets import load_dataset

dataset = load_dataset("ai-forever/rubq-reranking", split="test")[:100]
phrases = [s[0] for s in dataset['positive']]

model = SentenceTransformer('sergeyzh/rubert-tiny-topic', device='cpu')
embeddings = model.encode(phrases, convert_to_tensor=True, show_progress_bar=True)

community = util.community_detection(embeddings, threshold = 0.75, min_community_size = 3, batch_size = 1024, show_progress_bar = True)

for id, ind_list in enumerate(community):
    for i in ind_list:
        print(id, '#', phrases[i][:100], '...')
    print('-' * 100)
    
# 0 # Геркуле́совы столбы́ (лат. Columnae Herculis) — название, использовавшееся в Античности для обозначе ...
# 0 # Кана́рские острова́ (исп. Las Islas Canarias) — архипелаг из семи островов вулканического происхожде ...
# 0 # Большой каньон (Великий каньон, Гранд-Каньон; англ. Grand Canyon) — один из глубочайших каньонов в м ...
# 0 # Вершина находится в Гималаях в хребте Махалангур-Химал, по которому проходит граница Непала и Тибетс ...
# 0 # Пирене́йский полуо́стров (также Ибери́йский; исп. , порт. , галис. , астур. península Ibérica, баск. ...
# 0 # Афо́н (греч. Άθως, в греческих источниках официально именуется Святая Гора, греч. Άγιο Όρος, «А́гио  ...
# 0 # Каледония (лат. Caledonia) — древнее название северной части острова Великобритания, к северу от вал ...
# ----------------------------------------------------------------------------------------------------
# 1 # Нью-Йорк (англ. New York, произносится /nuː ˈjɔrk/, аббр. NY) — штат на северо-востоке США, на Атлан ...
# 1 # Сент-Пи́терсберг (местное название St. Pete — Сент-Пит) — город в округе Пинелас штата Флорида, попу ...
# 1 # Площадь территории Нигерии составляет 923 768 км2: по этому показателю страна занимает 14-е место в  ...
# 1 # Тегусига́льпа (исп. Tegucigalpa) — столица (с 1880) и крупнейший город Гондураса. Население — 1 682  ...
# 1 # Брянск — город в России, административный центр Брянской области; город областного значения, образуе ...
# ----------------------------------------------------------------------------------------------------
# 2 # Первая попытка исторического повествования в русской литературе встречается в повести Н. М. Карамзин ...
# 2 # «Па́рус» («Белеет парус одинокой…») — стихотворение, написанное 18-летним Михаилом Лермонтовым в Пет ...
# 2 # В противоположность героическим эпопеям Гомера и средневековым эпопеям, а также поэме Данте, «Потеря ...
# 2 # «Чёрный человек» — поэма Сергея Есенина. Впервые опубликована в № 1 журнала «Новый мир» за январь 19 ...
# 2 # Охватывая широкие временные рамки (включая период Франции с 1815 до 1832 года и жестоко подавленное  ...
# ----------------------------------------------------------------------------------------------------
# 3 # Танец с саблями — музыкальное произведение Арама Хачатуряна, написанное для последнего действия бале ...
# 3 # 1938 — «Ромео и Джульетта» — балет на музыку С. С. ПрокофьеваМюзикл «West Side Story» (мировая премь ...
# 3 # Музыкальный ряд фильма, состоящий из симфонической и хоровой музыки, представляет собой полноценное  ...
# 3 # В 1796 году Бетховен начинает терять слух. У него развивается тиннитус — воспаление внутреннего уха, ...
# ----------------------------------------------------------------------------------------------------
# 4 # «Хижина дяди Тома» (англ. Uncle Tom's Cabin) — роман Гарриет Бичер-Стоу 1852 года, направленный прот ...
# 4 # «Спартак» (итал. Spartaco) — исторический роман итальянского писателя Рафаэлло Джованьоли, написанны ...
# 4 # «Карлик Нос» (нем. Der Zwerg Nase) — одна из самых известных сказок немецкого писателя Вильгельма Га ...
# ----------------------------------------------------------------------------------------------------
# 5 # Зимний дворец (в 1918—1943 годах — Дворец Искусств) — главный императорский дворец России, расположе ...
# 5 # Современное здание собора является четвёртым петербургским храмом в честь Исаакия Далматского, возве ...
# 5 # Генуэ́зская кре́пость — средневековые укрепления в городе Феодосия (Крым), построенные Генуэзской ре ...
# ----------------------------------------------------------------------------------------------------
# 6 # Лимпо́по (в верхнем течении Кро́кодайл) — река в Южной Африке на территории ЮАР, Ботсваны, Зимбабве  ...
# 6 # Уссу́ри (кит. 乌苏里江 — Усулицзян; маньчж. — «чёрная как сажа») — река в Приморском и Хабаровском краях ...
# 6 # Находится на правом берегу Волгоградского водохранилища реки Волги напротив устья реки Саратовки и г ...
# ----------------------------------------------------------------------------------------------------

Метрики

Оценки модели на задачах тематической классификации/кластеризации MTEB:

Model Name Metric FRIDA BERTA rubert-tiny-topic multilingual-e5-large-instruct bge-m3
HeadlineClassification Accuracy 0.890 0.890 0.882 0.862 0.703
InappropriatenessClassification Accuracy 0.783 0.748 0.702 0.655 0.599
RuSciBenchGRNTIClassification Accuracy 0.699 0.690 0.668 0.651 0.558
RuSciBenchGRNTIClusteringP2P V-measure 0.674 0.650 0.617 0.622 0.508
RuSciBenchOECDClassification Accuracy 0.546 0.548 0.523 0.502 0.426
RuSciBenchOECDClusteringP2P V-measure 0.566 0.556 0.512 0.528 0.432
SensitiveTopicsClassification Accuracy 0.398 0.399 0.360 0.323 0.262
Average Average 0.651 0.640 0.609 0.592 0.498
Downloads last month
23
Safetensors
Model size
23M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for sergeyzh/rubert-tiny-topic

Finetuned
(1)
this model

Datasets used to train sergeyzh/rubert-tiny-topic

Collection including sergeyzh/rubert-tiny-topic