---
license: mit
language:
- ru
library_name: tokenizers
tags:
- tokenizer
- Unigram
- subword
- russian
- custom
datasets:
- ria.ru
- lenta.ru
- meduza.io
- kommersant.ru
metrics:
- oov_rate
- reconstruction_accuracy
- compression_ratio
---

# 🇷🇺 Russian Unigram Tokenizer 16k

**Russian Unigram Tokenizer 16k** — subword токенизатор, обученный с нуля на корпусе русскоязычных новостных текстов.

---

## 🧠 Описание модели

- **Тип модели:** Subword токенизатор (Unigram)  
- **Язык:** Русский  
- **Алгоритм:** Unigram
- **Размер словаря:** 16 000  
- **Минимальная частота:** 3  
- **Нормализация:** NFKC  
- **Пре-токенизация:** Whitespace  

---

## 📚 Корпус

Токенизатор обучен на корпусе из **55 000+ слов**, собранных с русскоязычных новостных сайтов:
- [ria.ru](https://ria.ru)
- [lenta.ru](https://lenta.ru)
- [meduza.io](https://meduza.io)
- [kommersant.ru](https://www.kommersant.ru)

(Корпус собран в 2025 году и включает тексты новостных статей разных тематик.)

---

## 📊 Метрики

| Метрика | Значение | Описание |
|----------|-----------|-----------|
| **OOV rate** | 1% | Доля слов, отсутствующих в словаре |
| **Reconstruction accuracy** | 0% | Точность восстановления исходного текста после токенизации |
| **Compression ratio** | 0.5 | Коэффициент сжатия корпуса |

---

## 🚀 Пример использования

```python
from tokenizers import Tokenizer

tokenizer = Tokenizer.from_pretrained("Shu-vi/Russian_Unigram_Tokenizer_16k")

# Пример
text = "В Казани в 2024 прошёл БРИКС."
encoded = tokenizer.encode(text)

print("Токены:", encoded.tokens)
print("IDs:", encoded.ids)