--- license: mit language: - ru library_name: tokenizers tags: - tokenizer - Unigram - subword - russian - custom datasets: - ria.ru - lenta.ru - meduza.io - kommersant.ru metrics: - oov_rate - reconstruction_accuracy - compression_ratio --- # 🇷🇺 Russian Unigram Tokenizer 16k **Russian Unigram Tokenizer 16k** — subword токенизатор, обученный с нуля на корпусе русскоязычных новостных текстов. --- ## 🧠 Описание модели - **Тип модели:** Subword токенизатор (Unigram) - **Язык:** Русский - **Алгоритм:** Unigram - **Размер словаря:** 16 000 - **Минимальная частота:** 3 - **Нормализация:** NFKC - **Пре-токенизация:** Whitespace --- ## 📚 Корпус Токенизатор обучен на корпусе из **55 000+ слов**, собранных с русскоязычных новостных сайтов: - [ria.ru](https://ria.ru) - [lenta.ru](https://lenta.ru) - [meduza.io](https://meduza.io) - [kommersant.ru](https://www.kommersant.ru) (Корпус собран в 2025 году и включает тексты новостных статей разных тематик.) --- ## 📊 Метрики | Метрика | Значение | Описание | |----------|-----------|-----------| | **OOV rate** | 1% | Доля слов, отсутствующих в словаре | | **Reconstruction accuracy** | 0% | Точность восстановления исходного текста после токенизации | | **Compression ratio** | 0.5 | Коэффициент сжатия корпуса | --- ## 🚀 Пример использования ```python from tokenizers import Tokenizer tokenizer = Tokenizer.from_pretrained("Shu-vi/Russian_Unigram_Tokenizer_16k") # Пример text = "В Казани в 2024 прошёл БРИКС." encoded = tokenizer.encode(text) print("Токены:", encoded.tokens) print("IDs:", encoded.ids)