import os INTRODUCTION_TEXT = """ # Русский ASR Лидерборд Добро пожаловать в лидерборд для моделей автоматического распознавания речи (ASR) на русском языке. Здесь вы можете сравнить производительность различных моделей по метрикам WER (Word Error Rate) и CER (Character Error Rate) на нескольких датасетах. Лидерборд сортируется по среднему WER (⬇️ - чем ниже, тем лучше). Наведите курсор на значение WER в колонке датасета, чтобы увидеть CER. Все метрики указаны в процентах (%). """ METRICS_TAB_TEXT = """ # Метрики Метрики рассчитываются на текстах в нижнем регистре и без пунктуации. - **WER (Word Error Rate)**: Ошибка на уровне слов. Рассчитывается как: $$ WER = \\frac{S + D + I}{N} $$ где S - количество замен, D - удалений, I - вставок, N - количество слов в референсе. - **CER (Character Error Rate)**: Ошибка на уровне символов. Аналогичная формула, но для символов: $$ CER = \\frac{S + D + I}{N} $$ где S, D, I, N - соответственно замены, удаления, вставки и количество символов в референсе. - **Средние значения**: Простое среднее по всем датасетам. - Все метрики нормализованы и представлены в процентах для удобства сравнения. """ SUBMIT_TAB_TEXT = """ # Отправить результат Чтобы добавить вашу модель в лидерборд, отправьте JSON с результатами. Метрики должны быть в диапазоне [0, 1] (не в процентах). Формат: ```json { "model_name": "MyAwesomeASRModel", "link": "https://huggingface.co/myusername/my-asr-model", "license": "Apache-2.0", "metrics": { "Russian_LibriSpeech": { "wer": 0.1234, "cer": 0.0567 }, "Common_Voice_Corpus_22.0": { "wer": 0.2345, "cer": 0.0789 }, "Tone_Webinars": { "wer": 0.3456, "cer": 0.0987 }, "Tone_Books": { "wer": 0.4567, "cer": 0.1098 }, "Tone_Speak": { "wer": 0.5678, "cer": 0.1209 }, "Sova_RuDevices": { "wer": 0.6789, "cer": 0.1310 } } } В отчёте обязательно должны быть все датасеты, а именно: Russian_LibriSpeech, Common_Voice_Corpus_22.0, Tone_Webinars, Tone_Books, Tone_Speak, Sova_RuDevices. После отправки лидерборд обновится автоматически. """ REPO_ID = "Vikhrmodels/russian-asr-leaderboard" HF_TOKEN = os.getenv("HF_TOKEN") DATASETS = [ "Russian_LibriSpeech", "Common_Voice_Corpus_22.0", "Tone_Webinars", "Tone_Books", "Tone_Speak", "Sova_RuDevices", ] SHORT_DATASET_NAMES = ["RuLS", "CV 22.0", "Webinars", "Books", "Speak", "Sova"] DATASET_DESCRIPTIONS = { "RuLS": { "full_name": "Russian_LibriSpeech", "description": "Russian LibriSpeech (RuLS) — датасет на основе аудиокниг из общественного достояния от LibriVox, содержащий около 98 часов русской речи с транскрипциями.", "num_rows": 1352, }, "CV 22.0": { "full_name": "Common_Voice_Corpus_22.0", "description": "Common Voice — краудсорсинговый многоязычный корпус речи от Mozilla. Версия 22.0 включает данные русской речи с транскрипциями.", "num_rows": 10244, }, "Webinars": { "full_name": "Tone_Webinars", "description": "Tone_Webinars — датасет русской речи из вебинаров с транскрипциями.", "num_rows": 21587, }, "Books": { "full_name": "Tone_Books", "description": "Tone_Books — датасет русских аудиокниг с транскрипциями.", "num_rows": 4938, }, "Speak": { "full_name": "Tone_Speak", "description": "Tone_Speak — датасет синтетической русской речи с транскрипциями.", "num_rows": 700, }, "Sova": { "full_name": "Sova_RuDevices", "description": "SOVA RuDevices — акустический корпус примерно 100 часов 16kHz живой русской речи, записанной на устройствах, с ручной транскрипцией.", "num_rows": 5799, }, }