Spaces:

Ane4ka
/

422_MTDDP

Running

App Files Files Community

ASureevaA commited on 26 days ago

Commit

fb68e9f

1 Parent(s): 0ef80ce

fix image q

Browse files

Files changed (1) hide show

app.py +237 -250

app.py CHANGED Viewed

@@ -296,7 +296,7 @@ def synthesize_speech(text_value: str, model_key: str):
             )
             return file_object.name
-    raise ValueError(f"Неизвестная TTS модель: {model_key}")
@@ -599,35 +599,30 @@ def parse_point_coordinates_text(coordinates_text: str) -> List[List[int]]:
 def build_interface():
     with gr.Blocks(title="Multimodal AI Demo", theme=gr.themes.Soft()) as demo_block:
-        gr.Markdown("#Мультимодальные AI модели")
-        gr.Markdown(
-            "Демонстрация различных задач компьютерного зрения "
-            "и обработки звука с использованием Hugging Face Transformers",
-        )
         with gr.Tab("Классификация аудио"):
-            gr.Markdown("## Audio Classification")
             with gr.Row():
-                with gr.Column():
-                    audio_input_component = gr.Audio(
-                        label="Загрузите аудиофайл",
-                        type="filepath",
-                    )
-                    audio_model_selector = gr.Dropdown(
-                        choices=["audio_classifier", "emotion_classifier"],
-                        label="Выберите модель",
-                        value="audio_classifier",
-                        info=(
-                            "audio_classifier - общая классификация (AST), "
-                            "emotion_classifier - эмоции в речи (HuBERT ER)"
-                        ),
-                    )
-                    audio_classify_button = gr.Button("Классифицировать")
-                with gr.Column():
-                    audio_output_component = gr.Textbox(
-                        label="Результаты классификации",
-                        lines=10,
-                    )
             audio_classify_button.click(
                 fn=classify_audio_file,
@@ -635,25 +630,24 @@ def build_interface():
                 outputs=audio_output_component,
             )
-        with gr.Tab("Zero-Shot аудио (CLAP)"):
-            gr.Markdown("## Zero-Shot Audio Classification (CLAP)")
             with gr.Row():
-                with gr.Column():
-                    clap_audio_input_component = gr.Audio(
-                        label="Загрузите аудиофайл",
-                        type="filepath",
-                    )
-                    clap_label_texts_component = gr.Textbox(
-                        label="Кандидатные метки (через запятую)",
-                        placeholder="лай собаки, шум дождя, музыка, разговор",
-                        lines=2,
-                    )
-                    clap_button = gr.Button("Классифицировать CLAP")
-                with gr.Column():
-                    clap_output_component = gr.Textbox(
-                        label="Результаты zero-shot классификации",
-                        lines=10,
-                    )
             clap_button.click(
                 fn=classify_audio_zero_shot_clap,
@@ -662,28 +656,27 @@ def build_interface():
             )
         with gr.Tab("Распознавание речи"):
-            gr.Markdown("## Automatic Speech Recognition (ASR)")
             with gr.Row():
-                with gr.Column():
-                    asr_audio_input_component = gr.Audio(
-                        label="Загрузите аудио с речью",
-                        type="filepath",
-                    )
-                    asr_model_selector = gr.Dropdown(
-                        choices=["whisper", "wav2vec2"],
-                        label="Выберите модель",
-                        value="whisper",
-                        info=(
-                            "whisper  - distil-whisper/distil-small.en (модель из курса, EN),\n"
-                            "wav2vec2 - openai/whisper-small (альтернатива, мультиязычная)"
-                        ),
-                    )
-                    asr_button = gr.Button("Транскрибировать")
-                with gr.Column():
-                    asr_output_component = gr.Textbox(
-                        label="Транскрипция",
-                        lines=5,
-                    )
             asr_button.click(
                 fn=recognize_speech,
@@ -693,27 +686,26 @@ def build_interface():
         with gr.Tab("Синтез речи"):
             gr.Markdown("## Text-to-Speech")
             with gr.Row():
-                with gr.Column():
-                    tts_text_component = gr.Textbox(
-                        label="Введите текст для синтеза",
-                        placeholder="Введите текст на русском или английском языке...",
-                        lines=3,
-                    )
-                    tts_model_selector = gr.Dropdown(
-                        choices=["vits-ljs", "Google TTS"],
-                        label="Выберите модель",
-                        value="vits-ljs",
-                        info=(
-                            "kakao-enterprise/vits-ljs"
-                            "Google TTS"
-                        ),
-                    )
-                    tts_button = gr.Button("Синтезировать речь")
-                with gr.Column():
-                    tts_audio_output_component = gr.Audio(
-                        label="Синтезированная речь",
-                        type="filepath",
-                    )
             tts_button.click(
                 fn=synthesize_speech,
@@ -722,30 +714,29 @@ def build_interface():
             )
         with gr.Tab("Детекция объектов"):
-            gr.Markdown("## Object Detection")
             with gr.Row():
-                with gr.Column():
-                    object_input_image = gr.Image(
-                        label="Загрузите изображение",
-                        type="pil",
-                    )
-                    object_model_selector = gr.Dropdown(
-                        choices=[
-                            "object_detection_conditional_detr",
-                            "object_detection_yolos_small",
-                        ],
-                        label="Модель детекции",
-                        value="object_detection_conditional_detr",
-                        info=(
-                            "object_detection_conditional_detr - microsoft/conditional-detr-resnet-50\n"
-                            "object_detection_yolos_small       - hustvl/yolos-small"
-                        ),
-                    )
-                    object_detect_button = gr.Button("Обнаружить объекты")
-                with gr.Column():
-                    object_output_image = gr.Image(
-                        label="Результат детекции",
-                    )
             object_detect_button.click(
                 fn=detect_objects_on_image,
@@ -754,18 +745,17 @@ def build_interface():
             )
         with gr.Tab("Сегментация"):
-            gr.Markdown("## Image Segmentation (SegFormer)")
             with gr.Row():
-                with gr.Column():
-                    segmentation_input_image = gr.Image(
-                        label="Загрузите изображение",
-                        type="pil",
-                    )
-                    segmentation_button = gr.Button("Сегментировать")
-                with gr.Column():
-                    segmentation_output_image = gr.Image(
-                        label="Маска сегментации",
-                    )
             segmentation_button.click(
                 fn=segment_image,
@@ -773,19 +763,19 @@ def build_interface():
                 outputs=segmentation_output_image,
             )
-        with gr.Tab("Глубина (Depth Estimation)"):
-            gr.Markdown("## Depth Estimation (DPT)")
             with gr.Row():
-                with gr.Column():
-                    depth_input_image = gr.Image(
-                        label="Загрузите изображение",
-                        type="pil",
-                    )
-                    depth_button = gr.Button("Оценить глубину")
-                with gr.Column():
-                    depth_output_image = gr.Image(
-                        label="Карта глубины",
-                    )
             depth_button.click(
                 fn=estimate_image_depth,
@@ -794,31 +784,30 @@ def build_interface():
             )
         with gr.Tab("Описание изображений"):
-            gr.Markdown("## Image Captioning")
             with gr.Row():
-                with gr.Column():
-                    caption_input_image = gr.Image(
-                        label="Загрузите изображение",
-                        type="pil",
-                    )
-                    caption_model_selector = gr.Dropdown(
-                        choices=[
-                            "captioning_blip_base",
-                            "captioning_blip_large",
-                        ],
-                        label="Модель captioning",
-                        value="captioning_blip_base",
-                        info=(
-                            "captioning_blip_base  - Salesforce/blip-image-captioning-base (курс)\n"
-                            "captioning_blip_large - Salesforce/blip-image-captioning-large (альтернатива)"
-                        ),
-                    )
-                    caption_button = gr.Button("Сгенерировать описание")
-                with gr.Column():
-                    caption_output_text = gr.Textbox(
-                        label="Описание изображения",
-                        lines=3,
-                    )
             caption_button.click(
                 fn=generate_image_caption,
@@ -829,34 +818,33 @@ def build_interface():
         with gr.Tab("Визуальные вопросы"):
             gr.Markdown("## Visual Question Answering")
             with gr.Row():
-                with gr.Column():
-                    vqa_input_image = gr.Image(
-                        label="Загрузите изображение",
-                        type="pil",
-                    )
-                    vqa_question_text = gr.Textbox(
-                        label="Вопрос об изображении",
-                        placeholder="Что происходит на этом изображении?",
-                        lines=2,
-                    )
-                    vqa_model_selector = gr.Dropdown(
-                        choices=[
-                            "vqa_blip_base",
-                            "vqa_vilt_b32",
-                        ],
-                        label="Модель VQA",
-                        value="vqa_blip_base",
-                        info=(
-                            "vqa_blip_base - Salesforce/blip-vqa-base (курс)\n"
-                            "vqa_vilt_b32  - dandelin/vilt-b32-finetuned-vqa (альтернатива)"
-                        ),
-                    )
-                    vqa_button = gr.Button("Ответить на вопрос")
-                with gr.Column():
-                    vqa_output_text = gr.Textbox(
-                        label="Ответ",
-                        lines=3,
-                    )
             vqa_button.click(
                 fn=answer_visual_question,
@@ -865,36 +853,35 @@ def build_interface():
             )
         with gr.Tab("Zero-Shot классификация"):
-            gr.Markdown("## Zero-Shot Image Classification")
             with gr.Row():
-                with gr.Column():
-                    zero_shot_input_image = gr.Image(
-                        label="Загрузите изображение",
-                        type="pil",
-                    )
-                    zero_shot_classes_text = gr.Textbox(
-                        label="Классы для классификации (через запятую)",
-                        placeholder="человек, машина, дерево, здание, животное",
-                        lines=2,
-                    )
-                    clip_model_selector = gr.Dropdown(
-                        choices=[
-                            "clip_large_patch14",
-                            "clip_base_patch32",
-                        ],
-                        label="CLIP модель",
-                        value="clip_large_patch14",
-                        info=(
-                            "clip_large_patch14 - openai/clip-vit-large-patch14 (курс)\n"
-                            "clip_base_patch32  - openai/clip-vit-base-patch32 (альтернатива)"
-                        ),
-                    )
-                    zero_shot_button = gr.Button("Классифицировать")
-                with gr.Column():
-                    zero_shot_output_text = gr.Textbox(
-                        label="Результаты классификации",
-                        lines=10,
-                    )
             zero_shot_button.click(
                 fn=perform_zero_shot_classification,
@@ -903,40 +890,40 @@ def build_interface():
             )
         with gr.Tab("Поиск изображений"):
-            gr.Markdown("## Image Retrieval")
             with gr.Row():
-                with gr.Column():
-                    retrieval_dir = gr.File(
-                        label="Загрузите папку с изображениями",
-                        file_count="directory",
-                        file_types=["image"],
-                        type="filepath",
-                    )
-                    retrieval_query_text = gr.Textbox(
-                        label="Текстовый запрос",
-                        placeholder="описание того, что вы ищете...",
-                        lines=2,
-                    )
-                    retrieval_clip_selector = gr.Dropdown(
-                        choices=[
-                            "clip_large_patch14",
-                            "clip_base_patch32",
-                        ],
-                        label="CLIP модель",
-                        value="clip_large_patch14",
-                        info=(
-                            "clip_large_patch14 - openai/clip-vit-large-patch14 (курс)\n"
-                            "clip_base_patch32  - openai/clip-vit-base-patch32 (альтернатива)"
-                        ),
-                    )
-                    retrieval_button = gr.Button("Найти изображение")
-                with gr.Column():
-                    retrieval_output_text = gr.Textbox(
-                        label="Результат поиска",
-                    )
-                    retrieval_output_image = gr.Image(
-                        label="Найденное изображение",
-                    )
             retrieval_button.click(
                 fn=retrieve_best_image,
@@ -948,9 +935,9 @@ def build_interface():
         gr.Markdown("### Задачи:")
         gr.Markdown(
             """
-- Аудио: классификация (supervised и zero-shot через CLAP), распознавание речи, синтез речи
-- Компьютерное зрение: детекция объектов, семантическая сегментация (SegFormer), оценка глубины (DPT), интерактивная сегментация по точкам (SlimSAM), генерация описаний изображений
-- Мультимодальные задачи: визуальные вопросы (VQA), zero-shot классификация изображений, поиск по изображениям по текстовому запросу
             """
         )
     return demo_block

             )
             return file_object.name
+    raise ValueError(f"Неизвестная модель: {model_key}")
 def build_interface():
     with gr.Blocks(title="Multimodal AI Demo", theme=gr.themes.Soft()) as demo_block:
+        gr.Markdown("# AI модели")
         with gr.Tab("Классификация аудио"):
+            gr.Markdown("## Классификация аудио")
             with gr.Row():
+                audio_input_component = gr.Audio(
+                    label="Загрузите аудиофайл",
+                    type="filepath",
+                )
+                audio_model_selector = gr.Dropdown(
+                    choices=["audio_classifier", "emotion_classifier"],
+                    label="Выберите модель",
+                    value="audio_classifier",
+                    info=(
+                        "audio_classifier - общая классификация (курс)"
+                        "emotion_classifier - эмоции в речи "
+                    ),
+                )
+                audio_classify_button = gr.Button("Применить")
+                audio_output_component = gr.Textbox(
+                    label="Результаты классификации",
+                    lines=10,
+                )
             audio_classify_button.click(
                 fn=classify_audio_file,
                 outputs=audio_output_component,
             )
+        with gr.Tab("Zero-Shot аудио"):
+            gr.Markdown("## Zero-Shot аудио классификатор")
             with gr.Row():
+                clap_audio_input_component = gr.Audio(
+                    label="Загрузите аудиофайл",
+                    type="filepath",
+                )
+                clap_label_texts_component = gr.Textbox(
+                    label="Кандидатные метки (через запятую)",
+                    placeholder="лай собаки, шум дождя, музыка, разговор",
+                    lines=2,
+                )
+                clap_button = gr.Button("Применить")
+                clap_output_component = gr.Textbox(
+                    label="Результаты zero-shot классификации",
+                    lines=10,
+                )
             clap_button.click(
                 fn=classify_audio_zero_shot_clap,
             )
         with gr.Tab("Распознавание речи"):
+            gr.Markdown("## Распознавание реч")
             with gr.Row():
+                asr_audio_input_component = gr.Audio(
+                    label="Загрузите аудио с речью",
+                    type="filepath",
+                )
+                asr_model_selector = gr.Dropdown(
+                    choices=["whisper", "wav2vec2"],
+                    label="Выберите модель",
+                    value="whisper",
+                    info=(
+                        "whisper  - distil-whisper/distil-small.en (курс),\n"
+                        "wav2vec2 - openai/whisper-small"
+                    ),
+                )
+                asr_button = gr.Button("Применить")
+                asr_output_component = gr.Textbox(
+                    label="Транскрипция",
+                    lines=5,
+                )
             asr_button.click(
                 fn=recognize_speech,
         with gr.Tab("Синтез речи"):
             gr.Markdown("## Text-to-Speech")
             with gr.Row():
+                tts_text_component = gr.Textbox(
+                    label="Введите текст для синтеза",
+                    placeholder="Введите текст на русском или английском языке...",
+                    lines=3,
+                )
+                tts_model_selector = gr.Dropdown(
+                    choices=["vits-ljs", "Google TTS"],
+                    label="Выберите модель",
+                    value="vits-ljs",
+                    info=(
+                        "kakao-enterprise/vits-ljs\n"
+                        "Google TTS"
+                    ),
+                )
+                tts_button = gr.Button("Применить")
+                tts_audio_output_component = gr.Audio(
+                    label="Синтезированная речь",
+                    type="filepath",
+                )
             tts_button.click(
                 fn=synthesize_speech,
             )
         with gr.Tab("Детекция объектов"):
+            gr.Markdown("## Детекция объектов")
             with gr.Row():
+                object_input_image = gr.Image(
+                    label="Загрузите изображение",
+                    type="pil",
+                )
+                object_model_selector = gr.Dropdown(
+                    choices=[
+                        "object_detection_conditional_detr",
+                        "object_detection_yolos_small",
+                    ],
+                    label="Модель",
+                    value="object_detection_conditional_detr",
+                    info=(
+                        "object_detection_conditional_detr - microsoft/conditional-detr-resnet-50\n"
+                        "object_detection_yolos_small       - hustvl/yolos-small"
+                    ),
+                )
+                object_detect_button = gr.Button("Применить")
+                object_output_image = gr.Image(
+                    label="Результат",
+                )
             object_detect_button.click(
                 fn=detect_objects_on_image,
             )
         with gr.Tab("Сегментация"):
+            gr.Markdown("## Сегментация")
             with gr.Row():
+                segmentation_input_image = gr.Image(
+                    label="Загрузите изображение",
+                    type="pil",
+                )
+                segmentation_button = gr.Button("Применить")
+                segmentation_output_image = gr.Image(
+                    label="Маска",
+                )
             segmentation_button.click(
                 fn=segment_image,
                 outputs=segmentation_output_image,
             )
+        with gr.Tab("Глубина"):
+            gr.Markdown("## Глубина (Depth Estimation)")
             with gr.Row():
+                depth_input_image = gr.Image(
+                    label="Загрузите изображение",
+                    type="pil",
+                )
+                depth_button = gr.Button("Применить")
+                depth_output_image = gr.Image(
+                    label="Глубины",
+                )
             depth_button.click(
                 fn=estimate_image_depth,
             )
         with gr.Tab("Описание изображений"):
+            gr.Markdown("## Описание изображений")
             with gr.Row():
+                caption_input_image = gr.Image(
+                    label="Загрузите изображение",
+                    type="pil",
+                )
+                caption_model_selector = gr.Dropdown(
+                    choices=[
+                        "captioning_blip_base",
+                        "captioning_blip_large",
+                    ],
+                    label="Модель",
+                    value="captioning_blip_base",
+                    info=(
+                        "captioning_blip_base  - Salesforce/blip-image-captioning-base (курс)\n"
+                        "captioning_blip_large - Salesforce/blip-image-captioning-large"
+                    ),
+                )
+                caption_button = gr.Button("Применить")
+                caption_output_text = gr.Textbox(
+                    label="Описание изображения",
+                    lines=3,
+                )
             caption_button.click(
                 fn=generate_image_caption,
         with gr.Tab("Визуальные вопросы"):
             gr.Markdown("## Visual Question Answering")
             with gr.Row():
+                vqa_input_image = gr.Image(
+                    label="Загрузите изображение",
+                    type="pil",
+                )
+                vqa_question_text = gr.Textbox(
+                    label="Вопрос",
+                    placeholder="Вопрос",
+                    lines=2,
+                )
+                vqa_model_selector = gr.Dropdown(
+                    choices=[
+                        "vqa_blip_base",
+                        "vqa_vilt_b32",
+                    ],
+                    label="Модель",
+                    value="vqa_blip_base",
+                    info=(
+                        "vqa_blip_base - Salesforce/blip-vqa-base (курс)\n"
+                        "vqa_vilt_b32  - dandelin/vilt-b32-finetuned-vqa"
+                    ),
+                )
+                vqa_button = gr.Button("Ответить на вопрос")
+                vqa_output_text = gr.Textbox(
+                    label="Ответ",
+                    lines=3,
+                )
             vqa_button.click(
                 fn=answer_visual_question,
             )
         with gr.Tab("Zero-Shot классификация"):
+            gr.Markdown("## Zero-Shot классификация")
             with gr.Row():
+                zero_shot_input_image = gr.Image(
+                    label="Загрузите изображение",
+                    type="pil",
+                )
+                zero_shot_classes_text = gr.Textbox(
+                    label="Классы для классификации (через запятую)",
+                    placeholder="человек, машина, дерево, здание, животное",
+                    lines=2,
+                )
+                clip_model_selector = gr.Dropdown(
+                    choices=[
+                        "clip_large_patch14",
+                        "clip_base_patch32",
+                    ],
+                    label="модель",
+                    value="clip_large_patch14",
+                    info=(
+                        "clip_large_patch14 - openai/clip-vit-large-patch14 (курс)\n"
+                        "clip_base_patch32  - openai/clip-vit-base-patch32"
+                    ),
+                )
+                zero_shot_button = gr.Button("Применить")
+                zero_shot_output_text = gr.Textbox(
+                    label="Результаты",
+                    lines=10,
+                )
             zero_shot_button.click(
                 fn=perform_zero_shot_classification,
             )
         with gr.Tab("Поиск изображений"):
+            gr.Markdown("## Поиск изображений")
             with gr.Row():
+                retrieval_dir = gr.File(
+                    label="Загрузите папку с изображениями",
+                    file_count="directory",
+                    file_types=["image"],
+                    type="filepath",
+                )
+                retrieval_query_text = gr.Textbox(
+                    label="Текстовый запрос",
+                    placeholder="описание того, что вы ищете...",
+                    lines=2,
+                )
+                retrieval_clip_selector = gr.Dropdown(
+                    choices=[
+                        "clip_large_patch14",
+                        "clip_base_patch32",
+                    ],
+                    label="модель",
+                    value="clip_large_patch14",
+                    info=(
+                        "clip_large_patch14 - openai/clip-vit-large-patch14 (курс)\n"
+                        "clip_base_patch32  - openai/clip-vit-base-patch32 (альтернатива)"
+                    ),
+                )
+                retrieval_button = gr.Button("Поиск")
+                retrieval_output_text = gr.Textbox(
+                    label="Результат",
+                )
+                retrieval_output_image = gr.Image(
+                    label="Наиболее подходящее изображение",
+                )
             retrieval_button.click(
                 fn=retrieve_best_image,
         gr.Markdown("### Задачи:")
         gr.Markdown(
             """
+- Аудио: классификация, распознавание речи, синтез речи
+- Компьютерное зрение: детекция объектов, сегментация, оценка глубины, генерация описаний изображений
+- Мультимодальные задачи: вопросы к изображению, zero-shot классификация изображений, поиск по изображениям по текстовому запросу
             """
         )
     return demo_block