Spaces:

sadovsky
/

MBTI

Sleeping

App Files Files Community

QAway-to commited on Oct 26

Commit

f12b1ae

1 Parent(s): 0611243

New model T5 type. app.py v1.6

Browse files

Files changed (2) hide show

app.py +26 -18
core/interviewer.py +88 -61

app.py CHANGED Viewed

@@ -6,14 +6,21 @@ from core.utils import generate_first_question
 from core.mbti_analyzer import analyze_mbti
 from core.interviewer import generate_question, session_state
-async def async_loader(progress_fn):
-    """Асинхронный loader-аниматор (вращающиеся точки)."""
     frames = cycle(["⠋", "⠙", "⠹", "⠸", "⠼", "⠴", "⠦", "⠧", "⠇", "⠏"])
-    for _ in range(10):
-        await asyncio.sleep(0.2)
-        progress_fn(next(frames))
-def analyze_and_ask(user_text, prev_count, progress=gr.Progress(track_tqdm=True)):
     if not user_text.strip():
         yield "⚠️ Please enter your answer.", "", prev_count
         return
@@ -25,24 +32,20 @@ def analyze_and_ask(user_text, prev_count, progress=gr.Progress(track_tqdm=True)
         n = 1
     counter = f"{n}/8"
-    # 1️⃣ Первое сообщение — мгновенно
     yield "⏳ Analyzing personality...", "💭 Interviewer is thinking... ⠋", counter
-    # 2️⃣ Анимация лоадера в фоне
-    loop = asyncio.new_event_loop()
-    asyncio.set_event_loop(loop)
-    loop.create_task(async_loader(lambda f: None))
-    # 3️⃣ Анализ MBTI
     mbti_gen = analyze_mbti(user_text)
     mbti_text = ""
     for chunk in mbti_gen:
         mbti_text = chunk
-        yield mbti_text, "💭 Interviewer is thinking... ⠙", counter
-    # 4️⃣ Генерация вопроса
-    question = generate_question(user_id)
     if question.startswith("✅ All"):
         yield f"{mbti_text}\n\nSession complete.", "🎯 All MBTI axes covered.", "8/8"
         return
@@ -50,8 +53,9 @@ def analyze_and_ask(user_text, prev_count, progress=gr.Progress(track_tqdm=True)
     # 5️⃣ Финальный вывод
     yield mbti_text, question, counter
 # --------------------------------------------------------------
-# UI
 # --------------------------------------------------------------
 with gr.Blocks(theme=gr.themes.Soft(), title="MBTI Personality Interviewer") as demo:
     gr.Markdown(
@@ -67,11 +71,13 @@ with gr.Blocks(theme=gr.themes.Soft(), title="MBTI Personality Interviewer") as
                 lines=4
             )
             btn = gr.Button("Анализировать и задать новый вопрос", variant="primary")
         with gr.Column(scale=1):
             mbti_out = gr.Textbox(label="📊 Анализ MBTI", lines=4)
             interviewer_out = gr.Textbox(label="💬 Следующий вопрос", lines=3)
             progress = gr.Textbox(label="⏳ Прогресс", value="0/8")
     btn.click(
         analyze_and_ask,
         inputs=[inp, progress],
@@ -79,10 +85,12 @@ with gr.Blocks(theme=gr.themes.Soft(), title="MBTI Personality Interviewer") as
         show_progress=True
     )
     demo.load(
         lambda: ("", generate_first_question(), "0/8"),
         inputs=None,
         outputs=[mbti_out, interviewer_out, progress]
     )
-demo.queue(max_size=20).launch(server_name="0.0.0.0", server_port=7860)

 from core.mbti_analyzer import analyze_mbti
 from core.interviewer import generate_question, session_state
+# --------------------------------------------------------------
+# 🌀 Асинхронная анимация "Thinking..."
+# --------------------------------------------------------------
+async def async_loader(update_fn, delay=0.15):
     frames = cycle(["⠋", "⠙", "⠹", "⠸", "⠼", "⠴", "⠦", "⠧", "⠇", "⠏"])
+    for frame in frames:
+        update_fn(f"💭 Interviewer is thinking... {frame}")
+        await asyncio.sleep(delay)
+# --------------------------------------------------------------
+# ⚙️ Основная логика
+# --------------------------------------------------------------
+def analyze_and_ask(user_text, prev_count):
     if not user_text.strip():
         yield "⚠️ Please enter your answer.", "", prev_count
         return
         n = 1
     counter = f"{n}/8"
+    # 1️⃣ Мгновенная реакция — "анализ начинается"
     yield "⏳ Analyzing personality...", "💭 Interviewer is thinking... ⠋", counter
+    # 2️⃣ Анализ MBTI
     mbti_gen = analyze_mbti(user_text)
     mbti_text = ""
     for chunk in mbti_gen:
         mbti_text = chunk
+        yield mbti_text, "💭 Interviewer is thinking... ⠹", counter
+    # 3️⃣ Генерация вопроса
+    question = generate_question(user_id=user_id, user_answer=user_text)
+    # 4️⃣ Проверяем завершение сессии
     if question.startswith("✅ All"):
         yield f"{mbti_text}\n\nSession complete.", "🎯 All MBTI axes covered.", "8/8"
         return
     # 5️⃣ Финальный вывод
     yield mbti_text, question, counter
 # --------------------------------------------------------------
+# 🧱 Интерфейс Gradio
 # --------------------------------------------------------------
 with gr.Blocks(theme=gr.themes.Soft(), title="MBTI Personality Interviewer") as demo:
     gr.Markdown(
                 lines=4
             )
             btn = gr.Button("Анализировать и задать новый вопрос", variant="primary")
         with gr.Column(scale=1):
             mbti_out = gr.Textbox(label="📊 Анализ MBTI", lines=4)
             interviewer_out = gr.Textbox(label="💬 Следующий вопрос", lines=3)
             progress = gr.Textbox(label="⏳ Прогресс", value="0/8")
+    # Асинхронная обработка
     btn.click(
         analyze_and_ask,
         inputs=[inp, progress],
         show_progress=True
     )
+    # Стартовый вопрос при загрузке
     demo.load(
         lambda: ("", generate_first_question(), "0/8"),
         inputs=None,
         outputs=[mbti_out, interviewer_out, progress]
     )
+# Очередь нужна для стриминга, но без старого аргумента concurrency_count
+demo.queue(max_size=32).launch(server_name="0.0.0.0", server_port=7860)

core/interviewer.py CHANGED Viewed

@@ -1,82 +1,109 @@
 # core/interviewer.py
 import random
-import itertools
-from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
-INTERVIEWER_MODEL = "f3nsmart/TinyLlama-MBTI-Interviewer-LoRA"
-tokenizer = AutoTokenizer.from_pretrained(INTERVIEWER_MODEL)
-model = AutoModelForCausalLM.from_pretrained(
-    INTERVIEWER_MODEL, torch_dtype="auto", device_map="auto"
-)
-llm_pipe = pipeline(
-    "text-generation",
     model=model,
     tokenizer=tokenizer,
-    max_new_tokens=70,
-    temperature=0.6,
-    top_p=0.9,
 )
 CATEGORIES = [
-    "Introversion", "Extroversion",
-    "Sensing", "Intuition",
-    "Thinking", "Feeling",
-    "Judging", "Perceiving"
 ]
 session_state = {}
 def init_session(user_id: str):
-    session_state[user_id] = {"asked": [], "answers": {}, "iteration": 1}
-def select_next_category(user_id: str):
-    s = session_state[user_id]
-    remaining = [c for c in CATEGORIES if c not in s["asked"]]
-    if not remaining:
-        return None
-    next_cat = random.choice(remaining)
-    s["asked"].append(next_cat)
-    return next_cat
-def build_prompt(category: str):
-    # ✅ Новый, более "демонстративный" промпт:
-    return (
-        f"You are a friendly MBTI interviewer.\n"
-        f"Ask one short, open-ended question that explores {category.lower()}.\n"
-        f"Examples: 'What makes you feel most energized in social situations?'\n"
-        f"Output only the question, without quotes, without explanations."
-    )
-def clean_question(text: str) -> str:
-    """Удаляет инструкции и оставляет только вопрос."""
-    text = text.strip()
-    # убираем строки с 'ask', 'instruction' и т.п.
-    bad_phrases = ["ask", "instruction", "output only", "question about", "you are"]
-    for phrase in bad_phrases:
-        if phrase.lower() in text.lower():
-            # берём только часть после последнего примера знака '?'
-            if '?' in text:
-                text = text.split('?')[-1]
-            else:
-                text = text.replace(phrase, '')
-    text = text.strip().strip('"').strip("'")
-    if not text.endswith("?"):
-        text += "?"
-    return text
-def generate_question(user_id: str) -> str:
-    """Генерация нового вопроса по категории."""
     if user_id not in session_state:
         init_session(user_id)
-    category = select_next_category(user_id)
-    if not category:
         return "✅ All 8 categories completed."
-    prompt = build_prompt(category)
-    raw = llm_pipe(prompt)[0]["generated_text"]
-    question = clean_question(raw)
-    return f"({category}) {question}"

 # core/interviewer.py
 import random
+import difflib
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
+# Выбери одну
+QG_MODEL = "mrm8488/t5-small-finetuned-question-generation-ap"
+# QG_MODEL = "google/flan-t5-small"
+# QG_MODEL = "iarfmoose/t5-base-question-generator"
+tokenizer = AutoTokenizer.from_pretrained(QG_MODEL)
+model = AutoModelForSeq2SeqLM.from_pretrained(QG_MODEL)
+qg = pipeline(
+    "text2text-generation",
     model=model,
     tokenizer=tokenizer,
+    max_new_tokens=40,
+    num_beams=4,
+    no_repeat_ngram_size=4
 )
 CATEGORIES = [
+    "Introversion","Extroversion",
+    "Sensing","Intuition",
+    "Thinking","Feeling",
+    "Judging","Perceiving"
 ]
+# Простенькая “память” с защитой от повторов
 session_state = {}
 def init_session(user_id: str):
+    session_state[user_id] = {"asked": [], "answers": {}, "questions": []}
+def _too_similar(q: str, prev: list[str], thresh=0.86) -> bool:
+    qn = q.lower().strip()
+    for p in prev:
+        if difflib.SequenceMatcher(None, qn, p.lower().strip()).ratio() >= thresh:
+            return True
+    return False
+def _clean(q: str) -> str:
+    q = q.strip().strip('"').strip("'")
+    # вырезаем префиксы вроде "question:", "generate a question:", etc.
+    bad = ["question:", "generate a question", "ask", "instruction", "output only", "you are"]
+    low = q.lower()
+    for b in bad:
+        if b in low:
+            # берём правую часть после двоеточия если есть
+            if ":" in q:
+                q = q.split(":", 1)[-1]
+            q = q.replace(b, "")
+    q = q.strip()
+    if not q.endswith("?"):
+        q += "?"
+    # короткие/мусорные — фоллбэк
+    if len(q.split()) < 3:
+        return "What do you usually enjoy doing in your free time?"
+    return q
+def _template(category: str, user_answer: str) -> str:
+    """
+    T5 понимает краткие шаблоны лучше длинных инструкций.
+    Для разных моделей – чуть разные формулировки, но суть одна:
+    """
+    if "flan" in QG_MODEL:
+        # FLAN любит простые задачи в стиле instruction-tuning
+        return (
+            f"Generate one open-ended question about {category.lower()} based on the user's answer.\n"
+            f"User: {user_answer}\n"
+            f"Question:"
+        )
+    elif "question-generator" in QG_MODEL:
+        # Модель обучена на QG; ей достаточно контекста
+        return f"generate question: {user_answer} (topic: {category})"
+    else:
+        # very small QG
+        return f"answer: {user_answer} topic: {category} -> question"
+def generate_question(user_id: str, user_answer: str) -> str:
     if user_id not in session_state:
         init_session(user_id)
+    S = session_state[user_id]
+    # выбираем НЕспрошенную категорию
+    remaining = [c for c in CATEGORIES if c not in S["asked"]]
+    if not remaining:
         return "✅ All 8 categories completed."
+    category = random.choice(remaining)
+    # короткий, “неразговорчивый” шаблон (T5 такое любит)
+    prompt = _template(category, user_answer)
+    out = qg(prompt)[0]["generated_text"]
+    q = _clean(out)
+    # защита от повторов/перефразов
+    tries = 0
+    while _too_similar(q, S["questions"]) and tries < 3:
+        out = qg(prompt)[0]["generated_text"]
+        q = _clean(out)
+        tries += 1
+    S["asked"].append(category)
+    S["questions"].append(q)
+    return f"({category}) {q}"