GradioTranslate

Running

App Files Files

TiberiuCristianLeon commited on Aug 16

Commit

4dceed6

verified ·

1 Parent(s): 4bd448b

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -1

app.py CHANGED Viewed

@@ -26,6 +26,7 @@ models = ["Helsinki-NLP",
           "bigscience/bloomz-1b7",
           "bigscience/bloomz-3b",
           "utter-project/EuroLLM-1.7B",
           "Unbabel/Tower-Plus-2B",
           "Unbabel/TowerInstruct-7B-v0.2",
           "Unbabel/TowerInstruct-Mistral-7B-v0.2",
@@ -106,6 +107,17 @@ def eurollm(model_name, sl, tl, input_text):
     result = output.rsplit(f'{tl}:')[-1].strip()
     return result
 def nllb(model_name, sl, tl, input_text):
     tokenizer = AutoTokenizer.from_pretrained(model_name, src_lang=sl)
     model = AutoModelForSeq2SeqLM.from_pretrained(model_name, device_map="auto")
@@ -176,7 +188,11 @@ def translate_text(input_text: str, sselected_language: str, tselected_language:
                 model = model_to_cuda(AutoModelForSeq2SeqLM.from_pretrained(model_name))
             except EnvironmentError as error:
                 return f"Error finding model: {model_name}! Try other available language combination.", error
-    if 'eurollm' in model_name.lower():
         translated_text = eurollm(model_name, sselected_language, tselected_language, input_text)
         return translated_text, message_text

           "bigscience/bloomz-1b7",
           "bigscience/bloomz-3b",
           "utter-project/EuroLLM-1.7B",
+          "utter-project/EuroLLM-1.7B-Instruct",
           "Unbabel/Tower-Plus-2B",
           "Unbabel/TowerInstruct-7B-v0.2",
           "Unbabel/TowerInstruct-Mistral-7B-v0.2",
     result = output.rsplit(f'{tl}:')[-1].strip()
     return result
+def eurollm_instruct(model_name, sl, tl, input_text):
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForCausalLM.from_pretrained(model_name)
+    text = f'<|im_start|>system\n<|im_end|>\n<|im_start|>user\nTranslate the following {sl} source text to {tl}:\n{sl}: {input_text} \n{tl}: <|im_end|>\n<|im_start|>assistant\n'
+    inputs = tokenizer(text, return_tensors="pt")
+    outputs = model.generate(**inputs, max_new_tokens=256)
+    output = tokenizer.decode(outputs[0], skip_special_tokens=True))
+    if f'{tl}:' in output:
+        output = output.rsplit(f'{tl}:')[-1].strip()
+    return output
 def nllb(model_name, sl, tl, input_text):
     tokenizer = AutoTokenizer.from_pretrained(model_name, src_lang=sl)
     model = AutoModelForSeq2SeqLM.from_pretrained(model_name, device_map="auto")
                 model = model_to_cuda(AutoModelForSeq2SeqLM.from_pretrained(model_name))
             except EnvironmentError as error:
                 return f"Error finding model: {model_name}! Try other available language combination.", error
+    if model_name = "utter-project/EuroLLM-1.7B-Instruct":
+        translated_text = eurollm_instruct(model_name, sselected_language, tselected_language, input_text)
+        return translated_text, message_text
+    if model_name = "utter-project/EuroLLM-1.7B":
         translated_text = eurollm(model_name, sselected_language, tselected_language, input_text)
         return translated_text, message_text