Spaces:

TiberiuCristianLeon
/

StreamlitTranslate

Running

App Files Files

TiberiuCristianLeon commited on 27 days ago

Commit

96bc282

verified ·

1 Parent(s): 0fa74bc

Added alirezamsh/small100, salamandrata pipe, remove Llamax 8b too big and slow

Browse files

Files changed (1) hide show

app.py +22 -10

app.py CHANGED Viewed

@@ -38,19 +38,18 @@ models = ["Helsinki-NLP", "QUICKMT", "Argos", "Lego-MT/Lego-MT", "HPLT", "HPLT-O
           "Helsinki-NLP/opus-mt-tc-bible-big-roa-en",
           "facebook/nllb-200-distilled-600M", "facebook/nllb-200-distilled-1.3B", "facebook/nllb-200-1.3B", "facebook/nllb-200-3.3B",
           "facebook/mbart-large-50-many-to-many-mmt", "facebook/mbart-large-50-one-to-many-mmt", "facebook/mbart-large-50-many-to-one-mmt",
-          "facebook/m2m100_418M", "facebook/m2m100_1.2B",
           "bigscience/mt0-small", "bigscience/mt0-base", "bigscience/mt0-large", "bigscience/mt0-xl",
           "bigscience/bloomz-560m", "bigscience/bloomz-1b1", "bigscience/bloomz-1b7", "bigscience/bloomz-3b",
           "t5-small", "t5-base", "t5-large",
           "google/flan-t5-small", "google/flan-t5-base", "google/flan-t5-large", "google/flan-t5-xl",
           "google/madlad400-3b-mt", "Heng666/madlad400-3b-mt-ct2", "Heng666/madlad400-3b-mt-ct2-int8", "Heng666/madlad400-7b-mt-ct2-int8",
-          "BSC-LT/salamandraTA-2b-instruct", "BSC-LT/salamandraTA-7b-instruct",
           "utter-project/EuroLLM-1.7B", "utter-project/EuroLLM-1.7B-Instruct",
          "Unbabel/Tower-Plus-2B", "Unbabel/TowerInstruct-7B-v0.2", "Unbabel/TowerInstruct-Mistral-7B-v0.2",
-          "HuggingFaceTB/SmolLM3-3B", "LLaMAX/LLaMAX3-8B",
           "winninghealth/WiNGPT-Babel-2-1", "winninghealth/WiNGPT-Babel-2", "winninghealth/WiNGPT-Babel",
-         "tencent/Hunyuan-MT-7B",
-         "openGPT-X/Teuken-7B-instruct-commercial-v0.4", "openGPT-X/Teuken-7B-instruct-v0.6",
          ]
 class Translators:
     def __init__(self, model_name: str, sl: str, tl: str, input_text: str):
@@ -214,10 +213,9 @@ class Translators:
     def salamandratapipe(self):
         pipe = pipeline("text-generation", model=self.model_name)
         messages = [{"role": "user", "content": f"Translate the following text from {self.sl} into {self.tl}.\n{self.sl}: {self.input_text} \n{self.tl}:"}]
-        return pipe(messages)[0]["generated_text"]
     def salamandrata(self):
-        # from datetime import datetime
         text = f"Translate the following text from {self.sl} into {self.tl}.\n{self.sl}: {self.input_text} \n{self.tl}:"
         tokenizer = AutoTokenizer.from_pretrained(self.model_name)
         model = AutoModelForCausalLM.from_pretrained(
@@ -225,7 +223,8 @@ class Translators:
             device_map="auto",
             torch_dtype=torch.bfloat16
           )
-        message = [ { "role": "user", "content": text } ]
         # date_string = datetime.today().strftime('%Y-%m-%d')
         prompt = tokenizer.apply_chat_template(
             message,
@@ -283,6 +282,16 @@ class Translators:
         generated_tokens = model.generate(**encoded, forced_bos_token_id=tokenizer.get_lang_id(self.tl))
         return tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
     def madlad(self):
         model = T5ForConditionalGeneration.from_pretrained(self.model_name, device_map="auto")
         tokenizer = T5Tokenizer.from_pretrained(self.model_name)
@@ -598,9 +607,9 @@ def translate_text(model_name: str, s_language: str, t_language: str, input_text
         elif "HPLT" in model_name:
             if model_name == "HPLT-OPUS":
-                translated_text, message = Translators(model_name, sl, tl, input_text).hplt(opus = True)
             else:
-                translated_text, message = Translators(model_name, sl, tl, input_text).hplt()
         elif model_name == 'Argos':
             translated_text = Translators(model_name, sl, tl, input_text).argos()
@@ -611,6 +620,9 @@ def translate_text(model_name: str, s_language: str, t_language: str, input_text
         elif "salamandra" in model_name.lower():
             translated_text = Translators(model_name, s_language, t_language, input_text).salamandratapipe()
         elif "m2m" in model_name.lower():
             translated_text = Translators(model_name, sl, tl, input_text).mtom()

           "Helsinki-NLP/opus-mt-tc-bible-big-roa-en",
           "facebook/nllb-200-distilled-600M", "facebook/nllb-200-distilled-1.3B", "facebook/nllb-200-1.3B", "facebook/nllb-200-3.3B",
           "facebook/mbart-large-50-many-to-many-mmt", "facebook/mbart-large-50-one-to-many-mmt", "facebook/mbart-large-50-many-to-one-mmt",
+          "facebook/m2m100_418M", "facebook/m2m100_1.2B", "alirezamsh/small100",
           "bigscience/mt0-small", "bigscience/mt0-base", "bigscience/mt0-large", "bigscience/mt0-xl",
           "bigscience/bloomz-560m", "bigscience/bloomz-1b1", "bigscience/bloomz-1b7", "bigscience/bloomz-3b",
           "t5-small", "t5-base", "t5-large",
           "google/flan-t5-small", "google/flan-t5-base", "google/flan-t5-large", "google/flan-t5-xl",
           "google/madlad400-3b-mt", "Heng666/madlad400-3b-mt-ct2", "Heng666/madlad400-3b-mt-ct2-int8", "Heng666/madlad400-7b-mt-ct2-int8",
+          "BSC-LT/salamandraTA-2b-instruct", "BSC-LT/salamandraTA-7b-instruct", "BSC-LT/salamandraTA-2B-academic", "BSC-LT/salamandraTA-7B-academic",
           "utter-project/EuroLLM-1.7B", "utter-project/EuroLLM-1.7B-Instruct",
          "Unbabel/Tower-Plus-2B", "Unbabel/TowerInstruct-7B-v0.2", "Unbabel/TowerInstruct-Mistral-7B-v0.2",
+          "HuggingFaceTB/SmolLM3-3B",
           "winninghealth/WiNGPT-Babel-2-1", "winninghealth/WiNGPT-Babel-2", "winninghealth/WiNGPT-Babel",
+         "tencent/Hunyuan-MT-7B", "openGPT-X/Teuken-7B-instruct-commercial-v0.4", "openGPT-X/Teuken-7B-instruct-v0.6",
          ]
 class Translators:
     def __init__(self, model_name: str, sl: str, tl: str, input_text: str):
     def salamandratapipe(self):
         pipe = pipeline("text-generation", model=self.model_name)
         messages = [{"role": "user", "content": f"Translate the following text from {self.sl} into {self.tl}.\n{self.sl}: {self.input_text} \n{self.tl}:"}]
+        return pipe(messages)[0]["generated_text"][1]["content"]
     def salamandrata(self):
         text = f"Translate the following text from {self.sl} into {self.tl}.\n{self.sl}: {self.input_text} \n{self.tl}:"
         tokenizer = AutoTokenizer.from_pretrained(self.model_name)
         model = AutoModelForCausalLM.from_pretrained(
             device_map="auto",
             torch_dtype=torch.bfloat16
           )
+        message = [{"role": "user", "content": text}]
+        # from datetime import datetime
         # date_string = datetime.today().strftime('%Y-%m-%d')
         prompt = tokenizer.apply_chat_template(
             message,
         generated_tokens = model.generate(**encoded, forced_bos_token_id=tokenizer.get_lang_id(self.tl))
         return tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
+    def smallonehundred(self):
+        from transformers import M2M100ForConditionalGeneration
+        from tokenization_small100 import SMALL100Tokenizer
+        model = M2M100ForConditionalGeneration.from_pretrained(self.model_name)
+        tokenizer = SMALL100Tokenizer.from_pretrained(self.model_name)
+        tokenizer.tgt_lang = self.tl
+        encoded_sl = tokenizer(self.input_text, return_tensors="pt")
+        generated_tokens = model.generate(**encoded_sl, max_length=256, num_beams=5)
+        return tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
     def madlad(self):
         model = T5ForConditionalGeneration.from_pretrained(self.model_name, device_map="auto")
         tokenizer = T5Tokenizer.from_pretrained(self.model_name)
         elif "HPLT" in model_name:
             if model_name == "HPLT-OPUS":
+                translated_text, message_text = Translators(model_name, sl, tl, input_text).hplt(opus = True)
             else:
+                translated_text, message_text = Translators(model_name, sl, tl, input_text).hplt()
         elif model_name == 'Argos':
             translated_text = Translators(model_name, sl, tl, input_text).argos()
         elif "salamandra" in model_name.lower():
             translated_text = Translators(model_name, s_language, t_language, input_text).salamandratapipe()
+        elif "small100" in model_name.lower():
+            translated_text = Translators(model_name, sl, tl, input_text).smallonehundred()
         elif "m2m" in model_name.lower():
             translated_text = Translators(model_name, sl, tl, input_text).mtom()