Spaces:

TiberiuCristianLeon
/

StreamlitTranslate

Running

App Files Files

TiberiuCristianLeon commited on Nov 11

Commit

4070cfe

verified ·

1 Parent(s): 9bf3bb5

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -1

app.py CHANGED Viewed

@@ -43,7 +43,8 @@ models = ["Helsinki-NLP", "QUICKMT", "Argos", "Lego-MT/Lego-MT", "HPLT", "HPLT-O
           "bigscience/bloomz-560m", "bigscience/bloomz-1b1", "bigscience/bloomz-1b7", "bigscience/bloomz-3b",
           "t5-small", "t5-base", "t5-large",
           "google/flan-t5-small", "google/flan-t5-base", "google/flan-t5-large", "google/flan-t5-xl",
-          "google/madlad400-3b-mt", "jbochi/madlad400-3b-mt", "Heng666/madlad400-3b-mt-ct2-int8",
           "utter-project/EuroLLM-1.7B", "utter-project/EuroLLM-1.7B-Instruct",
          "Unbabel/Tower-Plus-2B", "Unbabel/TowerInstruct-7B-v0.2", "Unbabel/TowerInstruct-Mistral-7B-v0.2",
           "HuggingFaceTB/SmolLM3-3B", "winninghealth/WiNGPT-Babel-2",
@@ -264,6 +265,29 @@ class Translators:
         translator = pipeline('translation', model=model, tokenizer=tokenizer, src_lang=self.sl, tgt_lang=self.tl)
         translated_text = translator(text, max_length=512)
         return translated_text[0]['translation_text']
     def smollm(self):
         tokenizer = AutoTokenizer.from_pretrained(self.model_name)
@@ -568,6 +592,9 @@ def translate_text(model_name: str, s_language: str, t_language: str, input_text
         elif 'madlad' in model_name.lower():
             translated_text = Translators(model_name, sl, tl, input_text).madlad()
         elif 'mt0' in model_name.lower():
             translated_text = Translators(model_name, s_language, t_language, input_text).bigscience()

           "bigscience/bloomz-560m", "bigscience/bloomz-1b1", "bigscience/bloomz-1b7", "bigscience/bloomz-3b",
           "t5-small", "t5-base", "t5-large",
           "google/flan-t5-small", "google/flan-t5-base", "google/flan-t5-large", "google/flan-t5-xl",
+          "google/madlad400-3b-mt", "jbochi/madlad400-3b-mt",
+          "Heng666/madlad400-3b-mt-ct2-int8", "Heng666/madlad400-7b-mt-ct2-int8",
           "utter-project/EuroLLM-1.7B", "utter-project/EuroLLM-1.7B-Instruct",
          "Unbabel/Tower-Plus-2B", "Unbabel/TowerInstruct-7B-v0.2", "Unbabel/TowerInstruct-Mistral-7B-v0.2",
           "HuggingFaceTB/SmolLM3-3B", "winninghealth/WiNGPT-Babel-2",
         translator = pipeline('translation', model=model, tokenizer=tokenizer, src_lang=self.sl, tgt_lang=self.tl)
         translated_text = translator(text, max_length=512)
         return translated_text[0]['translation_text']
+    def madladct2(self):
+        import ctranslate2
+        from sentencepiece import SentencePieceProcessor
+        from huggingface_hub import snapshot_download
+        model_path = snapshot_download(self.model_name)
+        tokenizer = SentencePieceProcessor()
+        tokenizer.load(f"{model_path}/sentencepiece.model")
+        translator = ctranslate2.Translator(model_path)
+        input_tokens = tokenizer.encode(f"<2{self.tl}> {self.input_text}", out_type=str)
+        results = translator.translate_batch(
+            [input_tokens],
+            batch_type="tokens",
+            max_batch_size=512,
+            beam_size=1,
+            no_repeat_ngram_size=1,
+            repetition_penalty=2,
+        )
+        translated_sentence = tokenizer.decode(results[0].hypotheses[0])
+        return translated_sentence)
     def smollm(self):
         tokenizer = AutoTokenizer.from_pretrained(self.model_name)
         elif 'madlad' in model_name.lower():
             translated_text = Translators(model_name, sl, tl, input_text).madlad()
+        elif 'mt-ct2-int8' in model_name.lower():
+            translated_text = Translators(model_name, sl, tl, input_text).madladct2()
         elif 'mt0' in model_name.lower():
             translated_text = Translators(model_name, s_language, t_language, input_text).bigscience()