Spaces:

DroolingPanda
/

teachingAssistant

Sleeping

App Files Files Community

Michael Hu commited on Jan 26

Commit

933cc7f

1 Parent(s): 2d46a24

tts is deprecated, use fish speech

Browse files

Files changed (5) hide show

app.py +1 -1
config/tts_config.yaml +13 -0
download_models.py +5 -0
requirements.txt +3 -6
utils/tts.py +45 -37

app.py CHANGED Viewed

@@ -55,7 +55,7 @@ def handle_file_processing(upload_path):
         # TTS Phase
         status_text.markdown("🎵 **Generating Chinese Speech...**")
-        output_path = generate_speech(chinese_text)
         progress_bar.progress(100)
         # Display results

         # TTS Phase
         status_text.markdown("🎵 **Generating Chinese Speech...**")
+        output_path = generate_speech(chinese_text,language="zh")
         progress_bar.progress(100)
         # Display results

config/tts_config.yaml ADDED Viewed

	@@ -0,0 +1,13 @@

+tts:
+  model: fish-speech-400m-v1
+  vocoder: hifigan-v1
+  device: auto
+  precision: fp16
+generation:
+  temperature: 0.7
+  top_k: 20
+  max_length: 4096
+  language_mapping:
+    zh: "[ZH]{text}[ZH]"
+    en: "[EN]{text}[EN]"

download_models.py ADDED Viewed

	@@ -0,0 +1,5 @@

+from fish_audio.sdk.utils import download_all_models
+if __name__ == "__main__":
+    download_all_models()
+    print("All models downloaded to ~/.cache/fish_audio")

requirements.txt CHANGED Viewed

@@ -4,10 +4,7 @@ nltk>=3.8
 librosa>=0.10
 soundfile>=0.12
 ffmpeg-python>=0.2
-torch>=2.0,<3.0
 transformers[audio]>=4.33
-TTS>=0.20,<1.0
-numpy<1.28  # 强制使用 NumPy 1.x 版本
-scipy~=1.11.0  # 与 NumPy 1.x 兼容的 SciPy 版本
-scikit-learn~=1.3.0  # 兼容旧版 NumPy 的 scikit-learn

 librosa>=0.10
 soundfile>=0.12
 ffmpeg-python>=0.2
 transformers[audio]>=4.33
+fish-audio-sdk>=0.0.7
+torch>=2.1.0
+torchaudio>=2.1.0

utils/tts.py CHANGED Viewed

@@ -1,46 +1,54 @@
-"""
-Text-to-Speech Module using YourTTS
-Handles speech synthesis and output generation
-"""
-from TTS.api import TTS
-import os
 import time
-def generate_speech(text):
-    """
-    Convert Chinese text to natural-sounding speech
-    Args:
-        text: Input Chinese text
-    Returns:
-        Path to generated audio file
-    """
-    # Initialize TTS engine
-    tts = TTS(
-        model_name="tts_models/multilingual/multi-dataset/your_tts",
-        progress_bar=False,
-        gpu=False
-    )
-    # Create unique output filename
-    output_path = os.path.join(
-        "temp/outputs",
-        f"output_{int(time.time())}.wav"
     )
-    # Use reference voice if available
-    ref_voice = (
-        "assets/reference_voice.wav"
-        if os.path.exists("assets/reference_voice.wav")
-        else None
-    )
-    # Generate speech output
-    tts.tts_to_file(
-        text=text,
-        speaker_wav=ref_voice,
-        language="zh-cn",
-        file_path=output_path
     )
     return output_path

 import time
+import yaml
+from pathlib import Path
+import torch
+from fish_audio.sdk import TextToSpeech, Vocoder
+from pydub import AudioSegment
+# Load config
+config_path = Path(__file__).parent.parent / "config" / "tts_config.yaml"
+with open(config_path) as f:
+    config = yaml.safe_load(f)
+# Initialize models
+tts_model = TextToSpeech(
+    model_name=config["tts"]["model"],
+    device=config["tts"]["device"],
+    precision=config["tts"]["precision"],
+)
+vocoder = Vocoder(
+    model_name=config["tts"]["vocoder"],
+    device=tts_model.device,
+)
+def generate_speech(text: str, language: str = "zh") -> str:
+    """Generate speech from text using Fish Audio SDK"""
+    # Format text with language tags
+    lang_template = config["generation"]["language_mapping"][language]
+    processed_text = lang_template.format(text=text)
+    # Generate mel spectrogram
+    mel = tts_model.generate(
+        text=processed_text,
+        temperature=config["generation"]["temperature"],
+        top_k=config["generation"]["top_k"],
+        max_length=config["generation"]["max_length"],
     )
+    # Convert mel to waveform
+    waveform = vocoder(mel)
+    # Create audio segment
+    audio = AudioSegment(
+        waveform.numpy().tobytes(),
+        frame_rate=vocoder.sample_rate,
+        sample_width=2,
+        channels=1,
     )
+    # Save output
+    output_path = f"temp/outputs/output_{int(time.time())}.wav"
+    audio.export(output_path, format="wav")
     return output_path