Spaces:

tillfischer
/

aspect-sentiment-analyzer

Sleeping

App Files Files Community

Till Fischer commited on Jun 20

Commit

d96f744

1 Parent(s): ec6d3be

Update all changes

Browse files

Files changed (3) hide show

analyze_aspects.py +28 -36
app.py +3 -0
download_nltk_resources.py +4 -0

analyze_aspects.py CHANGED Viewed

@@ -4,6 +4,9 @@
 #python /Users/fischer/Desktop/HanserMVP/scraping/analyze_aspects.py --isbn "9783446264199" --db-path /Users/fischer/Desktop/buch_datenbank.sqlite --languages de
 # python analyze_aspects.py --isbn "9783446264199" --db-path /Pfad/zur/sqlite.db --languages de
 # Fixing Punkt tokenizer bug
 import sqlite3
 import argparse
 import logging
@@ -12,39 +15,10 @@ import nltk
 from transformers import pipeline
 from collections import defaultdict
 import matplotlib.pyplot as plt
-import os
-nltk.download('punkt')
-def visualize_aspects(aspect_results: dict[str, list[float]], output_dir: Path, filename: str = "sentiment_aspekte.png"):
-    output_dir.mkdir(parents=True, exist_ok=True)
-    aspects = list(aspect_results.keys())
-    avg_scores = [sum(scores) / len(scores) for scores in aspect_results.values()]
-    colors = ['green' if score > 0.1 else 'red' if score < -0.1 else 'gray' for score in avg_scores]
-    plt.figure(figsize=(10, 6))
-    bars = plt.barh(aspects, avg_scores, color=colors)
-    plt.axvline(x=0, color='black', linewidth=0.8)
-    plt.xlabel("Durchschnittlicher Sentiment-Score")
-    plt.title("Sentiment-Analyse pro Aspekt")
-    for bar, score in zip(bars, avg_scores):
-        plt.text(bar.get_width() + 0.01, bar.get_y() + bar.get_height() / 2,
-                 f"{score:.2f}", va='center')
-    plt.tight_layout()
-    plt.gca().invert_yaxis()
-    output_path = output_dir / filename
-    plt.savefig(output_path, dpi=300)
-    plt.close()
-    logger.info(f"Diagramm gespeichert unter: {output_path}")
-# NLTK punkt model for sentence tokenization
-nltk.download('punkt', download_dir='/home/user/nltk_data')
-from nltk.tokenize import sent_tokenize
 # Logging Configuration
 def configure_logging():
@@ -78,7 +52,6 @@ ASPECT_LABEL_MAP_EN = {
 ALL_LABELS = [label for labels in ASPECT_LABEL_MAP.values() for label in labels]
 # --- Datenbankzugriff ---
 def load_reviews(db_path: Path, isbn: str) -> list:
@@ -98,7 +71,6 @@ def load_reviews(db_path: Path, isbn: str) -> list:
             texts_to_analyze.append((review_id, text_en, 'en'))
     return texts_to_analyze
 # --- Analysefunktion ---
 def analyze_quickwin(db_path: Path, isbn: str, device: int = -1, languages: list[str] = ["de", "en"]) -> dict:
@@ -120,7 +92,7 @@ def analyze_quickwin(db_path: Path, isbn: str, device: int = -1, languages: list
             continue
         logger.info(f"Review ID {review_id} ({lang}) wird verarbeitet.")
         lang_map = {'de': 'german', 'en': 'english'}
         sentences = sent_tokenize(text, language=lang_map.get(lang, 'english'))
@@ -171,6 +143,26 @@ def analyze_quickwin(db_path: Path, isbn: str, device: int = -1, languages: list
     logger.info(f"Total aspects found: {total_aspects}")
     return aspect_results
 # --- Entry Point ---
@@ -194,4 +186,4 @@ def main():
         output_dir = Path("output")
         visualize_aspects(aspect_results, output_dir)
     else:
-        logger.info("Keine Aspekt-Daten zur Visualisierung verfügbar.")

 #python /Users/fischer/Desktop/HanserMVP/scraping/analyze_aspects.py --isbn "9783446264199" --db-path /Users/fischer/Desktop/buch_datenbank.sqlite --languages de
 # python analyze_aspects.py --isbn "9783446264199" --db-path /Pfad/zur/sqlite.db --languages de
 # Fixing Punkt tokenizer bug
+#!/usr/bin/env python3
+# analyze_aspects.py
 import sqlite3
 import argparse
 import logging
 from transformers import pipeline
 from collections import defaultdict
 import matplotlib.pyplot as plt
+# ✅ Download punkt tokenizer wie lokal
+nltk.download('punkt')
+from nltk import sent_tokenize
 # Logging Configuration
 def configure_logging():
 ALL_LABELS = [label for labels in ASPECT_LABEL_MAP.values() for label in labels]
 # --- Datenbankzugriff ---
 def load_reviews(db_path: Path, isbn: str) -> list:
             texts_to_analyze.append((review_id, text_en, 'en'))
     return texts_to_analyze
 # --- Analysefunktion ---
 def analyze_quickwin(db_path: Path, isbn: str, device: int = -1, languages: list[str] = ["de", "en"]) -> dict:
             continue
         logger.info(f"Review ID {review_id} ({lang}) wird verarbeitet.")
         lang_map = {'de': 'german', 'en': 'english'}
         sentences = sent_tokenize(text, language=lang_map.get(lang, 'english'))
     logger.info(f"Total aspects found: {total_aspects}")
     return aspect_results
+def visualize_aspects(aspect_results: dict[str, list[float]], output_dir: Path, filename: str = "sentiment_aspekte.png"):
+    output_dir.mkdir(parents=True, exist_ok=True)
+    aspects = list(aspect_results.keys())
+    avg_scores = [sum(scores) / len(scores) for scores in aspect_results.values()]
+    colors = ['green' if score > 0.1 else 'red' if score < -0.1 else 'gray' for score in avg_scores]
+    import matplotlib.pyplot as plt
+    plt.figure(figsize=(10, 6))
+    bars = plt.barh(aspects, avg_scores, color=colors)
+    plt.axvline(x=0, color='black', linewidth=0.8)
+    plt.xlabel("Durchschnittlicher Sentiment-Score")
+    plt.title("Sentiment-Analyse pro Aspekt")
+    for bar, score in zip(bars, avg_scores):
+        plt.text(bar.get_width() + 0.01, bar.get_y() + bar.get_height() / 2,
+                 f"{score:.2f}", va='center')
+    plt.tight_layout()
+    plt.gca().invert_yaxis()
+    output_path = output_dir / filename
+    plt.savefig(output_path, dpi=300)
+    plt.close()
+    logger.info(f"Diagramm gespeichert unter: {output_path}")
 # --- Entry Point ---
         output_dir = Path("output")
         visualize_aspects(aspect_results, output_dir)
     else:
+        logger.info("Keine Aspekt-Daten zur Visualisierung verfügbar.")

app.py CHANGED Viewed

@@ -5,6 +5,9 @@ from analyze_aspects import analyze_quickwin, visualize_aspects
 from pathlib import Path
 import tempfile
 import shutil
 def run_analysis(db_file, isbn, languages):
     if not isbn.strip():

 from pathlib import Path
 import tempfile
 import shutil
+import os
+os.system("python download_nltk_resources.py")
 def run_analysis(db_file, isbn, languages):
     if not isbn.strip():

download_nltk_resources.py ADDED Viewed

	@@ -0,0 +1,4 @@

+import nltk
+nltk.download('punkt')
+nltk.download('stopwords')