Spaces:

abhinavdread
/

rtl-reliability-engine

Sleeping

abhinavvvvv commited on 13 days ago

Commit

fb121b9

1 Parent(s): 33c27ca

fixed embed dim errors

Files changed (2) hide show

api/predictor.py CHANGED Viewed

@@ -7,6 +7,9 @@ from features.log_feature_extraction import run_pipeline
 MODEL_PATH = "models/failure_model.pkl"
 FEATURE_PATH = "models/feature_columns.pkl"
 def predict_logs(log_file):
@@ -14,23 +17,26 @@ def predict_logs(log_file):
     df = pd.read_csv("temp_features.csv")
-    model = joblib.load(MODEL_PATH)
-    feature_cols = joblib.load(FEATURE_PATH)
-    X = df[feature_cols]
-    probs = model.predict_proba(X)[:, 1]
     df["failure_probability"] = probs
     module_risk = (
         df.groupby("module")["failure_probability"]
         .mean()
         .sort_values(ascending=False)
     )
-    module_results = []
     for module, prob in module_risk.items():
         if prob > 0.75:
@@ -40,18 +46,16 @@ def predict_logs(log_file):
         else:
             risk = "LOW"
-        module_results.append({
             "module": module,
             "failure_probability": float(prob),
             "risk": risk
         })
-    summary = {
-        "total_logs": int(len(df)),
-        "modules_analyzed": int(df["module"].nunique())
-    }
     return {
-        "summary": summary,
-        "module_risk": module_results
     }

 MODEL_PATH = "models/failure_model.pkl"
 FEATURE_PATH = "models/feature_columns.pkl"
+model = joblib.load(MODEL_PATH)
+feature_cols = joblib.load(FEATURE_PATH)
 def predict_logs(log_file):
     df = pd.read_csv("temp_features.csv")
+    # ensure all training columns exist
+    for col in feature_cols:
+        if col not in df.columns:
+            df[col] = 0
+    # remove extra columns not used by model
+    df = df[feature_cols]
+    probs = model.predict_proba(df)[:, 1]
     df["failure_probability"] = probs
+    results = []
     module_risk = (
         df.groupby("module")["failure_probability"]
         .mean()
         .sort_values(ascending=False)
     )
     for module, prob in module_risk.items():
         if prob > 0.75:
         else:
             risk = "LOW"
+        results.append({
             "module": module,
             "failure_probability": float(prob),
             "risk": risk
         })
     return {
+        "summary": {
+            "total_logs": int(len(df)),
+            "modules_analyzed": len(results)
+        },
+        "module_risk": results
     }

features/log_feature_extraction.py CHANGED Viewed

@@ -117,9 +117,8 @@ def text_features(df):
     for k in keywords:
         df[f"kw_{k}"] = df["clean_message"].str.contains(k).astype(int)
-    vectorizer = TfidfVectorizer(max_features=300)
-    X = vectorizer.fit_transform(df["clean_message"])
     tfidf = pd.DataFrame(
         X.toarray(),

     for k in keywords:
         df[f"kw_{k}"] = df["clean_message"].str.contains(k).astype(int)
+    vectorizer = joblib.load("models/tfidf_vectorizer.pkl")
+    X = vectorizer.transform(df["clean_message"])
     tfidf = pd.DataFrame(
         X.toarray(),