Spaces:

mlfoundations
/

OpenThoughts_data_explorer

Running

App Files Files Community

jmercat commited on Jun 2

Commit

9c9517b

1 Parent(s): ec23e9b

simplify top correlation list, info about correlation p-values

Browse files

Files changed (1) hide show

app.py +28 -8

app.py CHANGED Viewed

@@ -297,11 +297,17 @@ def create_scatter_plot(df, x_bench, y_bench, stderr_df=None):
     p = np.poly1d(z)
     x_line = np.linspace(x_vals.min(), x_vals.max(), 100)
     fig.add_trace(go.Scatter(
         x=x_line,
         y=p(x_line),
         mode='lines',
-        name=f'r = {corr:.3f}, p = {p_val:.3f}',
         line=dict(color='red', dash='dash')
     ))
@@ -533,9 +539,7 @@ def show_overview_dashboard(df, stderr_df):
     with col1:
         st.markdown("**🔥 Top 5 Highest Correlations**")
         for i, (bench1, bench2, corr, cat1, cat2) in enumerate(pairs[:5]):
-            same_cat = "✅" if cat1 == cat2 else "🔀"
-            st.write(f"{i+1}. {clean_benchmark_name(bench1)} ↔ {clean_benchmark_name(bench2)}")
-            st.write(f"   r = {corr:.3f} {same_cat}")
     with col2:
         st.markdown("**📊 Category Analysis**")
@@ -639,17 +643,27 @@ def show_scatter_explorer(df, stderr_df):
                 spearman_r, spearman_p = spearmanr(common_data[x_benchmark], common_data[y_benchmark])
                 kendall_r, kendall_p = kendalltau(common_data[x_benchmark], common_data[y_benchmark])
                 with col1:
                     st.metric("Pearson r", f"{pearson_r:.3f}")
-                    st.caption(f"p = {pearson_p:.3f}")
                 with col2:
                     st.metric("Spearman ρ", f"{spearman_r:.3f}")
-                    st.caption(f"p = {spearman_p:.3f}")
                 with col3:
                     st.metric("Kendall τ", f"{kendall_r:.3f}")
-                    st.caption(f"p = {kendall_p:.3f}")
                 # Show data table
                 st.subheader("Data Points")
@@ -1107,11 +1121,17 @@ def show_uncertainty_analysis(df, stderr_df):
                 p = np.poly1d(z)
                 x_line = np.linspace(x_clean.min(), x_clean.max(), 100)
                 fig.add_trace(go.Scatter(
                     x=x_line,
                     y=p(x_line),
                     mode='lines',
-                    name=f'r = {corr:.3f}, p = {p_val:.3f}',
                     line=dict(color='red', dash='dash')
                 ))

     p = np.poly1d(z)
     x_line = np.linspace(x_vals.min(), x_vals.max(), 100)
+    # Format p-value appropriately
+    if p_val < 0.001:
+        p_str = f"p < 0.001"
+    else:
+        p_str = f"p = {p_val:.3f}"
     fig.add_trace(go.Scatter(
         x=x_line,
         y=p(x_line),
         mode='lines',
+        name=f'r = {corr:.3f}, {p_str}',
         line=dict(color='red', dash='dash')
     ))
     with col1:
         st.markdown("**🔥 Top 5 Highest Correlations**")
         for i, (bench1, bench2, corr, cat1, cat2) in enumerate(pairs[:5]):
+            st.write(f"{i+1}. {clean_benchmark_name(bench1)} ↔ {clean_benchmark_name(bench2)} r = {corr:.3f}")
     with col2:
         st.markdown("**📊 Category Analysis**")
                 spearman_r, spearman_p = spearmanr(common_data[x_benchmark], common_data[y_benchmark])
                 kendall_r, kendall_p = kendalltau(common_data[x_benchmark], common_data[y_benchmark])
+                # Format p-values appropriately
+                def format_pvalue(p):
+                    if p < 0.001:
+                        return "p < 0.001"
+                    else:
+                        return f"p = {p:.3f}"
                 with col1:
                     st.metric("Pearson r", f"{pearson_r:.3f}")
+                    st.caption(format_pvalue(pearson_p))
                 with col2:
                     st.metric("Spearman ρ", f"{spearman_r:.3f}")
+                    st.caption(format_pvalue(spearman_p))
                 with col3:
                     st.metric("Kendall τ", f"{kendall_r:.3f}")
+                    st.caption(format_pvalue(kendall_p))
+                # Add explanation about p-values
+                st.info("ℹ️ **P-values < 0.001** indicate very strong statistical significance. This is common with benchmark correlations due to reasonable sample sizes and meaningful relationships.")
                 # Show data table
                 st.subheader("Data Points")
                 p = np.poly1d(z)
                 x_line = np.linspace(x_clean.min(), x_clean.max(), 100)
+                # Format p-value appropriately
+                if p_val < 0.001:
+                    p_str = f"p < 0.001"
+                else:
+                    p_str = f"p = {p_val:.3f}"
                 fig.add_trace(go.Scatter(
                     x=x_line,
                     y=p(x_line),
                     mode='lines',
+                    name=f'r = {corr:.3f}, {p_str}',
                     line=dict(color='red', dash='dash')
                 ))