Spaces:

Salesforce
/

crm_llm_leaderboard

Running

App Files Files Community

yibum commited on Jun 17, 2024

Commit

098bb60

1 Parent(s): 84ee137

remove legacy cost tablea tab

Browse files

Files changed (2) hide show

app.py +3 -148
src/populate.py +2 -5

app.py CHANGED Viewed

@@ -1,36 +1,15 @@
 import gradio as gr
 import pandas as pd
-from src.about import (  # CITATION_BUTTON_LABEL,; CITATION_BUTTON_TEXT,; EVALUATION_QUEUE_TEXT,
-    CITATION_BUTTON_LABEL,
-    CITATION_BUTTON_TEXT,
-    INTRODUCTION_TEXT,
-    LLM_BENCHMARKS_TEXT,
-    TITLE,
-)
 from src.display.css_html_js import custom_css
-from src.display.utils import (  # EVAL_TYPES,; WeightType,; BENCHMARK_COLS,; EVAL_COLS,; NUMERIC_INTERVALS,; ModelType,; Precision,
-    COLS,
-    COST_COLS,
-    COST_TYPES,
-    TS_COLS,
-    TS_TYPES,
-    TYPES,
-    AutoEvalColumn,
-    CostEvalColumn,
-    TSEvalColumn,
-    fields,
-)
-# from src.envs import API, EVAL_REQUESTS_PATH, EVAL_RESULTS_PATH, QUEUE_REPO, REPO_ID, RESULTS_REPO, TOKEN
 from src.envs import CRM_RESULTS_PATH
 from src.populate import get_leaderboard_df_crm
-original_df, cost_df, ts_df = get_leaderboard_df_crm(CRM_RESULTS_PATH, COLS, COST_COLS)
-# raw_data, original_df = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 leaderboard_df = original_df.copy()
-leaderboard_cost_df = cost_df.copy()
 leaderboard_ts_df = ts_df.copy()
 # leaderboard_df = leaderboard_df.style.format({"accuracy_metric_average": "{0:.2f}"})
@@ -60,20 +39,6 @@ def update_table(
     return df.style.map(highlight_cost_band_low, props="background-color: #b3d5a4")
-def update_cost_table(
-    hidden_df: pd.DataFrame,
-    columns: list,
-    llm_query: list,
-    llm_provider_query: list,
-    use_case_flavor_query: list,
-):
-    filtered_df = filter_llm_func(hidden_df, llm_query)
-    filtered_df = filter_llm_provider_func(filtered_df, llm_provider_query)
-    filtered_df = filter_use_case_flavor_func(filtered_df, use_case_flavor_query)
-    df = select_columns_cost_table(filtered_df, columns)
-    return df.style.map(highlight_cost_band_low, props="background-color: #b3d5a4")
 def update_ts_table(
     hidden_df: pd.DataFrame,
     columns: list,
@@ -125,23 +90,6 @@ def init_leaderboard_df(
     )
-def init_leaderboard_cost_df(
-    leaderboard_df: pd.DataFrame,
-    columns: list,
-    llm_query: list,
-    llm_provider_query: list,
-    use_case_type_query: list,
-):
-    return update_cost_table(
-        leaderboard_df,
-        columns,
-        llm_query,
-        llm_provider_query,
-        use_case_type_query,
-    )
 def init_leaderboard_ts_df(
     leaderboard_df: pd.DataFrame,
     columns: list,
@@ -183,10 +131,6 @@ def filter_use_case_type_func(df: pd.DataFrame, use_case_type_query: list) -> pd
     return df[df["Use Case Type"].isin(use_case_type_query)]
-def filter_use_case_flavor_func(df: pd.DataFrame, use_case_flavor_query: list) -> pd.DataFrame:
-    return df[df["Cost and Speed: Flavor"].isin(use_case_flavor_query)]
 def filter_llm_func(df: pd.DataFrame, llm_query: list) -> pd.DataFrame:
     return df[df["Model Name"].isin(llm_query)]
@@ -204,14 +148,6 @@ def select_columns(df: pd.DataFrame, columns: list) -> pd.DataFrame:
     return filtered_df
-def select_columns_cost_table(df: pd.DataFrame, columns: list) -> pd.DataFrame:
-    always_here_cols = [
-        CostEvalColumn.model.name,
-    ]
-    filtered_df = df[always_here_cols + [c for c in COST_COLS if c in df.columns and c in columns]]
-    return filtered_df
 def select_columns_ts_table(df: pd.DataFrame, columns: list) -> pd.DataFrame:
     always_here_cols = [
         TSEvalColumn.model.name,
@@ -423,87 +359,6 @@ with demo:
                     leaderboard_table,
                     queue=True,
                 )
-        with gr.TabItem("🏅 Latency & Cost", elem_id="llm-benchmark-tab-table", id=1):
-            with gr.Row():
-                with gr.Column():
-                    with gr.Row():
-                        shown_columns = gr.CheckboxGroup(
-                            choices=[c.name for c in fields(CostEvalColumn) if not c.hidden and not c.never_hidden],
-                            value=[
-                                c.name
-                                for c in fields(CostEvalColumn)
-                                if c.displayed_by_default and not c.hidden and not c.never_hidden
-                            ],
-                            label="Select columns to show",
-                            elem_id="column-select",
-                            interactive=True,
-                        )
-            with gr.Row():
-                with gr.Column():
-                    filter_llm = gr.CheckboxGroup(
-                        choices=list(cost_df["Model Name"].unique()),
-                        value=list(cost_df["Model Name"].unique()),
-                        label="Model Name",
-                        info="",
-                        interactive=True,
-                    )
-                with gr.Column():
-                    filter_llm_provider = gr.CheckboxGroup(
-                        choices=list(cost_df["LLM Provider"].unique()),
-                        value=list(cost_df["LLM Provider"].unique()),
-                        label="LLM Provider",
-                        info="",
-                        interactive=True,
-                    )
-                with gr.Column():
-                    filter_use_case_type = gr.CheckboxGroup(
-                        choices=["Long", "Short"],
-                        value=["Long", "Short"],
-                        label="Use Case Flavor",
-                        info="Output: 250 tokens, Long input: 3k tokens, Short input: 500 tokens",
-                        interactive=True,
-                    )
-            leaderboard_table = gr.components.Dataframe(
-                value=init_leaderboard_cost_df(
-                    leaderboard_cost_df,
-                    shown_columns.value,
-                    filter_llm.value,
-                    filter_llm_provider.value,
-                    filter_use_case_type.value,
-                ),
-                headers=[c.name for c in fields(CostEvalColumn) if c.never_hidden] + shown_columns.value,
-                datatype=COST_TYPES,
-                elem_id="leaderboard-table",
-                interactive=False,
-                visible=True,
-            )
-            hidden_leaderboard_table_for_search = gr.components.Dataframe(
-                value=cost_df[COST_COLS],
-                headers=COST_COLS,
-                datatype=COST_TYPES,
-                visible=False,
-            )
-            for selector in [
-                shown_columns,
-                filter_llm,
-                filter_llm_provider,
-                filter_use_case_type,
-            ]:
-                selector.change(
-                    update_cost_table,
-                    [
-                        hidden_leaderboard_table_for_search,
-                        shown_columns,
-                        filter_llm,
-                        filter_llm_provider,
-                        filter_use_case_type,
-                    ],
-                    leaderboard_table,
-                    queue=True,
-                )
         with gr.TabItem("🏅 Trust & Safety", elem_id="llm-benchmark-tab-table", id=2):
             with gr.Row():
                 with gr.Column():

 import gradio as gr
 import pandas as pd
+from src.about import CITATION_BUTTON_LABEL, CITATION_BUTTON_TEXT, INTRODUCTION_TEXT, LLM_BENCHMARKS_TEXT, TITLE
 from src.display.css_html_js import custom_css
+from src.display.utils import COLS, TS_COLS, TS_TYPES, TYPES, AutoEvalColumn, TSEvalColumn, fields
 from src.envs import CRM_RESULTS_PATH
 from src.populate import get_leaderboard_df_crm
+original_df, ts_df = get_leaderboard_df_crm(CRM_RESULTS_PATH, COLS, TS_COLS)
 leaderboard_df = original_df.copy()
 leaderboard_ts_df = ts_df.copy()
 # leaderboard_df = leaderboard_df.style.format({"accuracy_metric_average": "{0:.2f}"})
     return df.style.map(highlight_cost_band_low, props="background-color: #b3d5a4")
 def update_ts_table(
     hidden_df: pd.DataFrame,
     columns: list,
     )
 def init_leaderboard_ts_df(
     leaderboard_df: pd.DataFrame,
     columns: list,
     return df[df["Use Case Type"].isin(use_case_type_query)]
 def filter_llm_func(df: pd.DataFrame, llm_query: list) -> pd.DataFrame:
     return df[df["Model Name"].isin(llm_query)]
     return filtered_df
 def select_columns_ts_table(df: pd.DataFrame, columns: list) -> pd.DataFrame:
     always_here_cols = [
         TSEvalColumn.model.name,
                     leaderboard_table,
                     queue=True,
                 )
         with gr.TabItem("🏅 Trust & Safety", elem_id="llm-benchmark-tab-table", id=2):
             with gr.Row():
                 with gr.Column():

src/populate.py CHANGED Viewed

@@ -6,7 +6,7 @@ from src.display.utils import AutoEvalColumn
 def get_leaderboard_df_crm(
-    crm_results_path: str, accuracy_cols: list, cost_cols: list
 ) -> tuple[pd.DataFrame, pd.DataFrame]:
     """Creates a dataframe from all the individual experiment results"""
     use_case_flavor_mapping_df = pd.read_csv(os.path.join(crm_results_path, "hf_leaderboard_flavor_mapping.csv"))
@@ -30,9 +30,6 @@ def get_leaderboard_df_crm(
         on=["Model Name", "Cost and Speed: Flavor"],
     )
-    leaderboard_cost_df = leaderboard_cost_df.join(ref_df.set_index("Model Name"), on="Model Name")
-    leaderboard_cost_df = leaderboard_cost_df[cost_cols].round(decimals=2)
     leaderboard_ts_df = pd.read_csv(os.path.join(crm_results_path, "hf_leaderboard_ts.csv"))
     leaderboard_ts__crm_bias_df = pd.read_csv(os.path.join(crm_results_path, "hf_leaderboard_crm_bias.csv"))
     leaderboard_ts_df = leaderboard_ts_df[~leaderboard_ts_df["Model Name"].isin(sf_finetuned_models)]
@@ -64,4 +61,4 @@ def get_leaderboard_df_crm(
         by=[AutoEvalColumn.accuracy_metric_average.name], ascending=False
     )
     leaderboard_accuracy_df = leaderboard_accuracy_df[accuracy_cols].round(decimals=2)
-    return leaderboard_accuracy_df, leaderboard_cost_df, leaderboard_ts_df

 def get_leaderboard_df_crm(
+    crm_results_path: str, accuracy_cols: list, ts_cols: list
 ) -> tuple[pd.DataFrame, pd.DataFrame]:
     """Creates a dataframe from all the individual experiment results"""
     use_case_flavor_mapping_df = pd.read_csv(os.path.join(crm_results_path, "hf_leaderboard_flavor_mapping.csv"))
         on=["Model Name", "Cost and Speed: Flavor"],
     )
     leaderboard_ts_df = pd.read_csv(os.path.join(crm_results_path, "hf_leaderboard_ts.csv"))
     leaderboard_ts__crm_bias_df = pd.read_csv(os.path.join(crm_results_path, "hf_leaderboard_crm_bias.csv"))
     leaderboard_ts_df = leaderboard_ts_df[~leaderboard_ts_df["Model Name"].isin(sf_finetuned_models)]
         by=[AutoEvalColumn.accuracy_metric_average.name], ascending=False
     )
     leaderboard_accuracy_df = leaderboard_accuracy_df[accuracy_cols].round(decimals=2)
+    return leaderboard_accuracy_df, leaderboard_ts_df