{
  "best_global_step": 3500,
  "best_metric": 0.8680178974484556,
  "best_model_checkpoint": "artifacts/layoutlmv3-large-model2aa-visit-vs-progress-balanced-14033/checkpoint-3500",
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 4737,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.012670758265689962,
      "grad_norm": 3.066317558288574,
      "learning_rate": 8.016877637130803e-07,
      "loss": 0.7003,
      "step": 20
    },
    {
      "epoch": 0.025341516531379924,
      "grad_norm": 3.3566622734069824,
      "learning_rate": 1.6455696202531647e-06,
      "loss": 0.7008,
      "step": 40
    },
    {
      "epoch": 0.03801227479706989,
      "grad_norm": 3.5930421352386475,
      "learning_rate": 2.489451476793249e-06,
      "loss": 0.6888,
      "step": 60
    },
    {
      "epoch": 0.05068303306275985,
      "grad_norm": 2.9047040939331055,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 0.6944,
      "step": 80
    },
    {
      "epoch": 0.06335379132844982,
      "grad_norm": 7.2688493728637695,
      "learning_rate": 4.177215189873418e-06,
      "loss": 0.6712,
      "step": 100
    },
    {
      "epoch": 0.07602454959413978,
      "grad_norm": 24.346092224121094,
      "learning_rate": 5.021097046413503e-06,
      "loss": 0.6355,
      "step": 120
    },
    {
      "epoch": 0.08869530785982974,
      "grad_norm": 7.796468734741211,
      "learning_rate": 5.864978902953588e-06,
      "loss": 0.5891,
      "step": 140
    },
    {
      "epoch": 0.1013660661255197,
      "grad_norm": 8.84610652923584,
      "learning_rate": 6.708860759493672e-06,
      "loss": 0.5076,
      "step": 160
    },
    {
      "epoch": 0.11403682439120966,
      "grad_norm": 9.582152366638184,
      "learning_rate": 7.552742616033756e-06,
      "loss": 0.5727,
      "step": 180
    },
    {
      "epoch": 0.12670758265689963,
      "grad_norm": 5.355575084686279,
      "learning_rate": 8.39662447257384e-06,
      "loss": 0.5164,
      "step": 200
    },
    {
      "epoch": 0.13937834092258958,
      "grad_norm": 14.494037628173828,
      "learning_rate": 9.240506329113925e-06,
      "loss": 0.5714,
      "step": 220
    },
    {
      "epoch": 0.15204909918827955,
      "grad_norm": 6.396440029144287,
      "learning_rate": 1.0084388185654008e-05,
      "loss": 0.5337,
      "step": 240
    },
    {
      "epoch": 0.1647198574539695,
      "grad_norm": 8.744712829589844,
      "learning_rate": 1.0928270042194094e-05,
      "loss": 0.5395,
      "step": 260
    },
    {
      "epoch": 0.17739061571965947,
      "grad_norm": 6.437109470367432,
      "learning_rate": 1.1772151898734178e-05,
      "loss": 0.5442,
      "step": 280
    },
    {
      "epoch": 0.19006137398534945,
      "grad_norm": 13.105298042297363,
      "learning_rate": 1.2616033755274262e-05,
      "loss": 0.5256,
      "step": 300
    },
    {
      "epoch": 0.2027321322510394,
      "grad_norm": 9.089370727539062,
      "learning_rate": 1.3459915611814346e-05,
      "loss": 0.4925,
      "step": 320
    },
    {
      "epoch": 0.21540289051672937,
      "grad_norm": 11.262832641601562,
      "learning_rate": 1.4303797468354432e-05,
      "loss": 0.5213,
      "step": 340
    },
    {
      "epoch": 0.2280736487824193,
      "grad_norm": 8.391460418701172,
      "learning_rate": 1.5147679324894515e-05,
      "loss": 0.5513,
      "step": 360
    },
    {
      "epoch": 0.2407444070481093,
      "grad_norm": 4.717486381530762,
      "learning_rate": 1.59915611814346e-05,
      "loss": 0.4607,
      "step": 380
    },
    {
      "epoch": 0.25341516531379926,
      "grad_norm": 5.248854160308838,
      "learning_rate": 1.6835443037974685e-05,
      "loss": 0.5146,
      "step": 400
    },
    {
      "epoch": 0.26608592357948924,
      "grad_norm": 3.834242582321167,
      "learning_rate": 1.767932489451477e-05,
      "loss": 0.4476,
      "step": 420
    },
    {
      "epoch": 0.27875668184517916,
      "grad_norm": 7.947439670562744,
      "learning_rate": 1.8523206751054853e-05,
      "loss": 0.4967,
      "step": 440
    },
    {
      "epoch": 0.29142744011086913,
      "grad_norm": 5.506438255310059,
      "learning_rate": 1.936708860759494e-05,
      "loss": 0.4697,
      "step": 460
    },
    {
      "epoch": 0.3040981983765591,
      "grad_norm": 5.350761890411377,
      "learning_rate": 1.9976542341074363e-05,
      "loss": 0.4294,
      "step": 480
    },
    {
      "epoch": 0.3167689566422491,
      "grad_norm": 14.464774131774902,
      "learning_rate": 1.9882711705371805e-05,
      "loss": 0.4912,
      "step": 500
    },
    {
      "epoch": 0.3167689566422491,
      "eval_accuracy": 0.7061543934542868,
      "eval_f1_progress_follow_up_note": 0.6103773584905661,
      "eval_f1_visit_note_multiple_notes": 0.7641347801256425,
      "eval_loss": 0.5444915890693665,
      "eval_macro_f1": 0.6872560693081042,
      "eval_macro_precision": 0.7730771341088052,
      "eval_macro_recall": 0.7065938755426683,
      "eval_precision_progress_follow_up_note": 0.9087078651685393,
      "eval_precision_visit_note_multiple_notes": 0.637446403049071,
      "eval_recall_progress_follow_up_note": 0.45951704545454547,
      "eval_recall_visit_note_multiple_notes": 0.9536707056307911,
      "eval_runtime": 108.51,
      "eval_samples_per_second": 25.905,
      "eval_steps_per_second": 25.905,
      "eval_weighted_f1": 0.6871193231131246,
      "step": 500
    },
    {
      "epoch": 0.329439714907939,
      "grad_norm": 6.367736339569092,
      "learning_rate": 1.9788881069669247e-05,
      "loss": 0.4499,
      "step": 520
    },
    {
      "epoch": 0.34211047317362897,
      "grad_norm": 1.8094199895858765,
      "learning_rate": 1.9695050433966692e-05,
      "loss": 0.4351,
      "step": 540
    },
    {
      "epoch": 0.35478123143931894,
      "grad_norm": 5.050937175750732,
      "learning_rate": 1.9601219798264134e-05,
      "loss": 0.4697,
      "step": 560
    },
    {
      "epoch": 0.3674519897050089,
      "grad_norm": 8.314126014709473,
      "learning_rate": 1.950738916256158e-05,
      "loss": 0.4303,
      "step": 580
    },
    {
      "epoch": 0.3801227479706989,
      "grad_norm": 9.25191879272461,
      "learning_rate": 1.941355852685902e-05,
      "loss": 0.4469,
      "step": 600
    },
    {
      "epoch": 0.3927935062363888,
      "grad_norm": 5.4251556396484375,
      "learning_rate": 1.9319727891156463e-05,
      "loss": 0.4296,
      "step": 620
    },
    {
      "epoch": 0.4054642645020788,
      "grad_norm": 10.879463195800781,
      "learning_rate": 1.9225897255453905e-05,
      "loss": 0.3969,
      "step": 640
    },
    {
      "epoch": 0.41813502276776876,
      "grad_norm": 2.5200870037078857,
      "learning_rate": 1.913206661975135e-05,
      "loss": 0.4768,
      "step": 660
    },
    {
      "epoch": 0.43080578103345873,
      "grad_norm": 16.182958602905273,
      "learning_rate": 1.9038235984048793e-05,
      "loss": 0.4325,
      "step": 680
    },
    {
      "epoch": 0.4434765392991487,
      "grad_norm": 7.149307727813721,
      "learning_rate": 1.8944405348346238e-05,
      "loss": 0.4191,
      "step": 700
    },
    {
      "epoch": 0.4561472975648386,
      "grad_norm": 18.03066635131836,
      "learning_rate": 1.885057471264368e-05,
      "loss": 0.4416,
      "step": 720
    },
    {
      "epoch": 0.4688180558305286,
      "grad_norm": 2.975898027420044,
      "learning_rate": 1.8756744076941122e-05,
      "loss": 0.4005,
      "step": 740
    },
    {
      "epoch": 0.4814888140962186,
      "grad_norm": 6.365159511566162,
      "learning_rate": 1.8662913441238567e-05,
      "loss": 0.4916,
      "step": 760
    },
    {
      "epoch": 0.49415957236190855,
      "grad_norm": 15.487320899963379,
      "learning_rate": 1.856908280553601e-05,
      "loss": 0.4908,
      "step": 780
    },
    {
      "epoch": 0.5068303306275985,
      "grad_norm": 3.7510688304901123,
      "learning_rate": 1.8475252169833455e-05,
      "loss": 0.4351,
      "step": 800
    },
    {
      "epoch": 0.5195010888932885,
      "grad_norm": 10.05978012084961,
      "learning_rate": 1.8381421534130893e-05,
      "loss": 0.3844,
      "step": 820
    },
    {
      "epoch": 0.5321718471589785,
      "grad_norm": 11.646191596984863,
      "learning_rate": 1.828759089842834e-05,
      "loss": 0.3627,
      "step": 840
    },
    {
      "epoch": 0.5448426054246683,
      "grad_norm": 6.368769645690918,
      "learning_rate": 1.819376026272578e-05,
      "loss": 0.4168,
      "step": 860
    },
    {
      "epoch": 0.5575133636903583,
      "grad_norm": 2.6349735260009766,
      "learning_rate": 1.8099929627023226e-05,
      "loss": 0.4241,
      "step": 880
    },
    {
      "epoch": 0.5701841219560483,
      "grad_norm": 6.177257537841797,
      "learning_rate": 1.8006098991320668e-05,
      "loss": 0.3677,
      "step": 900
    },
    {
      "epoch": 0.5828548802217383,
      "grad_norm": 9.857847213745117,
      "learning_rate": 1.791226835561811e-05,
      "loss": 0.4281,
      "step": 920
    },
    {
      "epoch": 0.5955256384874282,
      "grad_norm": 5.589512825012207,
      "learning_rate": 1.7818437719915555e-05,
      "loss": 0.456,
      "step": 940
    },
    {
      "epoch": 0.6081963967531182,
      "grad_norm": 19.03119468688965,
      "learning_rate": 1.7724607084212997e-05,
      "loss": 0.3988,
      "step": 960
    },
    {
      "epoch": 0.6208671550188082,
      "grad_norm": 5.900824069976807,
      "learning_rate": 1.763077644851044e-05,
      "loss": 0.4538,
      "step": 980
    },
    {
      "epoch": 0.6335379132844982,
      "grad_norm": 5.776326656341553,
      "learning_rate": 1.7536945812807884e-05,
      "loss": 0.3608,
      "step": 1000
    },
    {
      "epoch": 0.6335379132844982,
      "eval_accuracy": 0.8281750266808965,
      "eval_f1_progress_follow_up_note": 0.8417949557811988,
      "eval_f1_visit_note_multiple_notes": 0.8119891008174387,
      "eval_loss": 0.42133694887161255,
      "eval_macro_f1": 0.8268920282993187,
      "eval_macro_precision": 0.8378330822128494,
      "eval_macro_recall": 0.8280245152433098,
      "eval_precision_progress_follow_up_note": 0.7811550151975684,
      "eval_precision_visit_note_multiple_notes": 0.8945111492281304,
      "eval_recall_progress_follow_up_note": 0.9126420454545454,
      "eval_recall_visit_note_multiple_notes": 0.7434069850320741,
      "eval_runtime": 108.8856,
      "eval_samples_per_second": 25.816,
      "eval_steps_per_second": 25.816,
      "eval_weighted_f1": 0.8269185365303431,
      "step": 1000
    },
    {
      "epoch": 0.6462086715501881,
      "grad_norm": 10.091642379760742,
      "learning_rate": 1.7443115177105326e-05,
      "loss": 0.3853,
      "step": 1020
    },
    {
      "epoch": 0.658879429815878,
      "grad_norm": 8.583157539367676,
      "learning_rate": 1.7349284541402768e-05,
      "loss": 0.3567,
      "step": 1040
    },
    {
      "epoch": 0.671550188081568,
      "grad_norm": 3.4726686477661133,
      "learning_rate": 1.7255453905700214e-05,
      "loss": 0.4504,
      "step": 1060
    },
    {
      "epoch": 0.6842209463472579,
      "grad_norm": 13.385263442993164,
      "learning_rate": 1.7161623269997655e-05,
      "loss": 0.3751,
      "step": 1080
    },
    {
      "epoch": 0.6968917046129479,
      "grad_norm": 10.46151065826416,
      "learning_rate": 1.70677926342951e-05,
      "loss": 0.4263,
      "step": 1100
    },
    {
      "epoch": 0.7095624628786379,
      "grad_norm": 5.42934513092041,
      "learning_rate": 1.697396199859254e-05,
      "loss": 0.4035,
      "step": 1120
    },
    {
      "epoch": 0.7222332211443279,
      "grad_norm": 9.025277137756348,
      "learning_rate": 1.6880131362889985e-05,
      "loss": 0.3715,
      "step": 1140
    },
    {
      "epoch": 0.7349039794100178,
      "grad_norm": 8.786019325256348,
      "learning_rate": 1.6786300727187427e-05,
      "loss": 0.2847,
      "step": 1160
    },
    {
      "epoch": 0.7475747376757078,
      "grad_norm": 7.345026969909668,
      "learning_rate": 1.6692470091484872e-05,
      "loss": 0.3983,
      "step": 1180
    },
    {
      "epoch": 0.7602454959413978,
      "grad_norm": 5.029403209686279,
      "learning_rate": 1.6598639455782314e-05,
      "loss": 0.3985,
      "step": 1200
    },
    {
      "epoch": 0.7729162542070878,
      "grad_norm": 3.0086569786071777,
      "learning_rate": 1.650480882007976e-05,
      "loss": 0.3696,
      "step": 1220
    },
    {
      "epoch": 0.7855870124727776,
      "grad_norm": 12.442904472351074,
      "learning_rate": 1.64109781843772e-05,
      "loss": 0.4397,
      "step": 1240
    },
    {
      "epoch": 0.7982577707384676,
      "grad_norm": 5.962015151977539,
      "learning_rate": 1.6317147548674643e-05,
      "loss": 0.3608,
      "step": 1260
    },
    {
      "epoch": 0.8109285290041576,
      "grad_norm": 12.39649772644043,
      "learning_rate": 1.622331691297209e-05,
      "loss": 0.327,
      "step": 1280
    },
    {
      "epoch": 0.8235992872698475,
      "grad_norm": 41.27870559692383,
      "learning_rate": 1.612948627726953e-05,
      "loss": 0.4223,
      "step": 1300
    },
    {
      "epoch": 0.8362700455355375,
      "grad_norm": 5.316653251647949,
      "learning_rate": 1.6035655641566972e-05,
      "loss": 0.3306,
      "step": 1320
    },
    {
      "epoch": 0.8489408038012275,
      "grad_norm": 8.166677474975586,
      "learning_rate": 1.5941825005864414e-05,
      "loss": 0.3367,
      "step": 1340
    },
    {
      "epoch": 0.8616115620669175,
      "grad_norm": 4.1671319007873535,
      "learning_rate": 1.584799437016186e-05,
      "loss": 0.4378,
      "step": 1360
    },
    {
      "epoch": 0.8742823203326074,
      "grad_norm": 1.8176621198654175,
      "learning_rate": 1.5754163734459302e-05,
      "loss": 0.3236,
      "step": 1380
    },
    {
      "epoch": 0.8869530785982974,
      "grad_norm": 17.287944793701172,
      "learning_rate": 1.5660333098756747e-05,
      "loss": 0.3742,
      "step": 1400
    },
    {
      "epoch": 0.8996238368639873,
      "grad_norm": 3.2431135177612305,
      "learning_rate": 1.556650246305419e-05,
      "loss": 0.3344,
      "step": 1420
    },
    {
      "epoch": 0.9122945951296773,
      "grad_norm": 19.31902313232422,
      "learning_rate": 1.547267182735163e-05,
      "loss": 0.3627,
      "step": 1440
    },
    {
      "epoch": 0.9249653533953672,
      "grad_norm": 6.284476280212402,
      "learning_rate": 1.5378841191649073e-05,
      "loss": 0.3425,
      "step": 1460
    },
    {
      "epoch": 0.9376361116610572,
      "grad_norm": 12.809346199035645,
      "learning_rate": 1.5285010555946518e-05,
      "loss": 0.3132,
      "step": 1480
    },
    {
      "epoch": 0.9503068699267472,
      "grad_norm": 6.548099517822266,
      "learning_rate": 1.5191179920243962e-05,
      "loss": 0.3789,
      "step": 1500
    },
    {
      "epoch": 0.9503068699267472,
      "eval_accuracy": 0.848452508004269,
      "eval_f1_progress_follow_up_note": 0.8458755426917511,
      "eval_f1_visit_note_multiple_notes": 0.8509447165850245,
      "eval_loss": 0.3536529541015625,
      "eval_macro_f1": 0.8484101296383878,
      "eval_macro_precision": 0.8489166134476782,
      "eval_macro_recall": 0.8484849328549213,
      "eval_precision_progress_follow_up_note": 0.862094395280236,
      "eval_precision_visit_note_multiple_notes": 0.8357388316151203,
      "eval_recall_progress_follow_up_note": 0.8302556818181818,
      "eval_recall_visit_note_multiple_notes": 0.8667141838916608,
      "eval_runtime": 107.5571,
      "eval_samples_per_second": 26.135,
      "eval_steps_per_second": 26.135,
      "eval_weighted_f1": 0.8484056213015918,
      "step": 1500
    },
    {
      "epoch": 0.9629776281924372,
      "grad_norm": 2.5653538703918457,
      "learning_rate": 1.5097349284541406e-05,
      "loss": 0.3202,
      "step": 1520
    },
    {
      "epoch": 0.9756483864581271,
      "grad_norm": 33.61664581298828,
      "learning_rate": 1.5003518648838846e-05,
      "loss": 0.3703,
      "step": 1540
    },
    {
      "epoch": 0.9883191447238171,
      "grad_norm": 8.151252746582031,
      "learning_rate": 1.490968801313629e-05,
      "loss": 0.375,
      "step": 1560
    },
    {
      "epoch": 1.0006335379132845,
      "grad_norm": 15.807883262634277,
      "learning_rate": 1.4815857377433733e-05,
      "loss": 0.3764,
      "step": 1580
    },
    {
      "epoch": 1.0133042961789744,
      "grad_norm": 4.131004333496094,
      "learning_rate": 1.4722026741731177e-05,
      "loss": 0.2428,
      "step": 1600
    },
    {
      "epoch": 1.0259750544446644,
      "grad_norm": 5.22015905380249,
      "learning_rate": 1.462819610602862e-05,
      "loss": 0.31,
      "step": 1620
    },
    {
      "epoch": 1.0386458127103544,
      "grad_norm": 3.8715288639068604,
      "learning_rate": 1.4534365470326062e-05,
      "loss": 0.3154,
      "step": 1640
    },
    {
      "epoch": 1.0513165709760444,
      "grad_norm": 9.741353034973145,
      "learning_rate": 1.4440534834623506e-05,
      "loss": 0.295,
      "step": 1660
    },
    {
      "epoch": 1.0639873292417343,
      "grad_norm": 1.4854393005371094,
      "learning_rate": 1.4346704198920948e-05,
      "loss": 0.3052,
      "step": 1680
    },
    {
      "epoch": 1.0766580875074243,
      "grad_norm": 4.201272010803223,
      "learning_rate": 1.4252873563218392e-05,
      "loss": 0.3649,
      "step": 1700
    },
    {
      "epoch": 1.0893288457731143,
      "grad_norm": 5.785568714141846,
      "learning_rate": 1.4159042927515835e-05,
      "loss": 0.3522,
      "step": 1720
    },
    {
      "epoch": 1.1019996040388043,
      "grad_norm": 26.932817459106445,
      "learning_rate": 1.4065212291813277e-05,
      "loss": 0.2835,
      "step": 1740
    },
    {
      "epoch": 1.1146703623044942,
      "grad_norm": 13.728816032409668,
      "learning_rate": 1.3971381656110721e-05,
      "loss": 0.3589,
      "step": 1760
    },
    {
      "epoch": 1.1273411205701842,
      "grad_norm": 8.512731552124023,
      "learning_rate": 1.3877551020408165e-05,
      "loss": 0.3095,
      "step": 1780
    },
    {
      "epoch": 1.1400118788358742,
      "grad_norm": 9.349882125854492,
      "learning_rate": 1.3783720384705608e-05,
      "loss": 0.3139,
      "step": 1800
    },
    {
      "epoch": 1.152682637101564,
      "grad_norm": 8.57318115234375,
      "learning_rate": 1.3689889749003052e-05,
      "loss": 0.3642,
      "step": 1820
    },
    {
      "epoch": 1.1653533953672541,
      "grad_norm": 6.542990684509277,
      "learning_rate": 1.3596059113300492e-05,
      "loss": 0.3434,
      "step": 1840
    },
    {
      "epoch": 1.1780241536329439,
      "grad_norm": 43.94500732421875,
      "learning_rate": 1.3502228477597936e-05,
      "loss": 0.304,
      "step": 1860
    },
    {
      "epoch": 1.1906949118986339,
      "grad_norm": 10.902169227600098,
      "learning_rate": 1.340839784189538e-05,
      "loss": 0.3349,
      "step": 1880
    },
    {
      "epoch": 1.2033656701643238,
      "grad_norm": 6.278835296630859,
      "learning_rate": 1.3314567206192823e-05,
      "loss": 0.2994,
      "step": 1900
    },
    {
      "epoch": 1.2160364284300138,
      "grad_norm": 6.790417194366455,
      "learning_rate": 1.3220736570490267e-05,
      "loss": 0.3542,
      "step": 1920
    },
    {
      "epoch": 1.2287071866957038,
      "grad_norm": 6.119885444641113,
      "learning_rate": 1.312690593478771e-05,
      "loss": 0.2793,
      "step": 1940
    },
    {
      "epoch": 1.2413779449613938,
      "grad_norm": 7.729899883270264,
      "learning_rate": 1.3033075299085152e-05,
      "loss": 0.3204,
      "step": 1960
    },
    {
      "epoch": 1.2540487032270837,
      "grad_norm": 4.259232997894287,
      "learning_rate": 1.2939244663382596e-05,
      "loss": 0.2741,
      "step": 1980
    },
    {
      "epoch": 1.2667194614927737,
      "grad_norm": 12.66750717163086,
      "learning_rate": 1.284541402768004e-05,
      "loss": 0.2658,
      "step": 2000
    },
    {
      "epoch": 1.2667194614927737,
      "eval_accuracy": 0.8601921024546425,
      "eval_f1_progress_follow_up_note": 0.8595927116827439,
      "eval_f1_visit_note_multiple_notes": 0.8607863974495218,
      "eval_loss": 0.3742903470993042,
      "eval_macro_f1": 0.8601895545661329,
      "eval_macro_precision": 0.8602396188778971,
      "eval_macro_recall": 0.8602024173038294,
      "eval_precision_progress_follow_up_note": 0.8648454349388929,
      "eval_precision_visit_note_multiple_notes": 0.8556338028169014,
      "eval_recall_progress_follow_up_note": 0.8544034090909091,
      "eval_recall_visit_note_multiple_notes": 0.8660014255167499,
      "eval_runtime": 109.9998,
      "eval_samples_per_second": 25.555,
      "eval_steps_per_second": 25.555,
      "eval_weighted_f1": 0.8601884929459205,
      "step": 2000
    },
    {
      "epoch": 1.2793902197584637,
      "grad_norm": 4.357564926147461,
      "learning_rate": 1.2751583391977482e-05,
      "loss": 0.293,
      "step": 2020
    },
    {
      "epoch": 1.2920609780241537,
      "grad_norm": 4.626700401306152,
      "learning_rate": 1.2657752756274925e-05,
      "loss": 0.293,
      "step": 2040
    },
    {
      "epoch": 1.3047317362898436,
      "grad_norm": 4.108360767364502,
      "learning_rate": 1.2563922120572367e-05,
      "loss": 0.2861,
      "step": 2060
    },
    {
      "epoch": 1.3174024945555336,
      "grad_norm": 4.147763729095459,
      "learning_rate": 1.247009148486981e-05,
      "loss": 0.3186,
      "step": 2080
    },
    {
      "epoch": 1.3300732528212236,
      "grad_norm": 10.354567527770996,
      "learning_rate": 1.2376260849167254e-05,
      "loss": 0.3005,
      "step": 2100
    },
    {
      "epoch": 1.3427440110869135,
      "grad_norm": 4.802971363067627,
      "learning_rate": 1.2282430213464698e-05,
      "loss": 0.3377,
      "step": 2120
    },
    {
      "epoch": 1.3554147693526035,
      "grad_norm": 8.856498718261719,
      "learning_rate": 1.2188599577762142e-05,
      "loss": 0.3119,
      "step": 2140
    },
    {
      "epoch": 1.3680855276182933,
      "grad_norm": 3.042854070663452,
      "learning_rate": 1.2094768942059582e-05,
      "loss": 0.303,
      "step": 2160
    },
    {
      "epoch": 1.3807562858839835,
      "grad_norm": 2.78000545501709,
      "learning_rate": 1.2000938306357026e-05,
      "loss": 0.3247,
      "step": 2180
    },
    {
      "epoch": 1.3934270441496732,
      "grad_norm": 1.2822825908660889,
      "learning_rate": 1.190710767065447e-05,
      "loss": 0.326,
      "step": 2200
    },
    {
      "epoch": 1.4060978024153634,
      "grad_norm": 9.286210060119629,
      "learning_rate": 1.1813277034951913e-05,
      "loss": 0.2875,
      "step": 2220
    },
    {
      "epoch": 1.4187685606810532,
      "grad_norm": 21.34784507751465,
      "learning_rate": 1.1719446399249357e-05,
      "loss": 0.3051,
      "step": 2240
    },
    {
      "epoch": 1.4314393189467431,
      "grad_norm": 13.909473419189453,
      "learning_rate": 1.1625615763546799e-05,
      "loss": 0.2711,
      "step": 2260
    },
    {
      "epoch": 1.4441100772124331,
      "grad_norm": 10.134126663208008,
      "learning_rate": 1.1531785127844242e-05,
      "loss": 0.3363,
      "step": 2280
    },
    {
      "epoch": 1.456780835478123,
      "grad_norm": 20.46217918395996,
      "learning_rate": 1.1437954492141686e-05,
      "loss": 0.3344,
      "step": 2300
    },
    {
      "epoch": 1.469451593743813,
      "grad_norm": 50.68547058105469,
      "learning_rate": 1.134412385643913e-05,
      "loss": 0.2901,
      "step": 2320
    },
    {
      "epoch": 1.482122352009503,
      "grad_norm": 29.443767547607422,
      "learning_rate": 1.1250293220736571e-05,
      "loss": 0.2666,
      "step": 2340
    },
    {
      "epoch": 1.494793110275193,
      "grad_norm": 23.847820281982422,
      "learning_rate": 1.1156462585034013e-05,
      "loss": 0.2952,
      "step": 2360
    },
    {
      "epoch": 1.507463868540883,
      "grad_norm": 25.268587112426758,
      "learning_rate": 1.1062631949331457e-05,
      "loss": 0.3108,
      "step": 2380
    },
    {
      "epoch": 1.520134626806573,
      "grad_norm": 6.806993007659912,
      "learning_rate": 1.09688013136289e-05,
      "loss": 0.3623,
      "step": 2400
    },
    {
      "epoch": 1.532805385072263,
      "grad_norm": 7.547118663787842,
      "learning_rate": 1.0874970677926344e-05,
      "loss": 0.3006,
      "step": 2420
    },
    {
      "epoch": 1.545476143337953,
      "grad_norm": 15.28637981414795,
      "learning_rate": 1.0781140042223788e-05,
      "loss": 0.3352,
      "step": 2440
    },
    {
      "epoch": 1.5581469016036429,
      "grad_norm": 1.9623901844024658,
      "learning_rate": 1.0687309406521228e-05,
      "loss": 0.2245,
      "step": 2460
    },
    {
      "epoch": 1.5708176598693329,
      "grad_norm": 2.6656131744384766,
      "learning_rate": 1.0593478770818672e-05,
      "loss": 0.3195,
      "step": 2480
    },
    {
      "epoch": 1.5834884181350226,
      "grad_norm": 17.347579956054688,
      "learning_rate": 1.0499648135116116e-05,
      "loss": 0.3878,
      "step": 2500
    },
    {
      "epoch": 1.5834884181350226,
      "eval_accuracy": 0.864105300604767,
      "eval_f1_progress_follow_up_note": 0.8613933236574746,
      "eval_f1_visit_note_multiple_notes": 0.8667131891137474,
      "eval_loss": 0.38559624552726746,
      "eval_macro_f1": 0.8640532563856109,
      "eval_macro_precision": 0.864752165685322,
      "eval_macro_recall": 0.8641428371833084,
      "eval_precision_progress_follow_up_note": 0.8805637982195845,
      "eval_precision_visit_note_multiple_notes": 0.8489405331510594,
      "eval_recall_progress_follow_up_note": 0.8430397727272727,
      "eval_recall_visit_note_multiple_notes": 0.8852459016393442,
      "eval_runtime": 112.1335,
      "eval_samples_per_second": 25.068,
      "eval_steps_per_second": 25.068,
      "eval_weighted_f1": 0.8640485250929605,
      "step": 2500
    },
    {
      "epoch": 1.5961591764007128,
      "grad_norm": 11.175872802734375,
      "learning_rate": 1.040581749941356e-05,
      "loss": 0.2937,
      "step": 2520
    },
    {
      "epoch": 1.6088299346664026,
      "grad_norm": 5.621260643005371,
      "learning_rate": 1.0311986863711003e-05,
      "loss": 0.2968,
      "step": 2540
    },
    {
      "epoch": 1.6215006929320928,
      "grad_norm": 14.41388988494873,
      "learning_rate": 1.0218156228008445e-05,
      "loss": 0.2799,
      "step": 2560
    },
    {
      "epoch": 1.6341714511977825,
      "grad_norm": 6.403450012207031,
      "learning_rate": 1.0124325592305888e-05,
      "loss": 0.2881,
      "step": 2580
    },
    {
      "epoch": 1.6468422094634727,
      "grad_norm": 6.919981002807617,
      "learning_rate": 1.0030494956603332e-05,
      "loss": 0.3401,
      "step": 2600
    },
    {
      "epoch": 1.6595129677291625,
      "grad_norm": 9.313056945800781,
      "learning_rate": 9.936664320900776e-06,
      "loss": 0.3115,
      "step": 2620
    },
    {
      "epoch": 1.6721837259948527,
      "grad_norm": 4.091549873352051,
      "learning_rate": 9.842833685198218e-06,
      "loss": 0.3398,
      "step": 2640
    },
    {
      "epoch": 1.6848544842605424,
      "grad_norm": 6.0433220863342285,
      "learning_rate": 9.749003049495661e-06,
      "loss": 0.3257,
      "step": 2660
    },
    {
      "epoch": 1.6975252425262324,
      "grad_norm": 1.5477123260498047,
      "learning_rate": 9.655172413793105e-06,
      "loss": 0.2748,
      "step": 2680
    },
    {
      "epoch": 1.7101960007919224,
      "grad_norm": 12.048299789428711,
      "learning_rate": 9.561341778090547e-06,
      "loss": 0.3287,
      "step": 2700
    },
    {
      "epoch": 1.7228667590576123,
      "grad_norm": 2.6785526275634766,
      "learning_rate": 9.46751114238799e-06,
      "loss": 0.3349,
      "step": 2720
    },
    {
      "epoch": 1.7355375173233023,
      "grad_norm": 12.97139835357666,
      "learning_rate": 9.373680506685433e-06,
      "loss": 0.292,
      "step": 2740
    },
    {
      "epoch": 1.7482082755889923,
      "grad_norm": 2.7771809101104736,
      "learning_rate": 9.279849870982876e-06,
      "loss": 0.367,
      "step": 2760
    },
    {
      "epoch": 1.7608790338546823,
      "grad_norm": 7.3746466636657715,
      "learning_rate": 9.18601923528032e-06,
      "loss": 0.3053,
      "step": 2780
    },
    {
      "epoch": 1.7735497921203722,
      "grad_norm": 2.682706356048584,
      "learning_rate": 9.092188599577762e-06,
      "loss": 0.3327,
      "step": 2800
    },
    {
      "epoch": 1.7862205503860622,
      "grad_norm": 5.903095245361328,
      "learning_rate": 8.998357963875205e-06,
      "loss": 0.314,
      "step": 2820
    },
    {
      "epoch": 1.7988913086517522,
      "grad_norm": 12.57073974609375,
      "learning_rate": 8.904527328172649e-06,
      "loss": 0.2257,
      "step": 2840
    },
    {
      "epoch": 1.8115620669174421,
      "grad_norm": 13.556465148925781,
      "learning_rate": 8.810696692470093e-06,
      "loss": 0.2587,
      "step": 2860
    },
    {
      "epoch": 1.824232825183132,
      "grad_norm": 19.74973487854004,
      "learning_rate": 8.716866056767536e-06,
      "loss": 0.2847,
      "step": 2880
    },
    {
      "epoch": 1.836903583448822,
      "grad_norm": 6.382844924926758,
      "learning_rate": 8.623035421064978e-06,
      "loss": 0.2795,
      "step": 2900
    },
    {
      "epoch": 1.8495743417145118,
      "grad_norm": 1.1036638021469116,
      "learning_rate": 8.529204785362422e-06,
      "loss": 0.307,
      "step": 2920
    },
    {
      "epoch": 1.862245099980202,
      "grad_norm": 17.157730102539062,
      "learning_rate": 8.435374149659866e-06,
      "loss": 0.3376,
      "step": 2940
    },
    {
      "epoch": 1.8749158582458918,
      "grad_norm": 8.132784843444824,
      "learning_rate": 8.341543513957308e-06,
      "loss": 0.2724,
      "step": 2960
    },
    {
      "epoch": 1.887586616511582,
      "grad_norm": 1.3177330493927002,
      "learning_rate": 8.247712878254751e-06,
      "loss": 0.3188,
      "step": 2980
    },
    {
      "epoch": 1.9002573747772717,
      "grad_norm": 17.743785858154297,
      "learning_rate": 8.153882242552193e-06,
      "loss": 0.2924,
      "step": 3000
    },
    {
      "epoch": 1.9002573747772717,
      "eval_accuracy": 0.8541444325862683,
      "eval_f1_progress_follow_up_note": 0.8499267935578331,
      "eval_f1_visit_note_multiple_notes": 0.8581314878892734,
      "eval_loss": 0.40441834926605225,
      "eval_macro_f1": 0.8540291407235532,
      "eval_macro_precision": 0.8553909816597827,
      "eval_macro_recall": 0.854197124262943,
      "eval_precision_progress_follow_up_note": 0.8768882175226587,
      "eval_precision_visit_note_multiple_notes": 0.8338937457969066,
      "eval_recall_progress_follow_up_note": 0.8245738636363636,
      "eval_recall_visit_note_multiple_notes": 0.8838203848895224,
      "eval_runtime": 108.2038,
      "eval_samples_per_second": 25.979,
      "eval_steps_per_second": 25.979,
      "eval_weighted_f1": 0.8540218437702168,
      "step": 3000
    },
    {
      "epoch": 1.912928133042962,
      "grad_norm": 2.500601053237915,
      "learning_rate": 8.060051606849637e-06,
      "loss": 0.2215,
      "step": 3020
    },
    {
      "epoch": 1.9255988913086517,
      "grad_norm": 13.367816925048828,
      "learning_rate": 7.96622097114708e-06,
      "loss": 0.3151,
      "step": 3040
    },
    {
      "epoch": 1.9382696495743417,
      "grad_norm": 5.970027923583984,
      "learning_rate": 7.872390335444522e-06,
      "loss": 0.2398,
      "step": 3060
    },
    {
      "epoch": 1.9509404078400316,
      "grad_norm": 7.6057281494140625,
      "learning_rate": 7.778559699741966e-06,
      "loss": 0.3203,
      "step": 3080
    },
    {
      "epoch": 1.9636111661057216,
      "grad_norm": 5.089023113250732,
      "learning_rate": 7.68472906403941e-06,
      "loss": 0.3222,
      "step": 3100
    },
    {
      "epoch": 1.9762819243714116,
      "grad_norm": 11.861034393310547,
      "learning_rate": 7.5908984283368526e-06,
      "loss": 0.2776,
      "step": 3120
    },
    {
      "epoch": 1.9889526826371016,
      "grad_norm": 8.020051002502441,
      "learning_rate": 7.497067792634296e-06,
      "loss": 0.33,
      "step": 3140
    },
    {
      "epoch": 2.001267075826569,
      "grad_norm": 6.424794673919678,
      "learning_rate": 7.403237156931738e-06,
      "loss": 0.3062,
      "step": 3160
    },
    {
      "epoch": 2.013937834092259,
      "grad_norm": 2.7503750324249268,
      "learning_rate": 7.309406521229182e-06,
      "loss": 0.2139,
      "step": 3180
    },
    {
      "epoch": 2.026608592357949,
      "grad_norm": 9.730216979980469,
      "learning_rate": 7.2155758855266255e-06,
      "loss": 0.2419,
      "step": 3200
    },
    {
      "epoch": 2.039279350623639,
      "grad_norm": 15.413846015930176,
      "learning_rate": 7.121745249824068e-06,
      "loss": 0.2481,
      "step": 3220
    },
    {
      "epoch": 2.051950108889329,
      "grad_norm": 23.724016189575195,
      "learning_rate": 7.027914614121512e-06,
      "loss": 0.1847,
      "step": 3240
    },
    {
      "epoch": 2.0646208671550186,
      "grad_norm": 3.96269154548645,
      "learning_rate": 6.934083978418954e-06,
      "loss": 0.2578,
      "step": 3260
    },
    {
      "epoch": 2.0772916254207088,
      "grad_norm": 13.879631042480469,
      "learning_rate": 6.8402533427163975e-06,
      "loss": 0.2269,
      "step": 3280
    },
    {
      "epoch": 2.0899623836863985,
      "grad_norm": 5.323411464691162,
      "learning_rate": 6.746422707013841e-06,
      "loss": 0.2483,
      "step": 3300
    },
    {
      "epoch": 2.1026331419520887,
      "grad_norm": 15.189258575439453,
      "learning_rate": 6.652592071311283e-06,
      "loss": 0.2203,
      "step": 3320
    },
    {
      "epoch": 2.1153039002177785,
      "grad_norm": 14.765256881713867,
      "learning_rate": 6.558761435608727e-06,
      "loss": 0.2668,
      "step": 3340
    },
    {
      "epoch": 2.1279746584834687,
      "grad_norm": 17.145790100097656,
      "learning_rate": 6.4649307999061696e-06,
      "loss": 0.2738,
      "step": 3360
    },
    {
      "epoch": 2.1406454167491584,
      "grad_norm": 30.691041946411133,
      "learning_rate": 6.371100164203613e-06,
      "loss": 0.2595,
      "step": 3380
    },
    {
      "epoch": 2.1533161750148486,
      "grad_norm": 24.09596824645996,
      "learning_rate": 6.277269528501057e-06,
      "loss": 0.2002,
      "step": 3400
    },
    {
      "epoch": 2.1659869332805384,
      "grad_norm": 27.902633666992188,
      "learning_rate": 6.183438892798499e-06,
      "loss": 0.2522,
      "step": 3420
    },
    {
      "epoch": 2.1786576915462286,
      "grad_norm": 4.947136878967285,
      "learning_rate": 6.0896082570959425e-06,
      "loss": 0.3523,
      "step": 3440
    },
    {
      "epoch": 2.1913284498119183,
      "grad_norm": 3.1237266063690186,
      "learning_rate": 5.995777621393385e-06,
      "loss": 0.2401,
      "step": 3460
    },
    {
      "epoch": 2.2039992080776085,
      "grad_norm": 15.652697563171387,
      "learning_rate": 5.901946985690828e-06,
      "loss": 0.3094,
      "step": 3480
    },
    {
      "epoch": 2.2166699663432983,
      "grad_norm": 32.05918502807617,
      "learning_rate": 5.808116349988272e-06,
      "loss": 0.3093,
      "step": 3500
    },
    {
      "epoch": 2.2166699663432983,
      "eval_accuracy": 0.8680184987548915,
      "eval_f1_progress_follow_up_note": 0.8677361853832442,
      "eval_f1_visit_note_multiple_notes": 0.868299609513667,
      "eval_loss": 0.39574888348579407,
      "eval_macro_f1": 0.8680178974484556,
      "eval_macro_precision": 0.8680373380420157,
      "eval_macro_recall": 0.868025041712564,
      "eval_precision_progress_follow_up_note": 0.8711524695776665,
      "eval_precision_visit_note_multiple_notes": 0.864922206506365,
      "eval_recall_progress_follow_up_note": 0.8643465909090909,
      "eval_recall_visit_note_multiple_notes": 0.8717034925160371,
      "eval_runtime": 118.7823,
      "eval_samples_per_second": 23.665,
      "eval_steps_per_second": 23.665,
      "eval_weighted_f1": 0.8680173963597592,
      "step": 3500
    },
    {
      "epoch": 2.2293407246089885,
      "grad_norm": 1.425166130065918,
      "learning_rate": 5.7142857142857145e-06,
      "loss": 0.2168,
      "step": 3520
    },
    {
      "epoch": 2.242011482874678,
      "grad_norm": 17.971229553222656,
      "learning_rate": 5.620455078583158e-06,
      "loss": 0.2861,
      "step": 3540
    },
    {
      "epoch": 2.2546822411403684,
      "grad_norm": 9.513118743896484,
      "learning_rate": 5.526624442880602e-06,
      "loss": 0.2341,
      "step": 3560
    },
    {
      "epoch": 2.267352999406058,
      "grad_norm": 32.90478515625,
      "learning_rate": 5.432793807178044e-06,
      "loss": 0.2177,
      "step": 3580
    },
    {
      "epoch": 2.2800237576717484,
      "grad_norm": 9.968705177307129,
      "learning_rate": 5.338963171475487e-06,
      "loss": 0.2022,
      "step": 3600
    },
    {
      "epoch": 2.292694515937438,
      "grad_norm": 58.16580581665039,
      "learning_rate": 5.24513253577293e-06,
      "loss": 0.2163,
      "step": 3620
    },
    {
      "epoch": 2.305365274203128,
      "grad_norm": 2.6901695728302,
      "learning_rate": 5.151301900070374e-06,
      "loss": 0.2279,
      "step": 3640
    },
    {
      "epoch": 2.318036032468818,
      "grad_norm": 12.68421745300293,
      "learning_rate": 5.057471264367817e-06,
      "loss": 0.2575,
      "step": 3660
    },
    {
      "epoch": 2.3307067907345083,
      "grad_norm": 0.7906699776649475,
      "learning_rate": 4.9636406286652595e-06,
      "loss": 0.2125,
      "step": 3680
    },
    {
      "epoch": 2.343377549000198,
      "grad_norm": 27.195411682128906,
      "learning_rate": 4.869809992962703e-06,
      "loss": 0.187,
      "step": 3700
    },
    {
      "epoch": 2.3560483072658878,
      "grad_norm": 17.920021057128906,
      "learning_rate": 4.775979357260146e-06,
      "loss": 0.2207,
      "step": 3720
    },
    {
      "epoch": 2.368719065531578,
      "grad_norm": 17.573335647583008,
      "learning_rate": 4.682148721557589e-06,
      "loss": 0.1804,
      "step": 3740
    },
    {
      "epoch": 2.3813898237972677,
      "grad_norm": 4.416901588439941,
      "learning_rate": 4.5883180858550315e-06,
      "loss": 0.2368,
      "step": 3760
    },
    {
      "epoch": 2.394060582062958,
      "grad_norm": 20.64312744140625,
      "learning_rate": 4.494487450152475e-06,
      "loss": 0.2209,
      "step": 3780
    },
    {
      "epoch": 2.4067313403286477,
      "grad_norm": 1.3113808631896973,
      "learning_rate": 4.400656814449919e-06,
      "loss": 0.2036,
      "step": 3800
    },
    {
      "epoch": 2.419402098594338,
      "grad_norm": 3.692548990249634,
      "learning_rate": 4.306826178747362e-06,
      "loss": 0.2743,
      "step": 3820
    },
    {
      "epoch": 2.4320728568600276,
      "grad_norm": 4.942405700683594,
      "learning_rate": 4.212995543044804e-06,
      "loss": 0.303,
      "step": 3840
    },
    {
      "epoch": 2.444743615125718,
      "grad_norm": 4.024429798126221,
      "learning_rate": 4.119164907342247e-06,
      "loss": 0.2055,
      "step": 3860
    },
    {
      "epoch": 2.4574143733914076,
      "grad_norm": 23.20954704284668,
      "learning_rate": 4.025334271639691e-06,
      "loss": 0.2174,
      "step": 3880
    },
    {
      "epoch": 2.4700851316570978,
      "grad_norm": 17.579273223876953,
      "learning_rate": 3.931503635937134e-06,
      "loss": 0.1894,
      "step": 3900
    },
    {
      "epoch": 2.4827558899227875,
      "grad_norm": 35.10735321044922,
      "learning_rate": 3.837673000234577e-06,
      "loss": 0.3236,
      "step": 3920
    },
    {
      "epoch": 2.4954266481884777,
      "grad_norm": 12.188776016235352,
      "learning_rate": 3.7438423645320197e-06,
      "loss": 0.2034,
      "step": 3940
    },
    {
      "epoch": 2.5080974064541675,
      "grad_norm": 20.4257755279541,
      "learning_rate": 3.650011728829463e-06,
      "loss": 0.2026,
      "step": 3960
    },
    {
      "epoch": 2.5207681647198577,
      "grad_norm": 15.676523208618164,
      "learning_rate": 3.5561810931269066e-06,
      "loss": 0.2053,
      "step": 3980
    },
    {
      "epoch": 2.5334389229855474,
      "grad_norm": 28.992294311523438,
      "learning_rate": 3.4623504574243494e-06,
      "loss": 0.171,
      "step": 4000
    },
    {
      "epoch": 2.5334389229855474,
      "eval_accuracy": 0.8619708288865172,
      "eval_f1_progress_follow_up_note": 0.8580833942940747,
      "eval_f1_visit_note_multiple_notes": 0.8656509695290858,
      "eval_loss": 0.5076721906661987,
      "eval_macro_f1": 0.8618671819115802,
      "eval_macro_precision": 0.8631831131831131,
      "eval_macro_recall": 0.8620222797738613,
      "eval_precision_progress_follow_up_note": 0.8846153846153846,
      "eval_precision_visit_note_multiple_notes": 0.8417508417508418,
      "eval_recall_progress_follow_up_note": 0.8330965909090909,
      "eval_recall_visit_note_multiple_notes": 0.8909479686386315,
      "eval_runtime": 102.3415,
      "eval_samples_per_second": 27.467,
      "eval_steps_per_second": 27.467,
      "eval_weighted_f1": 0.8618604515885324,
      "step": 4000
    },
    {
      "epoch": 2.546109681251237,
      "grad_norm": 6.362001419067383,
      "learning_rate": 3.368519821721792e-06,
      "loss": 0.2718,
      "step": 4020
    },
    {
      "epoch": 2.5587804395169274,
      "grad_norm": 15.50227165222168,
      "learning_rate": 3.2746891860192354e-06,
      "loss": 0.2209,
      "step": 4040
    },
    {
      "epoch": 2.5714511977826175,
      "grad_norm": 1.3062665462493896,
      "learning_rate": 3.180858550316679e-06,
      "loss": 0.1558,
      "step": 4060
    },
    {
      "epoch": 2.5841219560483073,
      "grad_norm": 0.5490488409996033,
      "learning_rate": 3.087027914614122e-06,
      "loss": 0.2584,
      "step": 4080
    },
    {
      "epoch": 2.596792714313997,
      "grad_norm": 12.344088554382324,
      "learning_rate": 2.993197278911565e-06,
      "loss": 0.2771,
      "step": 4100
    },
    {
      "epoch": 2.6094634725796872,
      "grad_norm": 11.49024772644043,
      "learning_rate": 2.899366643209008e-06,
      "loss": 0.1499,
      "step": 4120
    },
    {
      "epoch": 2.622134230845377,
      "grad_norm": 28.608402252197266,
      "learning_rate": 2.8055360075064507e-06,
      "loss": 0.3179,
      "step": 4140
    },
    {
      "epoch": 2.634804989111067,
      "grad_norm": 0.6500977873802185,
      "learning_rate": 2.7117053718038943e-06,
      "loss": 0.1418,
      "step": 4160
    },
    {
      "epoch": 2.647475747376757,
      "grad_norm": 4.209508419036865,
      "learning_rate": 2.6178747361013375e-06,
      "loss": 0.1445,
      "step": 4180
    },
    {
      "epoch": 2.660146505642447,
      "grad_norm": 10.92824935913086,
      "learning_rate": 2.5240441003987803e-06,
      "loss": 0.2526,
      "step": 4200
    },
    {
      "epoch": 2.672817263908137,
      "grad_norm": 12.959105491638184,
      "learning_rate": 2.4302134646962236e-06,
      "loss": 0.1802,
      "step": 4220
    },
    {
      "epoch": 2.685488022173827,
      "grad_norm": 11.27115535736084,
      "learning_rate": 2.336382828993667e-06,
      "loss": 0.2232,
      "step": 4240
    },
    {
      "epoch": 2.698158780439517,
      "grad_norm": 6.165294647216797,
      "learning_rate": 2.24255219329111e-06,
      "loss": 0.2053,
      "step": 4260
    },
    {
      "epoch": 2.710829538705207,
      "grad_norm": 36.02950668334961,
      "learning_rate": 2.148721557588553e-06,
      "loss": 0.2074,
      "step": 4280
    },
    {
      "epoch": 2.723500296970897,
      "grad_norm": 12.725351333618164,
      "learning_rate": 2.0548909218859956e-06,
      "loss": 0.1341,
      "step": 4300
    },
    {
      "epoch": 2.7361710552365865,
      "grad_norm": 13.927994728088379,
      "learning_rate": 1.9610602861834393e-06,
      "loss": 0.1189,
      "step": 4320
    },
    {
      "epoch": 2.7488418135022767,
      "grad_norm": 5.510863780975342,
      "learning_rate": 1.867229650480882e-06,
      "loss": 0.2322,
      "step": 4340
    },
    {
      "epoch": 2.761512571767967,
      "grad_norm": 1.6886321306228638,
      "learning_rate": 1.7733990147783253e-06,
      "loss": 0.1853,
      "step": 4360
    },
    {
      "epoch": 2.7741833300336567,
      "grad_norm": 14.619585990905762,
      "learning_rate": 1.6795683790757683e-06,
      "loss": 0.1861,
      "step": 4380
    },
    {
      "epoch": 2.7868540882993464,
      "grad_norm": 1.4402116537094116,
      "learning_rate": 1.5857377433732115e-06,
      "loss": 0.1813,
      "step": 4400
    },
    {
      "epoch": 2.7995248465650366,
      "grad_norm": 24.451526641845703,
      "learning_rate": 1.4919071076706545e-06,
      "loss": 0.2617,
      "step": 4420
    },
    {
      "epoch": 2.812195604830727,
      "grad_norm": 0.2858981788158417,
      "learning_rate": 1.3980764719680978e-06,
      "loss": 0.1034,
      "step": 4440
    },
    {
      "epoch": 2.8248663630964166,
      "grad_norm": 59.733455657958984,
      "learning_rate": 1.3042458362655408e-06,
      "loss": 0.2686,
      "step": 4460
    },
    {
      "epoch": 2.8375371213621063,
      "grad_norm": 36.8922233581543,
      "learning_rate": 1.210415200562984e-06,
      "loss": 0.1375,
      "step": 4480
    },
    {
      "epoch": 2.8502078796277965,
      "grad_norm": 11.873230934143066,
      "learning_rate": 1.116584564860427e-06,
      "loss": 0.1688,
      "step": 4500
    },
    {
      "epoch": 2.8502078796277965,
      "eval_accuracy": 0.8623265741728922,
      "eval_f1_progress_follow_up_note": 0.8575634891424365,
      "eval_f1_visit_note_multiple_notes": 0.8667814113597246,
      "eval_loss": 0.5980954766273499,
      "eval_macro_f1": 0.8621724502510806,
      "eval_macro_precision": 0.8641040364820423,
      "eval_macro_recall": 0.8623887833700512,
      "eval_precision_progress_follow_up_note": 0.8899923605805958,
      "eval_precision_visit_note_multiple_notes": 0.8382157123834887,
      "eval_recall_progress_follow_up_note": 0.8274147727272727,
      "eval_recall_visit_note_multiple_notes": 0.8973627940128297,
      "eval_runtime": 104.6465,
      "eval_samples_per_second": 26.862,
      "eval_steps_per_second": 26.862,
      "eval_weighted_f1": 0.8621642521701333,
      "step": 4500
    },
    {
      "epoch": 2.8628786378934863,
      "grad_norm": 28.171241760253906,
      "learning_rate": 1.0227539291578702e-06,
      "loss": 0.321,
      "step": 4520
    },
    {
      "epoch": 2.8755493961591765,
      "grad_norm": 13.391672134399414,
      "learning_rate": 9.289232934553133e-07,
      "loss": 0.214,
      "step": 4540
    },
    {
      "epoch": 2.8882201544248662,
      "grad_norm": 39.85441589355469,
      "learning_rate": 8.350926577527563e-07,
      "loss": 0.212,
      "step": 4560
    },
    {
      "epoch": 2.9008909126905564,
      "grad_norm": 9.093245506286621,
      "learning_rate": 7.412620220501994e-07,
      "loss": 0.1615,
      "step": 4580
    },
    {
      "epoch": 2.913561670956246,
      "grad_norm": 0.9500323534011841,
      "learning_rate": 6.474313863476425e-07,
      "loss": 0.1837,
      "step": 4600
    },
    {
      "epoch": 2.9262324292219364,
      "grad_norm": 42.40494155883789,
      "learning_rate": 5.536007506450856e-07,
      "loss": 0.2984,
      "step": 4620
    },
    {
      "epoch": 2.938903187487626,
      "grad_norm": 44.93811798095703,
      "learning_rate": 4.5977011494252875e-07,
      "loss": 0.1957,
      "step": 4640
    },
    {
      "epoch": 2.9515739457533163,
      "grad_norm": 2.9618544578552246,
      "learning_rate": 3.6593947923997187e-07,
      "loss": 0.2621,
      "step": 4660
    },
    {
      "epoch": 2.964244704019006,
      "grad_norm": 15.622157096862793,
      "learning_rate": 2.72108843537415e-07,
      "loss": 0.1394,
      "step": 4680
    },
    {
      "epoch": 2.976915462284696,
      "grad_norm": 14.408354759216309,
      "learning_rate": 1.782782078348581e-07,
      "loss": 0.228,
      "step": 4700
    },
    {
      "epoch": 2.989586220550386,
      "grad_norm": 10.041589736938477,
      "learning_rate": 8.444757213230121e-08,
      "loss": 0.2618,
      "step": 4720
    },
    {
      "epoch": 3.0,
      "step": 4737,
      "total_flos": 7.083979991829504e+16,
      "train_loss": 0.056272623582759036,
      "train_runtime": 2232.9044,
      "train_samples_per_second": 33.931,
      "train_steps_per_second": 2.121
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.8680184987548915,
      "eval_f1_progress_follow_up_note": 0.8676418123439172,
      "eval_f1_visit_note_multiple_notes": 0.868393047179851,
      "eval_loss": 0.39587754011154175,
      "eval_macro_f1": 0.8680174297618841,
      "eval_macro_precision": 0.8680456837373185,
      "eval_macro_recall": 0.8680263072636558,
      "eval_precision_progress_follow_up_note": 0.8716845878136201,
      "eval_precision_visit_note_multiple_notes": 0.864406779661017,
      "eval_recall_progress_follow_up_note": 0.8636363636363636,
      "eval_recall_visit_note_multiple_notes": 0.872416250890948,
      "eval_runtime": 103.357,
      "eval_samples_per_second": 27.197,
      "eval_steps_per_second": 27.197,
      "eval_weighted_f1": 0.8680167616412545,
      "step": 4737
    }
  ],
  "logging_steps": 20,
  "max_steps": 4737,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 7.083979991829504e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}