Japanese Risk Classifier - リスクあり/なし 二値分類モデル
このモデルは、日本語の医療で使われる会話文を対象に「ハイリスクあり」「ハイリスクなし」を二値で分類するためにファインチューニングされたBERTベースモデルです。
医療・介護・健康関連の文脈などにおける状態・兆候・症状のリスク分類を想定しています。
📌 ベースモデル
- モデル名:
llm-book/bert-base-japanese-v3-marc_ja - モデルタイプ:BERT(日本語事前学習済み)
🧪 学習設定
| 項目 | 設定値 |
|---|---|
| 学習エポック数 | 6 |
| バッチサイズ | 8 |
| 学習率 | 2e-5 |
| トークナイザー | AutoTokenizer |
| トークン長 | padding="max_length" |
使用データ:CSVファイル train.csv に含まれる以下の形式
text,label
"夜1時頃トイレに行った時寒気と足の震えが強くて…",リスクあり
🧠 ラベル定義
リスクなし→ 0リスクあり→ 1
🛠 使用方法
推論(Inference)
from transformers import pipeline
classifier = pipeline("text-classification", model="ユーザー名/モデル名", tokenizer="ユーザー名/モデル名")
result = classifier("夜1時頃トイレに行った時寒気と足の震えが強くて…")
print(result)
出力例:
[{'label': 'リスクあり', 'score': 0.982}]
推論速度
ローカル環境(Windows)での実測:
⏱ 推論時間: 約2.00秒
💾 保存済みファイル構成
./risk_classifier/
├── config.json
├── pytorch_model.bin
├── tokenizer_config.json
├── tokenizer.json(または vocab.txt 等)
├── special_tokens_map.json
└── README.md
📄 ライセンス
MIT License
📄 Framework versions
transformers 4.41.1(最新版でOK) Hugging Face ライブラリの本体
fugashi 1.3.0〜1.5.1 日本語形態素解析(MeCab wrapper)
unidic-lite 1.0.8 以降 軽量辞書(fugashi用)
torch 2.0〜2.2(互換性重視) PyTorch:モデルの実行基盤
📬 お問い合わせ
本モデルに関する質問・改善提案は Issue や Pull Request にてご連絡ください。
- Downloads last month
- 12
Evaluation results
- Accuracy on Custom CSV (train.csv)self-reported0.XX