Qwen3-8B-mathRL-ja

Qwen/Qwen3-8Bを少ないトークン予算の元max_new_tokens=256で、ryota39/gsm8k-jaを使って事後学習したモデルです。
tinker_cookbookのrl_basic.pyに従い、accuracy_rewardとformat_rewardを最大化するようなモデルの重みを学習しています。
詳細はTinker APIと限られたトークン長でのLLMの強化学習に記載しています。

How to use

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "ryota39/Qwen3-8B-math-RL-ja"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

prompt = "クリスマスツリーには飾り棚が8段あり、各段には45個のオーナメントを飾れます。現在、全体の3分の2が飾られています。ツリーに飾られているオーナメントは全部で何個ですか？回答は\\boxed{answer}の形式で書きなさい。"

messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)

outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))

# 出力例
# <think>
# まず、クリスマスツリーの飾り棚の総数と各段のオーナメントの数を計算します。飾り棚が8段あり、各段には45個のオーナメントが飾られているため、総オーナメント数は8段 × 45個/段 = 360個です。
#
# 次に、現在の飾られているオーナメントの割合は全体の3分の2です。したがって、現在飾られているオーナメントの数は360個 × 2/3 = 240個です。
#
# 答えは240個です。
# </think>
#
# 全体のオーナメントの数は $8 \times 45 = 360$ 個です。現在、その $\frac{2}{3}$ が飾られているため、飾られているオーナメントの数は $360 \times \frac{2}{3} = 240$ 個です。
#
# 答えは $\boxed{240}$ です。