math RL for LLM
Collection
算術推論能力を検証するためのモデル
•
2 items
•
Updated
max_new_tokens=256で、ryota39/gsm8k-jaを使って事後学習したモデルです。import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "ryota39/Qwen3-8B-math-RL-ja"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto",
)
prompt = "クリスマスツリーには飾り棚が8段あり、各段には45個のオーナメントを飾れます。現在、全体の3分の2が飾られています。ツリーに飾られているオーナメントは全部で何個ですか?回答は\\boxed{answer}の形式で書きなさい。"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))
# 出力例
# <think>
# まず、クリスマスツリーの飾り棚の総数と各段のオーナメントの数を計算します。飾り棚が8段あり、各段には45個のオーナメントが飾られているため、総オーナメント数は8段 × 45個/段 = 360個です。
#
# 次に、現在の飾られているオーナメントの割合は全体の3分の2です。したがって、現在飾られているオーナメントの数は360個 × 2/3 = 240個です。
#
# 答えは240個です。
# </think>
#
# 全体のオーナメントの数は $8 \times 45 = 360$ 個です。現在、その $\frac{2}{3}$ が飾られているため、飾られているオーナメントの数は $360 \times \frac{2}{3} = 240$ 個です。
#
# 答えは $\boxed{240}$ です。