claude_4_sonnet_math_evaluation(claude_4_sonnet_math_evaluation)

Claude 4 SONNET的数学评估能力的全面评估：500个原始问题揭示了JSON引起的LLM评估任务中的错误和系统模式。研究表明，由于JSON结构中的过早决策，正确答案的准确性为100％，但正确的答案的准确性为84.3％。