AI觀察|面對“刷分”,大模型測試集到了不得不變的時刻