AI參加高考，為何偏科嚴重

楊雪

2024年07月04日09:02 | 來源：科技日報

小字號

大模型參加高考，能考多少分？近日，科技創新交流平臺極客公園發布高考新課標Ⅰ卷大模型評測報告，在參試大模型中，GPT-4o以562分的成績排名文科第一。參加評測的8款國產大模型中，字節跳動旗下的豆包成績是542.5分，其后依次是百度文心一言4.0的537.5分和百川智能“百小應”的521分。本次大模型高考評測與河南省考卷完全相同，以上3款國產大模型均超過河南文科一本線521分。GPT-4o的562分在河南文科考生中可排名8811名，相當于前2.45%；豆包處于前4.27%，接近頂尖大模型的水平。

文綜評測中，GPT-4o獲237分，優于多數人類考生。國產大模型中，豆包文綜成績最高，得分224.5分，其中歷史達到82.5分，在所有9款大模型中排第一。地理考卷有大量圖片考題，圖像理解能力較強的GPT-4o得到最高分，但僅有68分。

語文、英語評測中，多家大模型在客觀題上拿滿分。但寫作文是弱項。多次參加全國高考語文閱卷的北京市級骨干教師、懷柔區語文學科帶頭人夏老師是本次評測的作文閱卷人。她認為，“AI作文有清晰完整的結構，有邏輯性，語言通順流暢，但缺乏感情和感染力”。同理，在40分的英語寫作考試中，大模型的最高分只有29分，主要丟分在表達空泛、缺少細節上。

值得注意的是，大模型高考呈現出嚴重的偏科現象：數學、物理、化學等數理學科全線不及格，總分最高分不到480。而河南理科一本線是511分。最頂尖的大模型無法進入理科考生的前30%。

數學評測中，僅GPT-4o、文心一言4.0和豆包獲得60分以上成績（滿分150分）。大模型能準確運用求導公式和三角函數定理，但面對較為復雜的推導和證明問題就很難得分。物理有一道送分的選擇題，人類考生根據“時間不會倒流”可以輕易選對答案，大模型則全軍覆沒。

“目前的大語言模型本質上是文字接龍，基于海量資料，預測下一個最可能出現的詞句。通過不斷預測，生成連貫和完整的文本。應對文科考試，大模型的用詞不準或用了近義詞，不太影響評分。但理科考試考驗推理和計算，比如一道題有五步推理，大模型走偏一步，答案就全錯。而且大模型的訓練數據中，文科語料要遠遠大于理科語料。”國內一位大模型研發專家告訴科技日報記者。

近期，有一些國內外大模型在奧數題評測（非奧數現場比賽）上拿到不錯的成績。對此，該專家解釋，用大家都訓練過的公開數據集評測，大模型的準確率很高；但用比較新的數據集去測試，準確率就大大下降。最新的高考題是哪家大模型都沒有訓練過的，考驗的是數學推理和計算的泛化能力，這就暴露了大模型的短板。

北京大學計算語言學研究所教授穗志方近日也表示，大模型在中國高考、公務員考試和美國SAT考試等標準化考試中的表現是優劣兼具的。一些大模型在SAT數學測試中表現優異，但在復雜推理或特定知識領域中的表現不夠出色。

“在大模型內在機理沒有探究清楚的情況下，我們目前的評測路徑只能依靠從外部表現來推測內在能力。”穗志方說，未來應發展更系統的評測大綱、更具挑戰的評測任務、更科學的評測方法。AI是否比人類更適合考試？尚未可定論。

(責編：王震、陳鍵)

關注公眾號：人民網財經