![]()
當我們讓AI助手幫忙寫一封郵件時,如果要求"請用正式語調,并在結尾加上雙引號",你覺得它能做到嗎?莫斯科高等經濟學院的研究員尼古拉·斯克里普科發現了一個令人意外的現象:即使是最先進的大語言模型,在執行看似簡單的格式指令時也經常"掉鏈子"。這項發表于2025年9月的研究論文(arXiv:2509.18420v1)首次系統性地揭示了AI在函數調用中遵循格式指令的能力缺陷,為我們理解AI的真實能力邊界提供了全新視角。
在當今的AI時代,大語言模型不僅要能聊天,更要能像真正的助手一樣調用各種工具和API來完成復雜任務。比如,當你讓AI幫你訂餐廳時,它需要調用預訂系統的函數,并且必須嚴格按照系統要求的格式填寫信息——用戶名必須首字母大寫,日期必須是ISO格式,電話號碼不能包含標點符號等等。然而,斯克里普科的研究團隊發現,現有的AI評測基準只關注"功能是否正確",卻忽略了"格式是否準確"這個同樣重要的維度。
為了填補這個評估空白,研究團隊開發了一個名為IFeval-FC的全新測試基準。這個基準的巧妙之處在于,它將格式要求直接嵌入到函數參數的描述中,就像在菜譜中寫明"鹽必須是海鹽,糖必須是細砂糖"一樣具體明確。整個測試包含750個精心設計的案例,每個案例都包含一個帶有特定格式要求的函數和一個對應的用戶查詢。
研究團隊從現實世界中汲取靈感,設計了19種不同類型的格式指令,涵蓋了從簡單的大小寫要求到復雜的標點符號規則等各個方面。這些指令被分為七大類別,就像把不同類型的游戲規則分門別類一樣清晰有序。關鍵詞類別要求文本中必須包含或排除特定詞匯,就像寫作文時必須用到某些關鍵詞。長度約束類別控制文本的字數或句子數量,類似于推特的字符限制。語言類別限制使用特定的文字系統,比如要求只能用西里爾字母。格式類別要求特定的排版樣式,比如JSON格式或Python列表格式。大小寫類別控制字母的大小寫形式。標點符號類別規定逗號等符號的使用頻率。開頭結尾類別要求文本以特定方式開始或結束。
在數據集的構建過程中,研究團隊采用了雙重策略。一部分函數來自現有的BFCL基準測試,這些都是真實世界中使用的函數模式,研究團隊在其基礎上添加了格式約束。另一部分函數則是團隊使用GPT-5專門生成的,覆蓋了80個不同的應用領域,從社交媒體管理到金融服務,確保測試的廣泛性和實用性。每個函數都必須包含一個自由形式的參數,這個參數就像一張白紙,可以應用任何格式約束,模擬現實中AI需要生成符合特定要求文本的場景。
為了確保測試的真實性,研究團隊為每個函數生成了五個不同的用戶查詢。這些查詢都用自然對話的語言表達,包含調用函數所需的所有信息,但故意不提及格式要求——因為在現實中,用戶通常不會知道系統內部的格式規范。這就像顧客在餐廳點菜時,不會知道廚房內部對食材處理的具體要求一樣。
在測試過程中,研究團隊遇到了一個有趣的現象。一些最新的AI模型,特別是Anthropic公司的Claude系列,在面對模糊情況時會主動尋求用戶澄清,而不是直接執行函數調用。雖然這種謹慎態度在某些情況下是好事,但在這個測試中卻會影響評估的公平性。因此,研究團隊添加了一條系統指令,明確要求模型"無論如何都必須調用函數,絕不要求用戶澄清任何事情"。
評估結果令人震驚。即使是目前最先進的商業模型,如OpenAI的GPT-5和Anthropic的Claude Opus 4.1,在這個看似簡單的任務上也頻頻失誤。沒有任何一個模型的準確率超過80%,這意味著每五次格式要求中就有至少一次會被忽略或執行錯誤。這個發現特別令人意外,因為對人類來說,遵循這些格式指令是極其簡單的任務。
具體來看各個模型的表現,我們可以發現一些有趣的模式。在處理JSON格式要求時,大多數模型都表現不佳,有些模型的成功率甚至為零。這就像讓一個人按照特定模板填表,結果他們完全忽略了模板的存在。在關鍵詞頻率控制方面,較新的模型表現相對較好,但仍然存在明顯的改進空間。最令人困惑的是,一些看似簡單的任務,比如控制文本中逗號的數量,即使是最先進的模型也經常搞錯。
研究還發現了模型之間的顯著差異。OpenAI的最新模型在某些任務上表現出色,比如空格控制和標題格式,但在其他任務上卻表現平平。Anthropic的模型在處理占位符計數和高亮部分計數時表現較好,但在字母頻率控制方面卻力不從心。俄羅斯的GigaChat模型雖然整體表現不如國際主流模型,但在某些特定任務上也有不錯的表現。
這些發現對AI應用的實際部署具有重要意義。在現實世界中,AI助手經常需要與各種API和系統交互,而這些系統往往對輸入格式有嚴格要求。一個看似微小的格式錯誤就可能導致整個工作流程的失敗。比如,如果AI助手在幫用戶預訂機票時,沒有按照航空公司系統要求的格式填寫乘客姓名,整個預訂就會失敗。
更深層次地分析,這個問題反映了當前AI訓練方法的局限性。大語言模型在訓練時主要關注內容的正確性和流暢性,而對格式的精確控制重視不夠。這就像培養一個作家時只關注文章內容是否精彩,卻忽略了標點符號和段落格式的重要性。雖然內容是核心,但格式的準確性在很多應用場景中同樣關鍵。
研究團隊也指出了當前基準測試的一些限制。目前的測試只涉及單個函數調用,而在實際應用中,AI往往需要從多個可選函數中選擇正確的一個,這會增加任務的復雜性。此外,當前的測試主要基于英語,未來可能需要擴展到多語言環境,以評估AI在不同語言背景下的格式控制能力。
從技術發展的角度來看,這項研究為AI能力評估開辟了一個新的維度。傳統的AI評測主要關注"做對了什么",而這項研究關注的是"怎么做的"。這種評估方式更接近現實應用的需求,因為在實際部署中,AI不僅要給出正確答案,還要以正確的方式給出答案。
對于AI開發者來說,這項研究提供了明確的改進方向。未來的模型訓練可能需要更多地關注格式控制能力,或許需要專門的訓練數據和優化策略來提升這方面的表現。這就像在培訓客服人員時,不僅要教他們如何解決問題,還要教他們如何按照公司規范的格式記錄和報告問題。
對于普通用戶來說,這項研究提醒我們在使用AI助手時要保持適當的期望。雖然AI在很多方面已經表現得非常出色,但在一些看似簡單的細節處理上仍然可能出錯。在關鍵應用中,人工檢查和驗證仍然是必要的。
展望未來,研究團隊計劃進一步擴展這個基準測試,增加更多類型的格式約束和更復雜的多函數選擇場景。他們還考慮將測試擴展到多語言環境,以評估AI在不同文化和語言背景下的格式控制能力。這些擴展將為AI能力評估提供更全面的視角,推動整個領域向更實用、更可靠的方向發展。
說到底,這項研究揭示了一個看似矛盾的現象:AI可以寫出精彩的詩歌,可以解決復雜的數學問題,但卻可能在"請用雙引號包圍這個詞"這樣的簡單要求上犯錯。這提醒我們,AI的能力發展并不是均勻的,在某些看似基礎的任務上仍有很大的改進空間。對于整個AI行業來說,這項研究不僅指出了當前的不足,更重要的是為未來的發展指明了方向。只有當AI能夠在各個維度上都達到可靠的表現,它才能真正成為我們日常生活和工作中值得信賴的助手。
Q&A
Q1:IFeval-FC基準測試是什么?它和其他AI測試有什么不同?
A:IFeval-FC是專門評估大語言模型在函數調用中遵循格式指令能力的測試基準。與其他只關注功能正確性的測試不同,它專門檢查AI是否能按照要求的格式輸出結果,比如是否能正確使用大寫字母、特定標點符號或JSON格式等。
Q2:為什么大語言模型在格式控制方面表現不好?
A:研究發現這主要是因為當前AI訓練時更關注內容的正確性和流暢性,而對格式的精確控制重視不夠。就像培養作家時只關注文章內容是否精彩,卻忽略了標點符號和段落格式的重要性一樣。
Q3:這項研究對普通用戶使用AI有什么啟示?
A:這提醒我們在使用AI助手時要保持適當期望,特別是在需要嚴格格式要求的任務中。雖然AI在很多方面表現出色,但在一些看似簡單的細節處理上仍可能出錯,關鍵應用中人工檢查驗證仍然必要。





京公網安備 11011402013531號