你知道大型語言模型做選擇題會有盲點嗎？（上）

本篇為論文 Unveiling Selection Biases: Exploring Order and Token Sensitivity in Large Language Models 的白話文介紹，欲瞭解更多細節建議閱讀原論文。

Cover image generated by GPT-4o 我用 GPT-4o 產的封面圖，雖然不盡完美破圖明顯，但僅以紀錄 2024 年 6 月 AI 技術的極限

隨著大型語言模型 (Large language model，以下簡稱 LLM) 的蓬勃發展，人們開始使用如 ChatGPT、Gemini、Claude、Perplexity 做各種任務，其中，讓 LLM 做「選擇」是一個常見的情境，包含但不限於：

選擇題 (Multiple Choice Questions)

不論你升高中考的是基測或會考，升大學考的是學測/統測/指考/分科，身為在台灣求學的我們再熟悉不過的情境，題目給定一段文字，並給予 4–5 個選項，作答者需要從中選出正確的答案。

延伸閱讀：地表最強AI「ChatGPT」考指考能上台大醫科嗎?

扮演評分者 (LLM as Evaluator/Judger)

有些應用希望透過 LLM 強大的能力來取代評分者，以降低人力的耗用。例如：給一篇作文分數。如果是「選擇」的情境，將會變成給定 A 、B 兩篇作文，請模型挑出比較好的那篇。

然而，許多研究發現，LLM 在做「選擇」時會有偏見，包含對於選項符號和選項順序，就好比，以前考試不會的都寫 C 一樣 😂

對於僅想利用 LLM 做點事的我們，這樣的偏見或者說現象，可能會對結果有所影響，因此我想深入的探討這個問題，並試著提出一些解法，希望讓更多像我一樣會用 LLM 做事的人有所幫助。

觀察 LLM 對於選項符號和順序的敏感度

讓我們用去年 112 年國中會考社會科的題目來當例子吧：

《周成過臺灣》是著名的民間傳說，其時代背景符合史實。故事描述周成拋下故鄉泉州的妻兒，獨自來臺經商。適逢淡水、雞籠開港通商，周成在大稻埕從事新興商品出口而致富。後來周成移情別戀，謀殺了來臺灣探視的妻子，最終受到報應而死。根據上述內容，周成最有可能從事下列何種商品的貿易？ (A) 茶葉 (B) 鹿皮 (C) 蔗糖 (D) 鴉片

我們想要探索 LLM 在題幹不變的情況下，對於選項符號和順序的敏感度，透過調整以下三個設定，來觀察 LLM 結果的變化。

正序 (forward) 時選項和原題目相同，而我們根據不同設定，來調整倒序 (backward) 時選項。

1. 符號敏感度 (Token Sensitivity)

符號對於 LLM 決策的影響

倒序 (backward) 時，選項為：

(D) 茶葉 (C) 鹿皮 (B) 蔗糖 (A) 鴉片

直觀來說，觀察選項順序不變的狀況下，搭配不同的符號是否會影響 LLM 的決策。像例子中，假設正序的狀況下 LLM 選擇了茶葉，我們好奇如果茶葉從 (A) 變為 (D)，LLM 回答的結果是否改變。

2. 順序敏感度 (Order Sensitivity)

順序對於 LLM 決策的影響

倒序 (backward) 時，選項為：

(D) 鴉片 (C) 蔗糖 (B) 鹿皮 (A) 茶葉

想法類似，但在順序敏感度的設定下，我們改成調整選項的順序，但不改變其對應的符號。舉例來說，茶葉在正序和倒序狀況皆為 (A) 選項，但位置卻從第一個選項變成第四個選項。

3. 綜合敏感度 (Both Sensitivity)

符號和順序對於 LLM 決策的影響

倒序 (backward) 時，選項為：

(A) 鴉片 (B) 蔗糖 (C) 鹿皮 (D) 茶葉

綜合上面兩種設定，如果同時改變符號和順序，對 LLM 的影響又為何？舉例來說，茶葉從 (A) 變為 (D) 之外，也從第一個選項變成第四個選項。

評估敏感度的方式

為了計算 LLM 對於符號和順序的敏感度，我們訂了搖擺率 (Fluctuation Rate) 這個指標，代表著 LLM 在正序和倒序的狀況下，做出不同的決策。

Fluctuation Rate 公式

舉例來說，上面的例子，在綜合敏感度的設定下，正序時 LLM 選了 (C) 蔗糖，但倒序時卻選了 (D) 茶葉，那我們會說 LLM 在這題是搖擺的。搖擺率即代表總共 N 題中，LLM 做出不同決策的比率。

特別注意，搖擺率和正確率 (Accuracy) 並不相關，這裏我們在乎的是 LLM 因為選項符號、順序改變對於決策的影響，就好比，假設有個題目問澳洲首都是哪裡，而你心中以為是雪梨，此時雪梨不論是在 (A) (B) (C) (D) 哪一個選項你應該都會選（即使正確答案其實是堪培拉）。

實驗結果和觀察

我們用了六個不同的資料集，包含 ARC-Challenge、HellaSwag、MMLU、Winogrande、MathQA、OpenBookQA，涵蓋了各種類型的問題，舉凡人類常識問答、數理問題 (STEM)、社會科學、人文、醫療、財金等。

使用的模型涵蓋了三個不同系列的模型，Google 的 PaLM2 和 Gemini Pro 1.0，OpenAI 的 ChatGPT 3.5 (GPT4 太貴了QQ)、Meta 的 LLaMA 2 三個不同的模型大小 (7B、13B、70B)。

下表中 T、O、B 分別代表符號敏感度 (T)、順序敏感度 (O)、綜合敏感度 (B)，Acc 代表正確率，Fluct 則代表我們定義的搖擺率。

實驗結果表

一個有趣的發現

從上表中，我們觀察到題目的難度似乎和搖擺率有些關係，為了驗證這件事，我們使用了 MMLU 來觀察這個現象，並試著把正確率和搖擺率畫成散佈圖，意外發現兩者確實存在著趨勢。

備註：MMLU 這個資料集涵蓋了 57 個不同科目的考題，像是高中數學、大學物理、總體經濟學、個體經濟學、行銷學、國際關係等。

正確率與搖擺率的散佈圖

從圖中我們可以發現，正確率越高（即題目越簡單），搖擺率相對越低（不容易被選項符號、順序影響），在 PaLM2、Gemini、GPT3.5、LLaMA2 70B 皆有這個現象，這和人類的行為也雷同，我們在作答時，如果題目很難，四個選項都看不懂，我們也傾向亂猜，很難選到同一個答案。

另一個有趣的現象是，在模型能力明顯不足時，猜測因為其對題目的掌握度不高，因此正確率越高，搖擺率越低這個趨勢並不存在，但當模型能力逐漸增加，這個現象就會慢慢出現，試著觀察 LLaMA 2 模型在 7B、13B、70B 的結果。

Conclusion

在這篇文章，我們白話文說明了 Unveiling Selection Biases: Exploring Order and Token Sensitivity in Large Language Models 這篇論文的前半部分，讓大家了解 LLM 對於選項符號和順序是會有偏差 (Bias) 的，論文的下半部有提供了減緩這些偏差的方式，讓我們留到下篇再與大家分享（等不及的建議直接去看原論文）。