【共學演講】當 AI 走進教室：一位前線教師的真實心聲與評量變革之路 | 盧政良老師

2025年4月6日 · 外積分工作室

AI 教育

評量變革

教師經驗

共學演講

一百多年前，大家都要會騎馬，那我問你，你會騎馬嗎？我們現在這個年代，似乎不太需要學會騎馬嘛，可是我們現在要學會開車。

來自高雄中學的物理老師盧政良，帶著一股實戰派的熱忱開場。他對清華大學這群年輕學子自發組成的「共學圈」表達了濃厚興趣，「某個部分，這跟我們現在教學現場的『教師共備』其實蠻像的。」這句話，不僅是開場白，也點出了貫穿整場分享的核心精神：在快速變遷的教育浪潮中，教師們如何透過社群力量，共同摸索、學習、甚至「玩轉」新科技，特別是這幾年席捲而來的 AI。

盧老師坦言，他今天想聚焦在「評量與批改作業」這一塊，雖然他參與的教育部因材網 AI 工具開發、在學校開設的 AI 選修課等經驗包羅萬象，但評量，或許是 AI 最能實際切入、卻也最引發教師焦慮的環節。

「生生用平板」的浪花與反思：資源，然後呢？

談到科技融入教學，就不能不提幾年前風風火火的「生生用平板」政策。「政府花了這麼多錢，這麼多資源，」盧老師語氣中帶著一絲無奈，「結果反而造成教學現場…」他停頓了一下，似乎在斟酌用詞，「我可能不方便講得太直白，但是，我聽到國中小的有一些聲音，就是你強迫老師們…甚至有很誇張的亂象，居然要求老師學生每個禮拜要開機幾次，還嫌螢幕使用時間不夠多？」他聽聞甚至有學校找工讀生去「滑平板」衝時數，「我覺得這樣其實有一點點…可惜，有點本末導致。」

對比之下，高中端的自主性較高，像盧老師自己，實驗室裡就有一整車、價值「一台車子」的 iPad 供物理科使用。「我就覺得很開心啊，很棒！」資源本身是好的，但如何不淪為應付指標，真正融入教學，考驗著現場的智慧。而我們身為一個教育者，當我們面對 AI 工具，也應該要如此對待！

AI評量的「從零到一」：從跌跌撞撞到「以子之矛」

「我們大概��近兩年的時間，輔導團就在做 AI 用於教學的一些設計。」盧老師分享，他們一開始就嘗試用AI做評分。這在以前是難以想像的，尤其是非選題。「以前沒有 AI 之前，要評非選題，非常困難，大概都只能人工閱卷。」學生的回答千變萬化，「像剛剛大家講感受，開心、興奮、雀躍、興奮不已…會玩一些不同的文字，可是意義可能是類似的。」傳統電腦批改，一字之差就可能失分，公平性大打折扣。(註: 那是大家自我介紹的題目，要求參與者形容現在聽演講的感受j，且所有人不能重複。)

「現在AI很厲害的是，」盧老師展示了他早期的實驗，用的是一個叫做VAS的科學探究本質量表評估工具，題目相當開放。「我把36個學生的答案給他，他就幫我分類！早期這個時候我記得還是 GPT-3.5 的時候，他就可以做得到了。」他們甚至嘗試把評分規準丟給 AI，讓 AI 直接評分。「他真的幫我把分數算出來！」

但這過程並非一帆風順。「很多老師，他們通常第一句話就是說：『AI 不行啦，AI 都胡說八道，他不能用！』」盧老師笑著說，「其實這個中間還是有一些技術性的東西。」他提到，直接用 APP 對話，AI 能處理的資訊量（token 數）有限，學生貪圖方便把整份考卷拍給 AI，結果往往是「災難的發生」，AI 可能前面幾題答得不錯，後面就開始「亂寫一通」。這需要使用者理解 AI 的限制，並學會有效互動。「你看我整理的好像很簡單，其實中間我跟 AI 對話了大概不下數十次。」

他們甚至玩起了「以子之矛，攻子之盾」的遊戲。他的太太，同是雄中老師的麗貞老師，就曾讓 AI 寫詩，再讓 AI 訂出評分標準，最後讓 AI 用這個標準給自己打分數。「結果他給了自己滿分 16 分，他拿了 12 分，還算謙虛！」這證明了 AI 在理解和應用規則上的潛力，關鍵在於使用者的創意與需求。

評量的「好球帶」：AI如何協助訂出合適的尺？

談到評量，盧老師話鋒一轉，深入到評量的核心——信效度。「一份評量，他的信效度好壞，其實會決定這個評量…」他舉例，予恩考 90 分，承諭考 80 分，予恩的物理就真的比較厲害嗎？「其實未必，有可能是予恩比較會猜答。」好的評量需要多元、全面，但現實中，期中、期末考一張考卷定成績是很常見的。「這種高風險考試，」盧老師強調，「一定有某些學生對這份考卷比較擅長，有人比較不擅長，這跟他的能力，未必有直接的正相關。」

選擇題有猜對的問題，而非選題的挑戰更大。「非選題最有趣的，」盧老師分享了他早年批改科學班考試的經驗，「我改了 1400 多份考卷…我本來預期學生程度是厲害的，結果我改了三四百份之後發現完蛋了，滿分五分的題目，最高分的只有兩分！」這顯示他一開始設定的標準太嚴苛。怎麼辦？「從頭改！把已經改過的那三百份從頭再改一次，」他放寬了標準，「我的分數就從零分到五分都有了。」

這個經驗讓他深刻體會到，評分的標準，也就是他口中的「好球帶」，必須依據學生的程度和評量的目的來調整。「我同樣一份題目，如果拿去給雄中科學班的學生寫，我的好球帶可能就可以設得非常精準。」但如果給社區高中的學生，「他可能大約提到『動量守恆』，我就給個兩分…」這不是放水，而是讓評量能真正鑑別出學生的相對程度。「一份考卷，如果全部都是零分跟一分，或全部都是四分跟五分，基本上這一題就是一個很糟糕的題目。」

而 AI 在這方面能幫上大忙。「我們可以讓 AI 從評分的結果去設定好球帶，」AI 可以分析大量作答數據，回饋給老師或命題者，判斷目前的評分標準是否合適，是否需要調整，甚至修改題目。「這都是現在 AI 才做得到的，大家可以想見，以前沒有 AI 之前，我們人工去做，坐到真的是會…會崩潰喔！」

告別粗糙的「高低分組」：用「點二系列相關」看懂選項的秘密

傳統評量分析，常使用「高低分組法」來看鑑別度，也就是比較高分群和低分群的答對率差距。「但你想想看，」盧老師提出質疑，「我考 100 分的人答對，跟考 10 分的人答對，對這個題目的難易度或鑑別度，意義是一樣的嗎？應該是不一樣的。」古典測驗理論（CTT）的這種做法，「其實是非常粗糙的。」

為此，盧老師和他的「南區測評種子教師團隊」引入了更精確的工具，特別是「點二系列相關」（Point-Biserial Correlation）。「這個東西，」他展示了一張報表，「可以告訴我們每一個選項的好壞。」他解釋，這個數值反映了選擇某個選項的學生，其整體分數是偏高還是偏低。「你看這一題，答案是 C，它的點二系列相關是正的 0.36 ，代表選 C 的這將近300 個人，他們的分數是相對高於平均值的。」而選項A，雖然很多人選（418 人），但它的點二系列相關是 -0.325，「代表選這個選項的這 400 多個人，都是偏低分群的。所以 A 是一個超棒的誘答選項！」

透過分析每個選項的點二系列相關值，老師就能判斷：正確答案是否能有效篩選出高分群？誘答選項是否成功迷惑了低分群？還是反而誤導了高分群（那這個選項或題目本身就有問題）？「這個結果，甚至可以提供教學上的使用，」盧老師說，「如果某個誘答選項很多人選，而且都是低分群選，那代表這是一個很重要的迷思概念，教學上需要去講清楚。」

這些評量工具，對於傳統計算為主的考題或許沒那麼迫切，因為那些題目往往「一翻兩瞪眼」，會就是會，不會就是不會。但對於現在課綱強調的「素養題」、「探究實作題」、「跨科題」，這類答案往往較為開放、模糊的題目，「我們就很需要這些工具，來幫我們確認這個題目到底是不是一個好的題目。」

AI不只是批改工：成為教學設計與思考的夥伴

除了評量，AI 還能做更多。「我們可以讓AI模擬學生反應，可以讓AI協助設計課程，引導實驗規劃，甚至命題。」盧老師分享，他現在出題，都會先丟給好幾個不同的 AI 機器人作答。「如果 5 個 AI 都答對，那這題可能太簡單了。如果 5 個 AI 都答錯，那我要去思考，是不是我的敘述有問題？」他曾因此發現自己忘記標註「應選兩項」，導致 AI 只選了單一最佳解。

他甚至展示了 GPT-4 讀圖的能力，分析一張為穆斯林訪客佈置房間的圖片，指出不妥之處。「我那天看到嚇到，因為 GPT 看得懂！」甚至有老師嘗試讓 AI 批改學生手寫的計算過程，「我的經驗是，至少八成以上，他是可以看得懂學生的計算過程，然後給我評分的建議。」

這意味著，未來教學的重點，可能不再是反覆操練學生已經能被 AI 輕易解決的計算或記憶性問題，而是轉向更高層次的能力，例如「讓他設計一個實驗，去確認一個定律，或是確認一個現象背後的物理原理。」

教育現場的「時差」：如何追趕飛奔的AI？

然而，理想很豐滿，現實卻充滿挑戰。盧老師直言，教育現場與科技發展之間，存在著巨大的「Lag」（落差），「大概 Lag 差不多五到十年以上。」他提醒有志從事教職的學生，「你們可能學了很多新工具，但你去考教甄，很多學校還是限制你只能用黑板、用板書。」

學校辦的制式 AI 研習，往往「緩不濟急」，內容可能是一兩年前的舊資訊。「我一直覺得，有時候我們在推一些政策，事實上某個程度都是在強迫老師做一些事情，那我覺得這種事情永遠都不會有好下場的。」他觀察到，願意參加研習、擁抱新科技的，往往是那些本來就很積極、能力很強的老師；而許多老師，甚至是一些資深教師，「他們連怎麼打電腦都不太會，那你更不用講說用到這些AI工具，」甚至抱持著「打死都不出來」的抗拒心態。

真正的改變，往往來自於由下而上的力量。「我們現在會利用社群，慢慢拉，慢慢拉。」他分享自己經營跨校共備社群的經驗，透過教育局、教師會、高中優質化計畫等管道爭取經費，辦理共備、研習、同儕觀課，「把有興趣的老師拉進來，互相學習、壯大。」他強調，自主學習和社群支持，遠比由上而下的指令更有效。

未來能力的再定義：「騎馬」或「開車」的抉擇

面對 AI 的強大能力，許多人擔心學生是否會因此「變笨」，失去基本功？盧老師用了一個生動的比喻：「大概可能一百多年前，每個人都要學會騎馬。OK，啊我問你，你們會騎馬嗎？」他笑著說，「我們現在這個年代，似乎不太需要學會騎馬嘛。可是我們現在要學會開車。」

他認為，AI 就像汽車的發明，會改變我們對「必備技能」的定義。「像我現在，學生物理問題，我都丟給 AI，然後我看對，我就丟給學生…你說我解題能力會不會退化？我一定會退化。」但他認為，這不是退化，而是進化。「我會去處理更高階的事情，」例如，判斷AI解答的正確性、引導學生探究 AI 也無法直接回答的問題。「未來學生需要的是批判思維，你要有辨別能力，而且你要有能力知道 AI 可以做到什麼程度，這樣你才會讓你的能力提升。」

至於像 Prompt 設計這類 AI 操作技巧，他反而認為「我倒完全不擔心」，因為AI只會越來越人性化，越來越能理解模糊的指令，「未來可能慢慢的大家會就是『無腦使用』他了。」關鍵不在於你會不會下精準的指令，而在於你腦袋裡有沒有東西，知不知道要用AI來做什麼，以及如何判斷結果。

他以自己開設的 AI 選修課為例，課程內容也隨著AI的進化而調整。從早期掙扎於教學生寫 Python 程式碼，到現在，重點變成「教學生使用AI工具」——熟練運用各種 AI（ChatGPT, Gemini, Claude, Perplexity…）來輔助學習、做報告、做研究；同時，「理解 AI 原理」——知道 AI 如何分類、預測、辨識，而實作的程式碼，甚至可以讓 AI 輔助生成。課程的目標，從用 AI 做科學探究，擴展到用 AI 提升生活與學習的效率。

擁抱變革，但也需步步為營

當然，AI 的引入並非毫無隱憂。盧老師也同意，對於年紀較小的學習者，尤其在基本讀寫、認知能力尚未穩固的階段（國中以前），過度依賴數位工具或 AI，可能產生負面影響。「基礎的，還是要回歸到基礎的訓練。」AI 在不同學習階段，應扮演不同的輔助角色，而非全面取代。

總結來說，盧政良老師描繪的 AI 教育圖景，既充滿潛力，也佈滿現實的荊棘。AI 是強大的工具，能革新評量方式，提升教學效率，開拓學習的疆界。但它的成功融入，仰賴的不是由上而下的命令，而是教師社群的自主學習、教育體系對評量觀念的更新、以及我們對未來所需能力的重新思考。這是一條漫長而持續變動的路，需要前線教師們不斷地摸索、分享，如同「共學圈」的精神，一起在這波浪潮中，找到前行的方向。

TAKE AWAYS:

科技政策需務實： 大型政策只重指標而忽略教學現場需求，可能造成資源浪費與執行亂象（"本末導致"）。
善用AI需技巧： 使用 AI（尤其早期模型）並非一蹴可幾，需要反覆互動、理解其限制，而非期待單次指令就能完美解決問題（"不是一次就好"）。
精進評量分析： 對於素養導向、探究實作等新興評量，應採用更精確的分析工具（如「點二系列相關」）來評估題目品質與學生迷思，超越傳統高低分組的粗糙。
教師增能靠社群： 制式、由上而下的 AI 研習緩不濟急；教師自發性、同儕互助的專業社群「共備社群」是更有效的學習與成長模式。
未來能力重思考： 教育應側重培養學生批判性思維、評估AI資訊、解決未知問題的能力，而非重複訓練能被 AI 取代的技能（如部分計算）。
技能轉變非退化： 不必過度擔憂AI導致人類技能「退化」，更應視為技能的「進化」，將精力轉移至更高層次、AI 無法取代的任務（"騎馬 vs. 開車"的比喻）。