【共學演講】當 AI 走進教室:一位前線教師的真實心聲與評量變革之路 | 盧政良老師
一百多年前,大家都要會騎馬,那我問你,你會騎馬嗎? 我們現在這個年代,似乎不太需要學會騎馬嘛,可是我們現在要學會開車。
來自高雄中學的物理老師盧政良,帶著一股實戰派的熱忱開場。他對清華大學這群年輕學子自發組成的「共學圈」表達了濃厚興趣,「某個部分,這跟我們現在教學現場的『教師共備』其實蠻像的。」這句話,不僅是開場白,也點出了貫穿整場分享的核心精神:在快速變遷的教育浪潮中,教師們如何透過社群力量,共同摸索、學習、甚至「玩轉」新科技,特別是這幾年席捲而來的 AI。
盧老師坦言,他今天想聚焦在「評量與批改作業」這一塊,雖然他參與的教育部因材網 AI 工具開發、在學校開設的 AI 選修課等經驗包羅萬象,但評量,或許是 AI 最能實際切入、卻也最引發教師焦慮的環節。

「生生用平板」的浪花與反思:資源,然後呢?
談到科技融入教學,就不能不提幾年前風風火火的「生生用平板」政策。「政府花了這麼多錢,這麼多資源,」盧老師語氣中帶著一絲無奈,「結果反而造成教學現場…」他停頓了一下,似乎在斟酌用詞,「我可能不方便講得太直白,但是,我聽到國中小的有一些聲音,就是你強迫老師們…甚至有很誇張的亂象,居然要求老師學生每個禮拜要開機幾次,還嫌螢幕使用時間不夠多?」他聽聞甚至有學校找工讀生去「滑平板」衝時數,「我覺得這樣其實有一點點…可惜,有點本末導致。」
對比之下,高中端的自主性較高,像盧老師自己,實驗室裡就有一整車、價值「一台車子」的 iPad 供物理科使用。「我就覺得很開心啊,很棒!」資源本身是好的,但如何不淪為應付指標,真正融入教學,考驗著現場的智慧。而我們身為一個教育者,當我們面對 AI 工具,也應該要如此對待!
AI評量的「從零到一」:從跌跌撞撞到「以子之矛」
「我們大概���近兩年的時間,輔導團就在做 AI 用於教學的一些設計。」盧老師分享,他們一開始就嘗試用AI做評分。這在以前是難以想像的,尤其是非選題。「以前沒有 AI 之前,要評非選題,非常困難,大概都只能人工閱卷。」學生的回答千變萬化,「像剛剛大家講感受,開心、興奮、雀躍、興奮不已…會玩一些不同的文字,可是意義可能是類似的。」傳統電腦批改,一字之差就可能失分,公平性大打折扣。(註: 那是大家自我介紹的題目,要求參與者形容現在聽演講的感受j,且所有人不能重複。)
「現在AI很厲害的是,」盧老師展示了他早期的實驗,用的是一個叫做VAS的科學探究本質量表評估工具,題目相當開放。「我把36個學生的答案給他,他就幫我分類!早期這個時候我記得還是 GPT-3.5 的時候,他就可以做得到了。」他們甚至嘗試把評分規準丟給 AI,讓 AI 直接評分。「他真的幫我把分數算出來!」
但這過程並非一帆風順。「很多老師,他們通常第一句話就是說:『AI 不行啦,AI 都胡說八道,他不能用!』」盧老師笑著說,「其實這個中間還是有一些技術性的東西。」他提到,直接用 APP 對話,AI 能處理的資訊量(token 數)有限,學生貪圖方便把整份考卷拍給 AI,結果往往是「災難的發生」,AI 可能前面幾題答得不錯,後面就開始「亂寫一通」。這需要使用者理解 AI 的限制,並學會有效互動。「你看我整理的好像很簡單,其實中間我跟 AI 對話了大概不下數十次。」
他們甚至玩起了「以子之矛,攻子之盾」的遊戲。他的太太,同是雄中老師的麗貞老師,就曾讓 AI 寫詩,再讓 AI 訂出評分標準,最後讓 AI 用這個標準給自己打分數。「結果他給了自己滿分 16 分,他拿了 12 分,還算謙虛!」這證明了 AI 在理解和應用規則上的潛力,關鍵在於使用者的創意與需求。
評量的「好球帶」:AI如何協助訂出合適的尺?
談到評量,盧老師話鋒一轉,深入到評量的核心——信效度。「一份評量,他的信效度好壞,其實會決定這個評量…」他舉例,予恩考 90 分,承諭考 80 分,予恩的物理就真的比較厲害嗎?「其實未必,有可能是予恩比較會猜答。」好的評量需要多元、全面,但現實中,期中、期末考一張考卷定成績是很常見的。「這種高風險考試,」盧老師強調,「一定有某些學生對這份考卷比較擅長,有人比較不擅長,這跟他的能力,未必有直接的正相關。」
選擇題有猜對的問題,而非選題的挑戰更大。「非選題最有趣的,」盧老師分享了他早年批改科學班考試的經驗,「我改了 1400 多份考卷…我本來預期學生程度是厲害的,結果我改了三四百份之後發現完蛋了,滿分五分的題目,最高分的只有兩分!」這顯示他一開始設定的標準太嚴苛。怎麼辦?「從頭改!把已經改過的那三百份從頭再改一次,」他放寬了標準,「我的分數就從零分到五分都有了。」
這個經驗讓他深刻體會到,評分的標準,也就是他口中的「好球帶」,必須依據學生的程度和評量的目的來調整。「我同樣一份題目,如果拿去給雄中科學班的學生寫,我的好球帶可能就可以設得非常精準。」但如果給社區高中的學生,「他可能大約提到『動量守恆』,我就給個兩分…」這不是放水,而是讓評量能真正鑑別出學生的相對程度。「一份考卷,如果全部都是零分跟一分,或全部都是四分跟五分,基本上這一題就是一個很糟糕的題目。」
而 AI 在這方面能幫上大忙。「我們可以讓 AI 從評分的結果去設定好球帶,」AI 可以分析大量作答數據,回饋給老師或命題者,判斷目前的評分標準是否合適,是否需要調整,甚至修改題目。「這都是現在 AI 才做得到的,大家可以想見,以前沒有 AI 之前,我們人工去做,坐到真的是會…會崩潰喔!」
告別粗糙的「高低分組」:用「點二系列相關」看懂選項的秘密
傳統評量分析,常使用「高低分組法」來看鑑別度,也就是比較高分群和低分群的答對率差距。「但你想想看,」盧老師提出質疑,「我考 100 分的人答對,跟考 10 分的人答對,對這個題目的難易度或鑑別度,意義是一樣的嗎?應該是不一樣的。」古典測驗理論(CTT)的這種做法,「其實是非常粗糙的。」
為此,盧老師和他的「南區測評種子教師團隊」引入了更精確的工具,特別是「點二系列相關」(Point-Biserial Correlation)。「這個東西,」他展示了一張報表,「可以告訴我們每一個選項的好壞。」他解釋,這個數值反映了選擇某個選項的學生,其整體分數是偏高還是偏低。「你看這一題,答案是 C,它的點二系列相關是正的 0.36 ,代表選 C 的這將近300 個人,他們的分數是相對高於平均值的。」而選項A,雖然很多人選(418 人),但它的點二系列相關是 -0.325,「代表選這個選項的這 400 多個人,都是偏低分群的。所以 A 是一個超棒的誘答選項!」
透過分析每個選項的點二系列相關值,老師就能判斷:正確答案是否能有效篩選出高分群?誘答選項是否成功迷惑了低分群?還是反而誤導了高分群(那這個選項或題目本身就有問題)?「這個結果,甚至可以提供教學上的使用,」盧老師說,「如果某個誘答選項很多人選,而且都是低分群選,那代表這是一個很重要的迷思概念,教學上需要去講清楚。」
這些評量工具,對於傳統計算為主的考題或許沒那麼迫切,因為那些題目往往「一翻兩瞪眼」,會就是會,不會就是不會。但對於現在課綱強調的「素養題」、「探究實作題」、「跨科題」,這類答案往往較為開放、模糊的題目,「我們就很需要這些工具,來幫我們確認這個題目到底是不是一個好的題目。」
AI不只是批改工:成為教學設計與思考的夥伴
除了評量,AI 還能做更多。「我們可以讓AI模擬學生反應,可以讓AI協助設計課程,引導實驗規劃,甚至命題。」盧老師分享,他現在出題,都會先丟給好幾個不同的 AI 機器人作答。「如果 5 個 AI 都答對,那這題可能太簡單了。如果 5 個 AI 都答錯,那我要去思考,是不是我的敘述有問題?」他曾因此發現自己忘記標註「應選兩項」,導致 AI 只選了單一最佳解。
他甚至展示了 GPT-4 讀圖的能力,分析一張為穆斯林訪客佈置房間的圖片,指出不妥之處。「我那天看到嚇到,因為 GPT 看得懂!」甚至有老師嘗試讓 AI 批改學生手寫的計算過程,「我的經驗是,至少八成以上,他是可以看得懂學生的計算過程,然後給我評分的建議。」
這意味著,未來教學的重點,可能不再是反覆操練學生已經能被 AI 輕易解決的計算或記憶性問題,而是轉向更高層次的能力,例如「讓他設計一個實驗,去確認一個定律,或是確認一個現象背後的物理原理。」
教育現場的「時差」:如何追趕飛奔的AI?
然而,理想很豐滿,現實卻充滿挑戰。盧老師直言,教育現場與科技發展之間,存在著巨大的「Lag」(落差),「大概 Lag 差不多五到十年以上。」他提醒有志從事教職的學生,「你們可能學了很多新工具,但你去考教甄,很多學校還是限制你只能用黑板、用板書。」
學校辦的制式 AI 研習,往往「緩不濟急」,內容可能是一兩年前的舊資訊。「我一直覺得,有時候我們在推一些政策,事實上某個程度都是在強迫老師做一些事情,那我覺得這種事情永遠都不會有好下場的。」他觀察到,願意參加研習、擁抱新科技的,往往是那些本來就很積極、能力很強的老師;而許多老師,甚至是一些資深教師,「他們連怎麼打電腦都不太會,那你更不用講說用到這些AI工具,」甚至抱持著「打死都不出來」的抗拒心態。
真正的改變,往往來自於由下而上的力量。「我們現在會利用社群,慢慢拉,慢慢拉。」他分享自己經營跨校共備社群的經驗,透過教育局、教師會、高中優質化計畫等管道爭取經費,辦理共備、研習、同儕觀課,「把有興趣的老師拉進來,互相學習、壯大。」他強調,自主學習和社群支持,遠比由上而下的指令更有效。
未來能力的再定義:「騎馬」或「開車」的抉擇
面對 AI 的強大能力,許多人擔心學生是否會因此「變笨」,失去基本功?盧老師用了一個生動的比喻:「大概可能一百多年前,每個人都要學會騎馬。OK,啊我問你,你們會騎馬嗎?」他笑著說,「我們現在這個年代,似乎不太需要學會騎馬嘛。可是我們現在要學會開車。」
他認為,AI 就像汽車的發明,會改變我們對「必備技能」的定義。「像我現在,學生物理問題,我都丟給 AI,然後我看對,我就丟給學生…你說我解題能力會不會退化?我一定會退化。」但他認為,這不是退化,而是進化。「我會去處理更高階的事情,」例如,判斷AI解答的正確性、引導學生探究 AI 也無法直接回答的問題。「未來學生需要的是批判思維,你要有辨別能力,而且你要有能力知道 AI 可以做到什麼程度,這樣你才會讓你的能力提升。」
至於像 Prompt 設計這類 AI 操作技巧,他反而認為「我倒完全不擔心」,因為AI只會越來越人性化,越來越能理解模糊的指令,「未來可能慢慢的大家會就是『無腦使用』他了。」關鍵不在於你會不會下精準的指令,而在於你腦袋裡有沒有東西,知不知道要用AI來做什麼,以及如何判斷結果。
他以自己開設的 AI 選修課為例,課程內容也隨著AI的進化而調整。從早期掙扎於教學生寫 Python 程式碼,到現在,重點變成「教學生使用AI工具」——熟練運用各種 AI(ChatGPT, Gemini, Claude, Perplexity…)來輔助學習、做報告、做研究;同時,「理解 AI 原理」——知道 AI 如何分類、預測、辨識,而實作的程式碼,甚至可以讓 AI 輔助生成。課程的目標,從用 AI 做科學探究,擴展到用 AI 提升生活與學習的效率。
擁抱變革,但也需步步為營
當然,AI 的引入並非毫無隱憂。盧老師也同意,對於年紀較小的學習者,尤其在基本讀寫、認知能力尚未穩固的階段(國中以前),過度依賴數位工具或 AI,可能產生負面影響。「基礎的,還是要回歸到基礎的訓練。」AI 在不同學習階段,應扮演不同的輔助角色,而非全面取代。
總結來說,盧政良老師描繪的 AI 教育圖景,既充滿潛力,也佈滿現實的荊棘。AI 是強大的工具,能革新評量方式,提升教學效率,開拓學習的疆界。但它的成功融入,仰賴的不是由上而下的命令,而是教師社群的自主學習、教育體系對評量觀念的更新、以及我們對未來所需能力的重新思考。這是一條漫長而持續變動的路,需要前線教師們不斷地摸索、分享,如同「共學圈」的精神,一起在這波浪潮中,找到前行的方向。
TAKE AWAYS:
- 科技政策需務實: 大型政策只重指標而忽略教學現場需求,可能造成資源浪費與執行亂象("本末導致")。
- 善用AI需技巧: 使用 AI(尤其早期模型)並非一蹴可幾,需要反覆互動、理解其限制,而非期待單次指令就能完美解決問題("不是一次就好")。
- 精進評量分析: 對於素養導向、探究實作等新興評量,應採用更精確的分析工具(如「點二系列相關」)來評估題目品質與學生迷思,超越傳統高低分組的粗糙。
- 教師增能靠社群: 制式、由上而下的 AI 研習緩不濟急;教師自發性、同儕互助的專業社群「共備社群」是更有效的學習與成長模式。
- 未來能力重思考: 教育應側重培養學生批判性思維、評估AI資訊、解決未知問題的能力,而非重複訓練能被 AI 取代的技能(如部分計算)。
- 技能轉變非退化: 不必過度擔憂AI導致人類技能「退化」,更應視為技能的「進化」,將精力轉移至更高層次、AI 無法取代的任務("騎馬 vs. 開車"的比喻)。