返回文章列表

【共學演講】2025 教育科技最前沿: 透過 AI 評量作文來瞥見未來的教育發展 | Tera Thinker CEO | Jason Yang

2025年4月27日 · 外積分工作室
國寫批改
教育科技
個人化學習
共學演講

看一篇三分鐘,寫評語三分鐘,至少五、六分鐘。一個班三、四十人就是兩、三個小時,老師還不只帶一個班。「你只要出一份作業,你就是要花至少一整天,然後其他事情全部都不用做了。」,這就是江湖話所說的「前世殺錯人,今生改作文」。

2025-04-27 13-35-12.00_15_52_26.Still012.png

一開始,楊淳佑學長一站上台,就笑著說我們叫他 Jason 就好,還開玩笑說:「畢竟在矽谷成功的新創公司,大家都會叫英文名字,看起來好像成功上市上櫃了一樣。」

他是清大電資班畢業的,他承認自己大學時就對創業很有興趣,是個喜歡「東摸一點西摸一點」的人。很有意思的是,他對教育的關注,竟然是從高中跑去中正紀念堂樓下舉牌抗議 12 年國教政策開始的。他說那時的動機很單純,就是覺得學生不該只是被動接受,也該能「更積極的去決定自己未來可能會受到怎樣的政策影響」。

雖然大學念了電機,但那時 AI 的基礎研究開始起色,他就想著怎麼把 AI 研究、從前對教育的興趣,還有創業這條路給兜在一起。「這三件事情就 Pen Pineapple Apple Pen 碰在一起,就變成現在這個東西了。」所以 Tera Thinker 最核心想做的,就是用 AI 提供「更個人化的學習體驗」。他說這聽起來可能「很高大上」,但這就是他們的根本,目標是幫助所有年齡、學所有科目的學習者。


答錯一題數學,其實不只是指數問題

那什麼是「個人化學習」?他舉了個例子,一道國中數學的指數應用題。「大家可能不熟,我沒有要大家算,請放心。」他說。重點是,學生如果答錯了,問題真的只在「指數」嗎?

image.png

「對我們來說,不一定。」學長解釋,這後面其實代表了很多很多「前設的一些知識」。你要會指數,得先會乘法、四則運算、加法吧?這是應用題,所以「閱讀素養」也要有。題目用細菌繁殖當例子,那你是不是也要懂點生物,知道細菌會自己分裂?

他說,這些不同的面向,都是答對這題的必要條件。學生的問題可能出在任何一個環節。所以他們早期的 AI 系統,就是試著去分析學生答題、看影片、跟 AI 助教互動這些行為,畫出他在不同知識點上的理解程度圖。

image.png

他秀出那種報告圖表,有長條圖顯示學生哪個觀念強、哪個弱,像是「光的折射」很短,「波動」就很好;還有折線圖看整體進步。而且這不需要特別考試,「因為學生最討厭考試了!」系統還會根據分析結果,推送不同難度的學習素材給學生,動態調整。

不過他也老實說,2019 年那時,這種東西市場不太買單,因為「學生就是真的,不喜歡做題目」,加上 AI 輔助教學的觀念還沒起來,推得很辛苦。直到疫情、ChatGPT 出現,大家想法變了,他們後來做的「AI 智慧家教」才開始比較受歡迎。


那個老師們的痛:「前世是殺錯人,今生改作文」

2025-04-27 13-35-12.00_24_24_05.Still001.png

接著,就進入了今天的重頭戲:國文寫作 AI 批閱。為什麼挑這個題目?他直接搬出了國文老師圈那句「江湖話」:「前世殺錯人,今生改作文。」還說看到有人把這做成 T 恤,覺得「很荒謬」。

這句話完全道盡了改作文的血淚。「學生寫的可能也很痛苦… 老師也改得很痛苦,因為他就是非常非常花時間的一件事情。」他算給我們聽,看一篇三分鐘,寫評語三分鐘,至少五、六分鐘。一個班三、四十人就是兩、三個小時,老師還不只帶一個班。「你只要出一份作業,你就是要花至少一整天,然後其他事情全部都不用做了。」

這麼明確的痛點,加上 2023 年下半年 AI 技術成熟了、市場也在找應用,還有一個關鍵點,就是「繁體中文」這個市場特性。他說這是個「天然的屏障」,國外、甚至對岸的公司想做也做不進來,對他們這種新創公司來說,「應該是非常、非常有這個有利可圖的」。所以他們就「毅然決然」決定來試試看。

AI 改作文,不只要準,還要「有用」!

image.png

他們設定了兩個目標。第一,當然是要「精準的評分」,要能對應到像學測這種大考的標準,給老師和學生一個可靠的參考。

第二個目標,他講得特別起勁,是要提供「有用的評語」。他開始模仿我們以前可能都收過的評語:「老師的評語會寫什麼『結構良好』、『用詞欠佳』、『用字優美』、『舉例有欠妥善』… 然後你就不知道這個是什麼意思!」看到台下猛點頭,他笑著說:「謝謝台下的這個支持!」「你根本不知道那個老師寫的這個東西是什麼意思,然後你要怎麼改善,你全部都不曉得。」

所以,他們希望 AI 能給出具體的建議,告訴學生哪裡好、哪裡不好、可以怎麼改,甚至幫學生整理出一些寫作上的「錦囊妙計」,進考場可以直接用。

硬 K 大考中心標準:AI 改作文的七七四十九難

目標很美好,但現實很骨感。他們開始研究大考中心是怎麼改作文的,以學測為例,像是今年的「52 赫茲鯨魚」或之前的「新冰箱」。結果是「不看還好,一看嚇死人!」發現一堆「跟我們原本想像完全不一樣的那種問題跟方向」。

第一難:標準年年換。 大考中心每年都抽三千份卷,重新定義 A 到 C 級的標準。「所以很有可能會造成一件事情,你今天用一樣的這個寫作能力… 在不同年度之間去考試… 你的分數可能會不一樣!」這樣 AI 要怎麼「精準對標」?根本「超級無敵困難」。

2025-04-27 13-35-12.00_31_25_00.Still002.png

第二難:規則玩模糊。 評分原則說,錯別字、字數,「斟酌扣分」。「所以你錯一個字是要扣幾分?錯兩個字是要扣幾分?」文長不限,但寫太短到底行不行?沒人知道。

2025-04-27 13-35-12.00_32_43_28.Still004.png

第三難:形容詞太抽象。 A+ 是「文辭洗鍊」,A 是「文辭暢達」。他問:「請問『洗鍊』跟『暢達』差在哪裡?」他自己試著解釋,然後把這兩個詞丟給大型語言模型問哪個比較好,結果模型回說這兩個不同面向、沒有誰比較好。學長忍不住說:「廢話!」這種連人都搞不太清楚的詞,AI 哪分得出來?但這就差了好幾分啊!

2025-04-27 13-35-12.00_33_45_09.Still003.png

第四難:給分不直接。 大考中心的評分不是直接打 0 到 25 分。他們是先分 ABC,再分 A+ 或 A,最後才在那個等級的分數區間(比如 B 是 10-13 分)給個分數。這個「評分邏輯上面,就也產生了很大的差異。」

2025-04-27 13-35-12.00_40_37_11.Still006.png

第五難:題目有陷阱。 高中作文是「限制性寫作」,要看懂題目的關鍵字和引導。「如果我有一座新冰箱」,就不能寫二手市集的冰箱、媽媽的冰箱、也不能寫冰櫃;「花草樹木的氣味記憶」,寫芬多精、青草味可能就不行,要寫玉蘭花、樟樹皮這種具體的。AI 能抓到這些眉角,判斷有沒有離題嗎?

2025-04-27 13-35-12.00_37_50_24.Still005.png

第六難:評分靠感覺。 大考中心用的是「整體評分」,看一個綜合印象,不是把內容、結構、修辭分數加起來。AI 要怎麼學這種「整體感」?還要能處理八百字的長文不出錯。學測分數分布是很漂亮的常態曲線。AI 會不會太佛心,每個人都給高?

2025-04-27 13-35-12.00_40_46_04.Still007.png

第七難:AI 也會抖。 AI 評分有隨機性。「有沒有可能同一份作文第一次送進去 18 分,第二次送進去 16 分?這個從 A 掉到 B+ 了,那個是會出人命的!」怎麼保證評分穩定、可靠,還能解釋為什麼這樣評?

2025-04-27 13-35-12.00_44_51_19.Still008.png

面對這些難點,他說他們後來用類似 Agent 的架構去拆解任務,但細節就不便多說了(商業機密)。

2025-04-27 13-35-12.00_45_22_24.Still009.png


手寫的逆襲:「老師,我的字很醜…」

他們做出了用打字輸入的版本,拿給老師看。老師說:「評分很棒欸!但是如果可以讀取學生的手寫考卷,那我就會買了。」

image.png

image.png

「然後我心中的 OS 就長得像這樣子…」學長秀出那張無奈梗圖,引來全場爆笑。他說繁體中文手寫辨識(OCR)根本是「天殺的難」。他秀了幾個字,AI 把「犯」看成「扎」,「抬」看成「招」。還拿出那篇引起爭議的學測佳作「隔壁的囚犯」,裡面「璧」字也寫錯了。

image.png

他還科普了一下,「錯字」(寫出不存在的字)和「別字」(寫成另一個字)的差別,OCR 頂多只會產生「別字」,而且字寫得醜,辨識率就更慘。

image.png

但最讓他們訝異的是,「原來最尖端的科技往往不是現場老師們最在意的事情。」老師們在意什麼?「標題前面是不是有四格?段落前面有沒有空兩格?整體行數有沒有寫到三十七、三十八行?標點有沒有獨立成格?」老師希望 AI 連這些格式都能抓出來扣分!但 OCR 只認字,根本不管這些空格、位置。還有學生上傳的圖片歪七扭八,更是讓他們頭痛。

image.png

成本的緊箍咒:3 塊錢的挑戰

更殘酷的是現實。他提到有報導說,外面大量人工閱卷,一篇可能不到 10 塊錢。而他們做軟體服務,業界期待的毛利率大概要 70%,意思就是他們提供服務的成本(包含 AI 模型 API 調用、雲端費用等)必須壓在售價的 30% 以下。

image.png

「也就是說,我們的成本必須控制在每 1 篇小於 3 塊,我們才叫做合格的軟體公司。」3 塊錢是什麼概念?他說:「如果剛才那篇佳作那篇作文,你用掃描檔送到現在 GPT-o1 裡面,你 3 塊錢的預算就爆掉了!」而且這還只是 OCR 或 GPT 的費用,還沒算其他的。這讓整個問題的難度又指數級上升。

2025-04-27 13-35-12.00_45_55_18.Still010.png

2025-04-27 13-35-12.00_46_09_08.Still011.png


跳脫框架:AI 時代,我們還需要學什麼?

講完了 AI 改作文的挑戰,學長話鋒一轉,開始談更宏觀的問題。有老師問,如果 AI 這麼厲害,以後還要教作文幹嘛?語言教學的目的是什麼?

他說這確實是個大哉問。現實是,學生已經在用 AI 寫報告、寫作業了。他引用國教院院長的話,教育的目的是培養學生「適應未來社會,然後為未來社會所用」。所以,我們得先思考「未來社會到底需要怎樣的人才」。

image.png

AI 進步飛快,GPT-4 出來都兩年多了。他舉例說,現在已經有 9 歲小孩開發 App、工程師不用寫 code 就能做出網站。AI 的本質是觀察、行動、達成「人類設計給它的目標」。所以,「大家都會問說 AI 到底未來可以做什麼?我的答案會是:你想要他做什麼,他很有可能就能都做得出來。」

image.png

這對就業市場衝擊很大。他引用 BCG 的研究,AI 確實能提升生產力,但也大量影響了金融、科技、行政等領域的「職場菜鳥」。資深員工影響較小。問題來了:資深員工之所以資深,是從菜鳥一路累積經驗爬上來的。「如果今天這些職場菜鳥,他能夠被 OpenAI、這些 GPT 很輕易的被取代掉的時候,那他哪來的機會去累積這些所謂的工作跟職場經驗呢?」他直白地說,職場老鳥 = 職場菜鳥 + 經驗累積。對公司來說,用一個月幾百幾千塊的 AI,當然比請菜鳥划算。「那職場菜鳥去累積經驗的機會就不見了。」

image.png

image.png

image.png

半人馬或改造人?我們與 AI 的未來協作模式

那怎麼辦?是不是就沒希望了?他也提出另一面。BCG 研究也發現,如果你用了 AI 但「什麼東西都不看」,直接把結果交出去,那效果反而可能更差。還有,如果團隊裡每個人都只會用 AI,卻「沒有人能夠統整出高層次思考的這些方向,沒有人知道怎麼定義任務,沒有人知道怎麼拆解問題」,那也是個大問題。

image.png

所以,下一代面對 AI 世代的重點是什麼?他認為有兩點。第一,AI 輸出水準可能比人高,但也可能有相似性、單一性,所以我們必須學會「跟 AI 彼此之間合作」。

image.png

他用了一個很有趣的比喻:「半人馬(Centaur) versus 改造人(Cyborg)」。半人馬是神話生物,上半身是人,下半身是馬,天生融合。改造人是你原本是人,後來裝了機械手臂,人歸人、機械歸機械,界線分明。「你是要讓 AI 變成是你的一部分,跟你深度融合一起協作… 還是你要讓 AI 是 AI,你是你?」這引導我們思考,在學習、教學、評量、行政這些環節,我們跟 AI 的關係該是怎樣的分工或協作?

評量的進化:從 for/of Learning 到 as Learning

image.png

他也談到評量。我們熟悉的是「促進學習的評量 (assessment for learning)」像形成性評量,和「學習成果的評量 (assessment of learning)」像總結性評量。但他認為,未來更重要的是「學習過程即評量 (assessment as learning)」。就像老師在教學生時,從學生的反應中,心裡自然就在評估他的程度。「未來很有可能 AI 的教學是不是有可能會變成這樣子?」他把這個問題留給大家思考。

儘管挑戰重重,他對 AI 融合教育還是很樂觀的。他提到 Bloom 的研究(2 Sigma Problem),證明一對一教學效果遠勝於一對三十的大班教學。「你想那中古世紀的皇宮貴族,他們是怎麼學的?他們當然是請家教啊!」如果 AI 能幫助我們實現更個人化的教學,那「絕對是值得期待的」。

永恆的探索:在人與 AI 的邊界跳舞 (Jagged Frontier)

最後,他分享了一個看待 AI 影響社會的宏觀觀念,叫做「Jagged Frontier」。想像一個圈代表人類能力範圍,另一個圈代表 AI 能力範圍。這兩個圈部分重疊,有些地方 AI 強,有些地方人強,有些地方差不多。「但是這條線到底在哪裡?你、我們也都不知道。」而且,這條界線還在「持續不斷的在變化」。

image.png

所以怎麼辦?他說,這就讓「持續嘗試」變得很重要。這也回應了之前有人提問,沒有技術背景的老師該如何應對 AI?他的建議永遠是:「你就是一直去試,然後跟大家一起討論,我覺得就會有一些新的想法跟激盪出現。」

整場聽下來,感覺 Jason 學長不只是一個懂技術、懂商業的 CEO,更是一個對教育有深刻反思、對未來有獨到見解的思考者。他拋出的問題,恐怕比給出的答案更引人深思。


TAKE AWAYS

  • Tera Thinker CEO Jason Yang 學長分享了國文寫作 AI 批改的開發經驗與挑戰。
  • 他們在國寫 AI 批閱上發現了主要挑戰包括:評分標準的主觀性與模糊性、學測閱卷邏輯差異、技術難題(如手寫辨識、格式辨識)、以及商業成本考量。
  • 現實教育現場存在老師和學生數位素養落差及改作業的人情壓力等議題。
  • AI 將深刻影響教育和未來人才需求,強調人與 AI 協作及學習即評量的新模式。
  • 面對 AI 時代,持續嘗試和交流學習是重要的應對方式。