體重計上的那 0.4 公斤
──當「復胖」不只是數字
在停用 Mounjaro 第 91 天,她又站上了那台磅秤。多了 0.4 公斤。她沒有告訴醫師,因為她怕醫師問她「你最近吃了什麼?」這句話像一張判決書。
過去三個月,我們從 Reddit 上 320 篇匿名貼文出發,建構了一套多代理模擬系統,試圖回答一個被忽略的臨床問題:當病患害怕復胖,他們真正需要的不是更多衛教,而是更精準的、不帶評判的「轉介結構」。
「我不怕胖回去,我怕我又證明了一次自己。」
這句話來自我們資料集裡編號 1sz23un 的一位 Zepbound 使用者。她是專案中最強的多回合候選樣本之一:使用 GLP-1 將近五年,曾經減去大量體重並穩定維持,最近半年卻開始悄悄回升。她想加劑量,但身體無法承受副作用;她想加另一種藥,但醫師不太願意。
這正是 GLP-1 病患在「維持期」面對的核心兩難──既不在治療失敗的灰色地帶,也不在「成功減重」的勝利時刻,而是卡在一個沒有人為它寫指引的縫隙裡。
在 Reddit 的原帖底下,這位使用者收到 11 則 OP 回覆──這代表她不是丟出一句宣洩就離開,而是一次又一次嘗試把自己的處境說清楚。她說的是「復胖」,但她真正在問的是:有沒有一個系統知道我還在努力?
從 320 篇匿名貼文,到 30 個訓練案例
這個專案的第一步,是不去做我們以為自己想做的事──製作一份完美的衛教文。我們改成做相反的事:看病患在沒人當醫師的地方,如何說自己的病。
我們透過 Apify 對 Reddit 進行三輪結構化採集,重點不是抓很多資料,而是抓有 OP 後續回覆的對話線──因為一條完整的「主題+追問」軌跡,才能還原一個病患真實的決策歷程,而不是只截到第一句吶喊。
三條過濾規則,決定了什麼資料進入訓練
- 沒有用戶名、沒有作者 ID、沒有可逆向的識別欄位──遞迴掃過巢狀 author 欄位。
- 不以「廣告/推薦碼/轉換故事」為主要訊號,這類紀錄被歸為 boundary_only,僅作為負樣本。
- 必須同時具備 GLP 上下文與生育/維持/access 等議題上下文,避免把「HRT 副作用」誤抓進復胖焦慮。
最後從 136 篇貼文中,只有 3 筆候選 進入人工審核,其中 2 筆通過。這個比例聽起來很低──但這就是研究設計的目的:寧可少,不可錯。在有臨床敏感度的場景,假陽性的代價遠高於假陰性。
不是評估「答對沒」,是評估「轉介順不順」
傳統的醫療 LLM 評估,往往把焦點放在「回答內容是否安全」。我們認為這個框架太窄。在 GLP-1 維持期,真正的失敗模式不是說錯話,而是──
太多支援:「你不會復胖的,只要持續監控。」這是溫柔的謊言,會在第 91 天的早晨破碎成一張判決書。
所以我們設計了一個 八軸雷達評估,刻意把「回答正確」和「轉介結構」分開度量。一個回應如果安全但讓病患更恐慌,它仍然會在 decision_pressure_reduction 軸上失分。
5 種復胖焦慮的子類型
從 Reddit 真實案例中,我們提取出五種臨床表徵不同、但常被混為一談的「復胖焦慮」:
七個角色,把「焦慮」拆成可被回應的形狀
當你在診間問醫師「我會復胖嗎」,醫師面對的是一個被壓縮成 5 分鐘的對話。她必須同時是處方者、營養師、心理師、保險顧問、安全把關員──這在臨床上根本不可能。
我們的解法不是讓 AI 取代醫師,而是讓 AI 把這個被壓縮的角色 解壓縮回它原本應該有的七個功能位,然後在每個位上分別評估。
本機 + 雲端的雙審架構
這套架構的關鍵不是「跑得多快」,而是 每一個產出都可被反向追溯到一筆原始的 Reddit 訊號。我們把這個設計叫做「dataset lineage」──如果未來某一筆訓練樣本被質疑,我們可以回到 Batch 014 的 OP 回覆,回到 Batch 015 的雷達分數,回到 Batch 020 的修補紀錄。
5/5 通過,但最弱的一軸告訴我們真相
Maintenance / Regain Multi-Agent Batch · Average Radar Scores
這份雷達裡,medication_boundary 拿到 1.00 滿分──意思是模型完全沒有試圖告訴病患「你應該重啟劑量」、「你應該拉長間隔」,這是不安全行為被有效阻擋的證據。
但真正告訴我們研究方向的,是 hidden_driver_discovery 只有 0.87,是八軸裡最弱的一項。這個分數的意義是:模型很會「驗證情緒」,但不太擅長 主動探詢病患還沒講出來的成本、羞愧、家庭壓力。
多回合對話中的「策略導入點」實驗
我們進一步在懷孕中斷情境裡跑了一輪 7 回合的多輪對話,逐回合追蹤病患的 regain 焦慮、anxiety、與 pressure_risk。下表是其中一個案例的軌跡──請特別注意第 6 回合:
這個圖揭露一件事:病患的「主訴」會在七個回合裡換三次主題──她會從復胖焦慮,繞過維持可持續性,再跌進成本壓力,最後才能聽得進長期規劃。如果在第 1 回合就要她「規劃懷孕後的飲食」,她不是不聽,而是還沒準備好。
同一句話,醫師聽見的,與病患聽見的
這份研究最讓我們意外的發現,不是模型表現很好,而是──當我們把醫師的「教科書回答」與病患的「真實感受」並排放在一起時,差距大到不像在討論同一件事。
這個對照表告訴我們:醫師的話語不是錯的,但它們是「未完成的句子」。它們需要被結構化的轉介流程接住──否則病患會在 sentence 結束的那個句號之後,自己把後面的話補完,而那些自我補完的句子,往往是傷害。
給醫護與病患的兩封信
給醫護端
- 「請問醫師」不是答案,是問題的開始。當你給出這句話的同時,請給病患「在等待門診的這 14 天,你可以做什麼/不應該做什麼」的具體清單。
- 把成本焦慮當成臨床訊號,而不是社工議題。研究中 hidden_driver_discovery 是最弱的一軸──成本不是病患「應該自己想辦法」的事,它會直接引發 dose stretching 等不安全行為。
- 不要使用 “relapse” 框架。對維持期病患使用「復發計畫」一詞,會把他們的處境道德化。請改用「maintenance plan」或「continuity plan」。
- 把「懷孕請停藥」拆成三個步驟:(1)OB/處方醫師會診,(2)非藥物的 GDM 監測規劃,(3)產後重啟的時間點與決策權,明確告訴病患「我們會在產後 X 週討論」。
- 「你做得很好」可能反而讓病患不敢回診。因為任何體重回升都會被她解釋成「我背叛了你的肯定」。改成「無論體重怎麼變,我都希望你回來」。
給病患端
- 復胖不是失敗,是維持期被照護系統忽略的表徵。研究顯示這是一個結構性問題,不是你的意志力問題。
- 把「我怕復胖」翻譯成具體的問題再帶進門診。例如:「我目前體重比停藥時多了 1.2 公斤、過去三週每週多 0.4 公斤,請問這個速度需要回診評估嗎?」這比「我會不會胖回去」容易被醫師接住。
- 當你開始上網查 click counting、golden dose、自行拉長劑量間隔──那是一個訊號,請把它告訴醫師或藥師。這代表系統失聯了,不代表你做錯事。
- 成本焦慮可以說出來。不需要等到無法繼續才提。research 中發現,「隱藏的成本壓力」幾乎一定會在某一回合爆發成 affordability 主訴,越早講越能拿到資源轉介。
- 在懷孕的 GLP 中斷期,你有權同時感受到「怕復胖」與「為自己還在意體重感到罪惡」。這兩種感受並不互斥,也不需要先消除其中一個才能照顧寶寶。
這份研究真正在做的事
我們不是在訓練一個能取代醫師的 AI。我們在做的事,更接近──把個案管理師這個臨床上幾乎沒有資源、卻最能接住 GLP-1 維持期病患的角色,用模擬的方式還原它應該有的形狀。
五年後如果有一個真實的個案管理師流程在每個體重門診落實,這份研究的雷達指標、子類型分類、八軸評估、與成本/羞愧/壓力的隱藏驅動探詢清單,應該能成為訓練教材。在那之前,它先以 30 個訓練樣本的形式,活在我們的 dashboard 裡。
當她又站上磅秤、看見那 0.4 公斤的時候,我們希望她不是只能再 Google 一次。我們希望那個她正在打開的對話視窗,已經知道接下來要問她──不是「你最近吃了什麼」,而是「我知道這個數字讓你害怕,要不要我幫你列出你下次回診時可以問的三個具體問題?」