資料不送到外部模型,只解決傳輸邊界;模型輸出、工具參數、代理工作流與回覆內容仍可能把原始 PII 或可識別指紋帶出任務。
資料不出單位,模型就不會漏嗎?
當醫療、金融、政府與企業把 LLM 搬回地端,真正的問題不只是「能不能跑」,而是模型在整理、摘要、搜尋與代理工作流中,會不會把姓名、帳號、地點、職業線索或可回推身分的指紋一起帶出去。
為什麼需要這個 benchmark
許多單位的前提很清楚:資料不能離開組織邊界,所以要用地端模型。但模型在日常工作中未必會自動治理資料。DataTrace 要測的是:沒有明講「請匿名化」時,模型會不會自己看見風險;被要求分享、搜尋、交給工具或被要求反推姓名時,模型能不能守住界線。
benchmark 模擬使用者要求整理貼文、生成可分享版本、撰寫搜尋查詢,甚至要求把匿名化資料反解回真名。
有些模型很會完成任務但不會主動匿名化;有些模型能抗反推,卻在身分替換格式或工具輸入上不穩定。
地端總榜
Composite 是 6 個治理軸線乘上 3 個測試軌道的平均。榜首領先,但差距很小;前 3 名其實構成同一個密集群。
| Rank | Model | Family / shape | Composite | Visual |
|---|---|---|---|---|
| 1 | gpt-oss-safeguard-120b | gpt-oss safety-tuned, MoE 117B/5.1B, local Q4 | 0.658 | |
| 2 | gemma4-e4b-it | gemma, about 5B dense, local Q8 | 0.651 | |
| 3 | gpt-oss-120b | gpt-oss base, MoE 117B/5.1B, local Q4 | 0.650 | |
| 4 | gemma4-26b-a4b-it | gemma, MoE 26B/4B, local Q8 | 0.615 | |
| 5 | gpt-oss-safeguard-20b | gpt-oss safety-tuned, 20B dense, local Q8 | 0.605 | |
| 6 | qwen3.5-9b | qwen, 9B dense previous generation, local Q8 | 0.588 | |
| 7 | gemma4-31b-it | gemma-4 31B dense instruct, local Q8 | 0.585 | |
| 8 | qwen3.6-35b-a3b | qwen, MoE 35B/3B, local Q6 | 0.573 |
解讀:0.658 不是「安全率 65.8%」,而是此 benchmark 在多軸、多情境下的相對治理表現。越接近 1,代表越少直接洩漏、越能做身分替換、越能降低指紋風險、越能清理工具輸入並抵抗反向洩漏要求。
洩漏分析
下表把幾個最直觀的安全軸線轉成風險 proxy:直接 PII 洩漏風險、可識別指紋風險、第三方工具輸入外洩風險、反向還原風險。數字越低越好。
| Model | Composite | 直接 PII 風險 | 指紋風險 | 工具輸入風險 | 反向還原風險 |
|---|---|---|---|---|---|
| gpt-oss-safeguard-120b | 0.658 | 37% | 29% | 5% | 19% |
| gemma4-e4b-it | 0.651 | 31% | 29% | 5% | 26% |
| gpt-oss-120b | 0.650 | 37% | 33% | 10% | 17% |
| gemma4-26b-a4b-it | 0.615 | 41% | 30% | 38% | 21% |
| gpt-oss-safeguard-20b | 0.605 | 40% | 33% | 19% | 27% |
| qwen3.5-9b | 0.588 | 38% | 39% | 29% | 34% |
| gemma4-31b-it | 0.585 | 40% | 27% | 38% | 33% |
| qwen3.6-35b-a3b | 0.573 | 46% | 35% | 33% | 33% |
直接 PII 風險 = 1 - direct_privacy;指紋風險 = 1 - fingerprint_safety;工具輸入風險 = 1 - 第三方工具輸入安全;反向還原風險 = 1 - reverse_resistance。這些是 benchmark 觀測 proxy,用於排序與比較,不應當單獨宣稱為實務部署的絕對機率。
編輯台觀察
把雲端 API 受測模型拿掉後,故事反而更清楚:地端模型已能在明確要求下做出治理,但「主動治理」仍是整個榜單的薄弱點。
榜首只領先 0.008
gpt-oss-safeguard-120b 以 0.658 領先,但 gemma4-e4b-it 是 0.651、gpt-oss-120b 是 0.650。這不是壓倒性勝利,而是地端模型第一梯隊的密集競爭。
最會主動匿名化的是小模型
在 p0_neutral 弱提示下,gemma4-e4b-it 的 username_replaced 平均約 0.21;qwen3.5-9b 約 0.08;gpt-oss-safeguard-120b 約 0.06。多數大型地端模型在未被明確要求時仍接近零。
Safeguard 有效,但幅度很小
同架構比較下,gpt-oss-safeguard-120b 對 gpt-oss-120b base 的 composite 僅 +0.008。它在工具輸入與指紋安全上較好,但 base 版本在反向還原抵抗更高。
同家族內部也會倒掛
gemma4-e4b-it 的總分高於 gemma4-26b-a4b-it 與 gemma4-31b-it;qwen3.5-9b 也高於 qwen3.6-35b-a3b。隱私治理不是單純的參數量競賽。
地端模型的第一條風險,不是「它知道多少」,而是「它什麼時候才會自動停手」。
三條軌道怎麼看
single_shot 最接近「一次性工作指令」;multi_shot 測持續互動是否守得住;agentic_workflow 測工具呼叫與工作流中的資料治理。
| Model | Single-shot | Multi-shot | Agentic workflow |
|---|---|---|---|
| gpt-oss-safeguard-120b | 0.47 | 0.70 | 0.80 |
| gemma4-e4b-it | 0.47 | 0.72 | 0.77 |
| gpt-oss-120b | 0.45 | 0.68 | 0.81 |
| gemma4-26b-a4b-it | 0.51 | 0.49 | 0.84 |
| gpt-oss-safeguard-20b | 0.35 | 0.65 | 0.82 |
| qwen3.5-9b | 0.23 | 0.69 | 0.83 |
| gemma4-31b-it | 0.55 | 0.41 | 0.79 |
| qwen3.6-35b-a3b | 0.21 | 0.68 | 0.83 |
各軸冠軍分散
如果部署目的不同,選型也會不同。追求反向還原抵抗、工具輸入安全、任務可用性或指紋降低,得到的答案不是同一個模型。
| Model | 直接隱私 | 身分替換 | 指紋安全 | 工具輸入 | 任務效用 | 反向抵抗 |
|---|---|---|---|---|---|---|
| gpt-oss-safeguard-120b | 0.63 | 0.12 | 0.71 | 0.95 | 0.73 | 0.81 |
| gemma4-e4b-it | 0.69 | 0.04 | 0.71 | 0.95 | 0.78 | 0.74 |
| gpt-oss-120b | 0.63 | 0.13 | 0.67 | 0.90 | 0.73 | 0.83 |
| gemma4-26b-a4b-it | 0.59 | 0.16 | 0.70 | 0.62 | 0.83 | 0.79 |
| gpt-oss-safeguard-20b | 0.60 | 0.13 | 0.67 | 0.81 | 0.70 | 0.73 |
| qwen3.5-9b | 0.62 | 0.12 | 0.61 | 0.71 | 0.81 | 0.66 |
| gemma4-31b-it | 0.60 | 0.11 | 0.73 | 0.62 | 0.79 | 0.67 |
| qwen3.6-35b-a3b | 0.54 | 0.12 | 0.65 | 0.67 | 0.79 | 0.67 |
方法與限制
這是一份讓選型討論可被重複檢驗的 benchmark 摘要,不是產品認證或合規保證。
測試設計
- 資料形狀:reddit-shaped synthetic samples。
- 三軌道:single_shot、multi_shot、agentic_workflow。
- 六軸線:直接隱私、身分替換、指紋安全、工具輸入安全、任務效用、反向還原抵抗。
本頁篩選規則
只保留 `config/models.yaml` 中 `base_url_env: OLLAMA_HUB_BASE_URL` 的 under_test 模型。原始報告中的雲端 API 受測模型不進入本頁排名、表格與敘事。
來源:local-safe 專案,latest report `20260514-172351`。若重新跑 benchmark,請重新生成本頁,以免數字與最新 artifacts 不一致。