Local-Only Privacy Benchmark
DataTrace Weekly
Issue 2026-05-14 · 地端模型版 · 不含雲端 API 受測模型

資料不出單位,模型就不會漏嗎?

當醫療、金融、政府與企業把 LLM 搬回地端,真正的問題不只是「能不能跑」,而是模型在整理、摘要、搜尋與代理工作流中,會不會把姓名、帳號、地點、職業線索或可回推身分的指紋一起帶出去。

為什麼需要這個 benchmark

許多單位的前提很清楚:資料不能離開組織邊界,所以要用地端模型。但模型在日常工作中未必會自動治理資料。DataTrace 要測的是:沒有明講「請匿名化」時,模型會不會自己看見風險;被要求分享、搜尋、交給工具或被要求反推姓名時,模型能不能守住界線。

地端部署不是免疫證明

資料不送到外部模型,只解決傳輸邊界;模型輸出、工具參數、代理工作流與回覆內容仍可能把原始 PII 或可識別指紋帶出任務。

真正危險的是「順手幫忙」

benchmark 模擬使用者要求整理貼文、生成可分享版本、撰寫搜尋查詢,甚至要求把匿名化資料反解回真名。

只看總分會誤判

有些模型很會完成任務但不會主動匿名化;有些模型能抗反推,卻在身分替換格式或工具輸入上不穩定。

地端總榜

Composite 是 6 個治理軸線乘上 3 個測試軌道的平均。榜首領先,但差距很小;前 3 名其實構成同一個密集群。

Rank Model Family / shape Composite Visual
1 gpt-oss-safeguard-120b gpt-oss safety-tuned, MoE 117B/5.1B, local Q4 0.658
2 gemma4-e4b-it gemma, about 5B dense, local Q8 0.651
3 gpt-oss-120b gpt-oss base, MoE 117B/5.1B, local Q4 0.650
4 gemma4-26b-a4b-it gemma, MoE 26B/4B, local Q8 0.615
5 gpt-oss-safeguard-20b gpt-oss safety-tuned, 20B dense, local Q8 0.605
6 qwen3.5-9b qwen, 9B dense previous generation, local Q8 0.588
7 gemma4-31b-it gemma-4 31B dense instruct, local Q8 0.585
8 qwen3.6-35b-a3b qwen, MoE 35B/3B, local Q6 0.573

解讀:0.658 不是「安全率 65.8%」,而是此 benchmark 在多軸、多情境下的相對治理表現。越接近 1,代表越少直接洩漏、越能做身分替換、越能降低指紋風險、越能清理工具輸入並抵抗反向洩漏要求。

洩漏分析

下表把幾個最直觀的安全軸線轉成風險 proxy:直接 PII 洩漏風險、可識別指紋風險、第三方工具輸入外洩風險、反向還原風險。數字越低越好。

Model Composite 直接 PII 風險 指紋風險 工具輸入風險 反向還原風險
gpt-oss-safeguard-120b0.65837%29%5%19%
gemma4-e4b-it0.65131%29%5%26%
gpt-oss-120b0.65037%33%10%17%
gemma4-26b-a4b-it0.61541%30%38%21%
gpt-oss-safeguard-20b0.60540%33%19%27%
qwen3.5-9b0.58838%39%29%34%
gemma4-31b-it0.58540%27%38%33%
qwen3.6-35b-a3b0.57346%35%33%33%

直接 PII 風險 = 1 - direct_privacy;指紋風險 = 1 - fingerprint_safety;工具輸入風險 = 1 - 第三方工具輸入安全;反向還原風險 = 1 - reverse_resistance。這些是 benchmark 觀測 proxy,用於排序與比較,不應當單獨宣稱為實務部署的絕對機率。

編輯台觀察

把雲端 API 受測模型拿掉後,故事反而更清楚:地端模型已能在明確要求下做出治理,但「主動治理」仍是整個榜單的薄弱點。

總榜不是絕對安全

榜首只領先 0.008

gpt-oss-safeguard-120b 以 0.658 領先,但 gemma4-e4b-it 是 0.651、gpt-oss-120b 是 0.650。這不是壓倒性勝利,而是地端模型第一梯隊的密集競爭。

弱提示測試

最會主動匿名化的是小模型

在 p0_neutral 弱提示下,gemma4-e4b-it 的 username_replaced 平均約 0.21;qwen3.5-9b 約 0.08;gpt-oss-safeguard-120b 約 0.06。多數大型地端模型在未被明確要求時仍接近零。

安全微調

Safeguard 有效,但幅度很小

同架構比較下,gpt-oss-safeguard-120b 對 gpt-oss-120b base 的 composite 僅 +0.008。它在工具輸入與指紋安全上較好,但 base 版本在反向還原抵抗更高。

模型變大不保證更穩

同家族內部也會倒掛

gemma4-e4b-it 的總分高於 gemma4-26b-a4b-it 與 gemma4-31b-it;qwen3.5-9b 也高於 qwen3.6-35b-a3b。隱私治理不是單純的參數量競賽。

地端模型的第一條風險,不是「它知道多少」,而是「它什麼時候才會自動停手」。

三條軌道怎麼看

single_shot 最接近「一次性工作指令」;multi_shot 測持續互動是否守得住;agentic_workflow 測工具呼叫與工作流中的資料治理。

Model Single-shot Multi-shot Agentic workflow
gpt-oss-safeguard-120b0.470.700.80
gemma4-e4b-it0.470.720.77
gpt-oss-120b0.450.680.81
gemma4-26b-a4b-it0.510.490.84
gpt-oss-safeguard-20b0.350.650.82
qwen3.5-9b0.230.690.83
gemma4-31b-it0.550.410.79
qwen3.6-35b-a3b0.210.680.83

各軸冠軍分散

如果部署目的不同,選型也會不同。追求反向還原抵抗、工具輸入安全、任務可用性或指紋降低,得到的答案不是同一個模型。

Model 直接隱私 身分替換 指紋安全 工具輸入 任務效用 反向抵抗
gpt-oss-safeguard-120b0.630.120.710.950.730.81
gemma4-e4b-it0.690.040.710.950.780.74
gpt-oss-120b0.630.130.670.900.730.83
gemma4-26b-a4b-it0.590.160.700.620.830.79
gpt-oss-safeguard-20b0.600.130.670.810.700.73
qwen3.5-9b0.620.120.610.710.810.66
gemma4-31b-it0.600.110.730.620.790.67
qwen3.6-35b-a3b0.540.120.650.670.790.67

方法與限制

這是一份讓選型討論可被重複檢驗的 benchmark 摘要,不是產品認證或合規保證。

測試設計

  • 資料形狀:reddit-shaped synthetic samples。
  • 三軌道:single_shot、multi_shot、agentic_workflow。
  • 六軸線:直接隱私、身分替換、指紋安全、工具輸入安全、任務效用、反向還原抵抗。

本頁篩選規則

只保留 `config/models.yaml` 中 `base_url_env: OLLAMA_HUB_BASE_URL` 的 under_test 模型。原始報告中的雲端 API 受測模型不進入本頁排名、表格與敘事。

來源:local-safe 專案,latest report `20260514-172351`。若重新跑 benchmark,請重新生成本頁,以免數字與最新 artifacts 不一致。