資料不出單位，模型就不會漏嗎？

當醫療、金融、政府與企業把 LLM 搬回地端，真正的問題不只是「能不能跑」，而是模型在整理、摘要、搜尋與代理工作流中，會不會把姓名、帳號、地點、職業線索或可回推身分的指紋一起帶出去。

為什麼需要這個 benchmark

許多單位的前提很清楚：資料不能離開組織邊界，所以要用地端模型。但模型在日常工作中未必會自動治理資料。DataTrace 要測的是：沒有明講「請匿名化」時，模型會不會自己看見風險；被要求分享、搜尋、交給工具或被要求反推姓名時，模型能不能守住界線。

地端部署不是免疫證明

資料不送到外部模型，只解決傳輸邊界；模型輸出、工具參數、代理工作流與回覆內容仍可能把原始 PII 或可識別指紋帶出任務。

真正危險的是「順手幫忙」

benchmark 模擬使用者要求整理貼文、生成可分享版本、撰寫搜尋查詢，甚至要求把匿名化資料反解回真名。

只看總分會誤判

有些模型很會完成任務但不會主動匿名化；有些模型能抗反推，卻在身分替換格式或工具輸入上不穩定。

地端總榜

Composite 是 6 個治理軸線乘上 3 個測試軌道的平均。榜首領先，但差距很小；前 3 名其實構成同一個密集群。

Rank	Model	Family / shape	Composite
1	gpt-oss-safeguard-120b	gpt-oss safety-tuned, MoE 117B/5.1B, local Q4	0.658
2	gemma4-e4b-it	gemma, about 5B dense, local Q8	0.651
3	gpt-oss-120b	gpt-oss base, MoE 117B/5.1B, local Q4	0.650
4	gemma4-26b-a4b-it	gemma, MoE 26B/4B, local Q8	0.615
5	gpt-oss-safeguard-20b	gpt-oss safety-tuned, 20B dense, local Q8	0.605
6	qwen3.5-9b	qwen, 9B dense previous generation, local Q8	0.588
7	gemma4-31b-it	gemma-4 31B dense instruct, local Q8	0.585
8	qwen3.6-35b-a3b	qwen, MoE 35B/3B, local Q6	0.573

解讀：0.658 不是「安全率 65.8%」，而是此 benchmark 在多軸、多情境下的相對治理表現。越接近 1，代表越少直接洩漏、越能做身分替換、越能降低指紋風險、越能清理工具輸入並抵抗反向洩漏要求。

洩漏分析

下表把幾個最直觀的安全軸線轉成風險 proxy：直接 PII 洩漏風險、可識別指紋風險、第三方工具輸入外洩風險、反向還原風險。數字越低越好。

Model	Composite	直接 PII 風險	指紋風險	工具輸入風險	反向還原風險
gpt-oss-safeguard-120b	0.658	37%	29%	5%	19%
gemma4-e4b-it	0.651	31%	29%	5%	26%
gpt-oss-120b	0.650	37%	33%	10%	17%
gemma4-26b-a4b-it	0.615	41%	30%	38%	21%
gpt-oss-safeguard-20b	0.605	40%	33%	19%	27%
qwen3.5-9b	0.588	38%	39%	29%	34%
gemma4-31b-it	0.585	40%	27%	38%	33%
qwen3.6-35b-a3b	0.573	46%	35%	33%	33%

直接 PII 風險 = 1 - direct_privacy；指紋風險 = 1 - fingerprint_safety；工具輸入風險 = 1 - 第三方工具輸入安全；反向還原風險 = 1 - reverse_resistance。這些是 benchmark 觀測 proxy，用於排序與比較，不應當單獨宣稱為實務部署的絕對機率。

編輯台觀察

把雲端 API 受測模型拿掉後，故事反而更清楚：地端模型已能在明確要求下做出治理，但「主動治理」仍是整個榜單的薄弱點。

總榜不是絕對安全

榜首只領先 0.008

gpt-oss-safeguard-120b 以 0.658 領先，但 gemma4-e4b-it 是 0.651、gpt-oss-120b 是 0.650。這不是壓倒性勝利，而是地端模型第一梯隊的密集競爭。

弱提示測試

最會主動匿名化的是小模型

在 p0_neutral 弱提示下，gemma4-e4b-it 的 username_replaced 平均約 0.21；qwen3.5-9b 約 0.08；gpt-oss-safeguard-120b 約 0.06。多數大型地端模型在未被明確要求時仍接近零。

安全微調

Safeguard 有效，但幅度很小

同架構比較下，gpt-oss-safeguard-120b 對 gpt-oss-120b base 的 composite 僅 +0.008。它在工具輸入與指紋安全上較好，但 base 版本在反向還原抵抗更高。

模型變大不保證更穩

同家族內部也會倒掛

gemma4-e4b-it 的總分高於 gemma4-26b-a4b-it 與 gemma4-31b-it；qwen3.5-9b 也高於 qwen3.6-35b-a3b。隱私治理不是單純的參數量競賽。

地端模型的第一條風險，不是「它知道多少」，而是「它什麼時候才會自動停手」。

三條軌道怎麼看

single_shot 最接近「一次性工作指令」；multi_shot 測持續互動是否守得住；agentic_workflow 測工具呼叫與工作流中的資料治理。

Model	Single-shot	Multi-shot	Agentic workflow
gpt-oss-safeguard-120b	0.47	0.70	0.80
gemma4-e4b-it	0.47	0.72	0.77
gpt-oss-120b	0.45	0.68	0.81
gemma4-26b-a4b-it	0.51	0.49	0.84
gpt-oss-safeguard-20b	0.35	0.65	0.82
qwen3.5-9b	0.23	0.69	0.83
gemma4-31b-it	0.55	0.41	0.79
qwen3.6-35b-a3b	0.21	0.68	0.83

各軸冠軍分散

如果部署目的不同，選型也會不同。追求反向還原抵抗、工具輸入安全、任務可用性或指紋降低，得到的答案不是同一個模型。

Model	直接隱私	身分替換	指紋安全	工具輸入	任務效用	反向抵抗
gpt-oss-safeguard-120b	0.63	0.12	0.71	0.95	0.73	0.81
gemma4-e4b-it	0.69	0.04	0.71	0.95	0.78	0.74
gpt-oss-120b	0.63	0.13	0.67	0.90	0.73	0.83
gemma4-26b-a4b-it	0.59	0.16	0.70	0.62	0.83	0.79
gpt-oss-safeguard-20b	0.60	0.13	0.67	0.81	0.70	0.73
qwen3.5-9b	0.62	0.12	0.61	0.71	0.81	0.66
gemma4-31b-it	0.60	0.11	0.73	0.62	0.79	0.67
qwen3.6-35b-a3b	0.54	0.12	0.65	0.67	0.79	0.67

方法與限制

這是一份讓選型討論可被重複檢驗的 benchmark 摘要，不是產品認證或合規保證。

測試設計

資料形狀：reddit-shaped synthetic samples。
三軌道：single_shot、multi_shot、agentic_workflow。
六軸線：直接隱私、身分替換、指紋安全、工具輸入安全、任務效用、反向還原抵抗。

本頁篩選規則

只保留 `config/models.yaml` 中 `base_url_env: OLLAMA_HUB_BASE_URL` 的 under_test 模型。原始報告中的雲端 API 受測模型不進入本頁排名、表格與敘事。

來源：local-safe 專案，latest report `20260514-172351`。若重新跑 benchmark，請重新生成本頁，以免數字與最新 artifacts 不一致。