Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning
原題: Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning 著者: Y Jang, J Lee, D Kim, J Jo, SS Woo | 会議: arxiv.org 2026 | 引用: 0 PDF: jang26a.pdf
Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning∗ Yurim Jang Department of Artificial Intelligence Sungkyunkwan University Suwon, Republic of Korea jyl8755@g.skku.edu Jaeung Lee Department of Computer Science and Engineering Sungkyunkwan University Suwon, Republic of Korea dlwodnd00@skku.edu Dohyun Kim Department of Computer Science and Engineering Sungkyunkwan University Suwon, Republic of Korea kimdoh0423@g.skku.edu Jaemin Jo Department of Computer Science and Engineering Sungkyunkwan University Suwon, Republic of Korea jmjo@skku.edu Simon S. Woo† Department of Computer Science and Engineering Sungkyunkwan University Suwon, Republic of Korea swoo@g.skku.edu
Abstract As pretrained models are increasingly shared on the web, ensuring that models can forget or delete sensitive, copyrighted, or private information upon request has become crucial. Machine unlearn- ing has been proposed to address this challenge. However, current evaluations for unlearning methods rely on output-based metrics, which cannot verify whether information is completely deleted or merely suppressed at the representation level, where suppres- sion is insufficient for true unlearning. To address this gap, we propose a novel restoration-based analysis framework that uses Sparse Autoencoders to identify class-specific expert features in intermediate layers and applies inference-time steering to quan- titatively distinguish between suppression and deletion. Applying our framework to 12 major unlearning methods in image classi- fication tasks, we find that most methods achieve high restora- tion rates of unlearned information, indicating that they only sup- press information at the decision-boundary level, while preserving semantic features in intermediate representations. Notably, even retraining from pretrained checkpoints shows high restoration, revealing that robust semantic features inherited from pretrain- ing are not removed by retraining. These results demonstrate that representation-level retention poses significant risks overlooked by output-based metrics, highlighting the need for new unlearn- ing evaluation criteria. We propose new evaluation guidelines that prioritize representation-level verification, especially for privacy- critical applications in the era of pre-trained models. Code available at https://github.com/Yurim990507/suppression-or-deletion CCS Concepts • Security and privacy →Privacy protections. Keywords Machine Unlearning, Model Interpretability, Sparse Autoencoders ∗Accepted at The Web Conference 2026 (WWW ’26) †Corresponding author. 1
Introduction The proliferation of model-sharing platforms such as Hugging Face [24] has democratized access to a wide range of useful pre- trained models. Practitioners routinely download these models trained on large-scale web data, fine-tune them on proprietary datasets, and redistribute them within the web ecosystem. However, DNNs can memorize and leak sensitive personal information from web-scraped data [11]. As regulatory frameworks such as the EU’s GDPR [23] mandate the “right to be forgotten”, machine unlearning (MU) [1] has emerged to selectively remove such data influence. A straightforward approach is to retrain the model from scratch using only the retained data. While this guarantees complete removal, it is often prohibitively expensive. Instead, most practical unlearning methods adjust the model’s parameters to selectively remove the influence of the target data without full retraining (i.e., approximate unlearning). Despite the development of various approximate unlearning methods, evaluations of their effectiveness remain insufficient and unclear, as they primarily rely on output-based metrics. For exam- ple, unlearning success is typically measured by accuracy on the forget set or by the performance of membership inference attacks (MIAs) [19]. However, such metrics cannot confirm whether fea- tures of the unlearned data have been removed from the model’s intermediate representations. As a result, the risks of representation- level retention remain underexplored. In this work, we differentiate between two possible outcomes of unlearning (deletion vs. sup- pression): deletion refers to the complete removal of class-specific representations from all layers, while suppression refers to the case where these representations remain encoded in intermediate layers but are masked at the output. To fill this gap, we propose a novel restoration-based analysis framework that tests whether unlearned information can be recovered at the representation level. Using inference-time steering on features identified by Sparse Autoen- coders (SAEs), we show that accuracy on the forget set can be restored, even for models that satisfy output-based evaluations. Our contributions are as follows: arXiv:2602.18505v1 [cs.CV] 18 Feb 2026
WWW ’26, April 13–17, 2026, Dubai, United Arab Emirates Yurim Jang, Jaeung Lee, Dohyun Kim, Jaemin Jo, and Simon S. Woo • We introduce an analysis framework that uses SAEs to iden- tify class-specific features and applies inference-time steer- ing to distinguish suppression from deletion. • We apply this framework to 12 major unlearning methods in image classification tasks and find that most methods merely suppress rather than delete class-specific representations. • Based on our analysis, we propose design and evaluation guidelines for unlearning methods that emphasize representation- level verification over current output-based metrics. 2 Background and Related Work Machine Unlearning (MU) [1] aims to remove specific data influ- ence from trained models. Various approximate unlearning methods have been proposed to avoid the computational cost of full retrain- ing [2, 4–6, 9, 15, 21]. These methods are typically evaluated using output-based metrics such as accuracy on the forget set (lower is better) and retain set (higher is better), or using MIAs, which at- tempt to infer whether a sample was part of the training data from the model’s outputs [19]. Alternatively, research in [12, 16] com- pares unlearning methods to fully retrained models by examining layer-wise representational similarity. However, the aforementioned approaches have critical limita- tions, since output-based evaluations cannot verify whether fea- tures are deleted or merely suppressed. While layer-wise compar- isons with retrained models provide representation-level verifica- tion, they require retraining from scratch for each unlearning sce- nario, which is impractical for large-scale deployments. Our work addresses these limitations by introducing a restoration-based anal- ysis framework that tests whether features can be restored at the representation level without requiring retraining. Sparse Autoencoders [18] are often used to identify interpretable features in model activations. They employ overcomplete represen- tations (𝑚> 𝑑), where𝑑is the input dimension and𝑚is the number of latent features, with sparsity constraints (e.g., TopK), encourag- ing sparse feature sets. SAEs are valuable for providing mechanistic interpretability [20, 22], as they isolate human-understandable con- cepts within neural networks. This interpretability enables feature steering [22], modifying intermediate representations to control model behavior. Recent approaches manipulate SAE features by scaling them with a multiplier 𝛼to amplify or ablate their influ- ence [17, 22]. We leverage SAEs to identify class-specific features and perform restoration experiments through steering, extending SAE-based interpretability to representation-level MU evaluation. 3 Suppression or Deletion Framework Prior work indicates that intermediate network layers tend to con- centrate semantic information, while early layers capture low-level features and final layers are task-specific [10]. Motivated by this observation, we focus our analysis on intermediate layers that serve as semantic bottlenecks. Our framework consists of two phases: (1) feature selection, and (2) selective restoration (see Figure 1). Feature Selection. We identify class-specific “expert” features through a four-step pipeline: (1) collect SAE activations from patch tokens at the ℓ-th layer; (2) filter out uninformative features that never activate or always activate, since such features do not con- tribute to class discrimination; (3) compute each feature’s F1 score Table 1: SAE ablation study on CIFAR-10 (Class 2, 20 features) and ImageNette (Class 7, 40 features). Ablating the expert features causes substantial forget class accuracy drops while maintaining retain class accuracy, validating class-specificity. Dataset Class Layer 8 Layer 9 Layer 10 CIFAR-10 Forget -95.00 -98.60 -99.00 Retain +0.10 +0.18 +0.24 ImageNette Forget -82.80 -96.44 -98.80 Retain +0.50 +0.52 +0.52 Figure 1: Overview of the Suppression or Deletion framework. Top: Class-specific expert features are selected from SAE activations. Middle: Activations from the original and un- learned models are encoded via SAE and steered at these expert features to restore the representations. Bottom: The steered representations are decoded and propagated through the remaining layers; restoration of forget class predictions indicates suppression rather than deletion. for class 𝑐by calculating precision (i.e., probability of class 𝑐when activated) and recall (i.e., probability of activation for class 𝑐); (4) se- lect the top 5𝐾/4 features per class by F1 score, where 𝐾is the SAE’s TopK sparsity level. To handle possible permutations of feature in- dices after unlearning, we align the features of the original and unlearned models using the Hungarian algorithm [14], yielding a matched feature set F𝑐for each class 𝑐. We validate the class- specificity of these expert features (Table 1): ablating them reduces forget class accuracy by more than 80% across layers, while retain class accuracy changes within 1%. Selective Restoration. For each target layer ℓ, we extract the ac- tivation from that layer for both the original and unlearned models, denoted ℎorig and ℎunl, respectively. After encoding these activa- tions with the SAE, we selectively restore class𝑐features (i.e., expert features) of the original model in the unlearned model’s represen- tation. Specifically, for each feature index 𝑗∈F𝑐, we replace the
Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning WWW ’26, April 13–17, 2026, Dubai, United Arab Emirates Table 2: Our framework evaluates 12 major unlearning methods on CIFAR-10 and ImageNette, by measuring forget class accuracy before and after restoration across layers. Red cells indicate forget class accuracy over 80% after restoration.
方法 CIFAR-10 (鳥、クラス 2) ImageNette (給油ポンプ、クラス 7) 学習なし 精度 復元された精度 学習なし 精度 復元された精度 レイヤー 8 レイヤー 9 レイヤー 10 レイヤー 8 レイヤー 9 レイヤー 10 再トレーニング (Retrain) 0.00% 95.70% (+95.70) 99.60% (+99.60) 99.40% (+99.40) 0.00% 43.44% (+43.44) 84.83% (+84.83) 98.97% (+98.97) ファインチューニング (Finetune) 46.90% 45.90% (-1.00) 51.30% (+4.40) 94.00% (+47.10) 0.00% 0.72% (+0.72) 0.72% (+0.72) 84.73% (+84.73) AdvNegGrad 0.00% 100.00% (+100.00) 100.00% (+100.00) 100.00% (+100.00) 0.00% 1.03% (+1.03) 21.08% (+21.08) 82.01% (+82.01) RandomLabel 0.00% 100.00% (+100.00) 100.00% (+100.00) 100.00% (+100.00) 0.00% 4.30% (+4.30) 82.82% (+82.82) 99.76% (+99.76) Bad-T 9.50% 0.50% (-9.00) 0.60% (-8.90) 0.00% (-9.50) 0.24% 2.86% (+2.63) 7.40% (+7.16) 1.19% (+0.95) SCRUB 6.00% 100.00% (+94.00) 100.00% (+94.00) 100.00% (+94.00) 0.00% 0.26% (+0.26) 0.52% (+0.52) 95.87% (+95.87) SalUn 0.00% 63.30% (+63.30) 72.80% (+72.80) 96.30% (+96.30) 0.00% 33.17% (+33.17) 97.14% (+97.14) 100.00% (+100.00) CF-K 12.20% 0.10% (-12.10) 0.90% (-11.30) 27.20% (+15.00) 0.72% 0.00% (-0.72) 0.00% (-0.72) 0.24% (-0.48) EU-K 0.00% 0.00% (+0.00) 0.00% (+0.00) 0.00% (+0.00) 0.00% 0.00% (+0.00) 0.00% (+0.00) 0.00% (+0.00) L1-Sparse 0.00% 97.60% (+97.60) 99.10% (+99.10) 99.40% (+99.40) 0.00% 84.73% (+84.73) 91.17% (+91.17) 96.90% (+96.90) SSD 1.30% 2.20% (+0.90) 26.40% (+25.10) 48.30% (+47.00) 0.00% 13.62% (+13.62) 21.59% (+21.59) 38.56% (+38.56) UNSIR 0.00% 38.50% (+38.50) 86.70% (+86.70) 86.70% (+86.70) 0.00% 20.76% (+20.76) 51.55% (+51.55) 82.34% (+82.34) 重み付けされた元の値を持つ学習なしの特徴値: ˆℎ[𝑗] = ℎunl[𝑗] + 𝛼(ℎorig[𝑗] −ℎunl[𝑗]) (1) ここで、𝛼はステアリング係数です。これにより、選択された特徴が元のモデルと一致するステアード表現 (steered representation) ˆℎが得られます。ˆℎを SAE (Sparse Autoencoder: 疎自己符号化器) を通して復号し、学習なしモデルの残りの層にフィードして出力を生成します。ステアリング後に忘却クラスの精度が増加することは、忘却がクラス 𝑐のエキスパート特徴を削除するのではなく抑制したことを示しています。
実験 4.1 実験設定 データセットとモデル。ImageNet-21K [25] で事前トレーニングされた ViT-B/16 [3] を採用し、CIFAR-10 [13] および ImageNette [8] (ImageNet の 10 クラスサブセット) でファインチューニングします。 忘却手法。12 の忘却手法を評価します:Retrain (保持セット上で事前トレーニングモデルを再トレーニングする)、Finetune、AdvNegGrad、RandomLabel、Bad-T [2]、SCRUB [15]、SalUn [4]、CF-K/EU-K [6]、L1-Sparse [9]、SSD [5]、UNSIR [21]。 SAE 設定。CIFAR-10 ではスパース性パラメータ 𝐾= 16 の TopK SAE を、ImageNette では 𝐾= 32 を使用します。復元実験では、特徴を増幅するためにステアリング乗数 (steering multiplier) を 𝛼= 10 に設定します。
4.2 結果 復元ベースのフレームワークを 12 の忘却手法に適用したところ、Table 2 の結果は 3 つの主要な観察結果を示しています:削除よりも抑制が一般的であること、表現保持が層深さとデータセット複雑度に応じた依存関係があること、および効果的な削除を達成する手法レベルの違いです。
抑制の普遍性。近似忘却手法のほとんどで一貫した抑制パターンを観察しました。これは既存の出力ベースの評価指標では測定できません。低く (しばしば 0%) の忘却精度を達成しながらも、これらの手法は高い復元精度を示します。特に、主に出力マッピングまたは損失関数を調整する手法 (AdvNegGrad、SCRUB、RandomLabel など) は、ネットワークの深い層で元の精度にほぼ復元されたモデルを生み出します。同様に、パラメータレベルの変更を行う他の手法 (Finetune、SalUn、UNSIR など) も、忘却情報の高い復元可能性を示します。值得注意的是、Retrain でさえ両方のデータセットで高い復元精度を示しました。これは、事前トレーニングから継承された堅牢な意味的特徴が持続することを示しています。これらの手法は中間表現を変更せずにクラス固有の表現を抑制するだけであり、削除には至りません。
層深さとデータセット複雑度の効果。復元効果は層全体で均一ではなく、データセット複雑度と相関します。単純な CIFAR-10 では復元は中間層 (レイヤー 8–9) でピークに達しますが、より複雑な ImageNette では深い層 (レイヤー 9–10) にシフトします。このパターンは、これらの層がクラス固有情報が最も集中する「意味的ボトルネック」(semantic bottlenecks) として機能することを示しています。このようなボトルネックの位置はデータセット複雑度によって影響を受けます:単純なデータセット (CIFAR-10 など) は特徴を中間層に集中させますが、より複雑なデータセット (ImageNette など) はこれらのボトルネックを深い層に押しやることがあります。したがって、忘却は層を意識し、重要な情報が存在する特定の層を対象とする必要があります。
効果的な削除を達成する手法レベルの違い。結果に基づき、忘却手法を修正戦略によって分類できます。2 つのカテゴリを区別します。第 1 カテゴリには、出力または損失レベルの操作に依存する近似手法のほとんどと、Finetune などの単純なパラメータ調整が含まれます。これらの手法は復元に脆弱であり、抑制のみを達成していることが確認されます。対照的に、他のカテゴリの手法は中間層のパラメータに対して標的型または構造的な変更を行います。特に、レイヤーリセットを採用する EU-K はすべての層で 0% の復元精度を達成し、効果的な削除を実証しています。同様に、重み減衰 (weight dampening) を使用する手法 (SSD、Bad-T、CF-K など) は著しく低い復元率を示します。この対比は、削除を達成するには意味的特徴が符号化される中間層のパラメータを構造的に改変または直接対象とする変更が必要であることを示しています。
今後の忘却のためのガイドライン 実験結果に基づき、堅牢な忘却手法の設計と評価のための以下のガイドラインを提案します。
忘却手法の設計。特徴の位置が層深さとデータセット複雑度に依存するという観察は、忘却手法が層を意識する必要があることを示唆しています。効果的な忘却設計には、均一な変更を適用するのではなく、クラス固有情報が集中する意味的ボトルネック層を特定して対象とすることが必要です。さらに、削除を達成するには、中間表現を直接改変する必要があります。分析によると、損失関数や出力マッピングに依存する手法は不十分であり、表現が維持されたままになります。忘却手法の設計者は、事前トレーニング知識の持続性に対処也必须します。Retrain の高い復元精度は、事前トレーニング中に符号化された表現が単純な再トレーニングでは削除されないことを示しています。これは、深い層に符号化された意味的表現を削除するには、レイヤー再初期化 (EU-K など) や標的型パラメータ減衰などの堅牢な改変が必要であることを示唆しています。
信頼性の高い評価。実験は、重要な評価のギャップを明らかにしました:忘却手法は 0% の忘却精度を達成できるが、完全に復元可能であり、従来の出力ベースの評価指標では真の情報削除を検証できないことを示しています。Web エコシステムにおける事前トレーニングモデルの広範な分布は、これらの脆弱性をさらに増幅します。Retrain の高い復元率に示されるように、事前トレーニングから継承された堅牢な意味的表現が持続するため、このような評価は特に誤解を招く可能性があります。当フレームワークは、復元ベース分析を通じて抑制と削除を区別する定量的ツールを提供します。評価には、重要な意味層を対象とした層ごとの検証と、最小限の変更下での復元テストを含めることを推奨します。プライバシーが重要なアプリケーションでは、情報が単に抑制されるのではなく本当に削除されたことを保証するために、表現レベルの監査が必須となります。
制限事項と今後の研究
一般化可能性。本研究の分析は画像分類用の ViT に焦点を当てており、他のアーキテクチャでは情報が異なる方法で分散される可能性があるため、直接的な一般化には限界があります。また、クラスごとの忘却が抑制と削除を区別するための理想的な設定として機能しましたが、このフレームワークを他のシナリオ(例えば、インスタンスごとの忘却など)に拡張することは今後の研究課題です。有望な方向性としては、LLM や生成モデルへのエキスパート特徴選択の適応があります。これらのアーキテクチャは情報削除の定義と検証において独自の課題を提示します。
SAE による解釈。SAE によって特定される特徴はスパース性レベルや展開係数などのハイパーパラメータに依存し、モデルの完全な内部挙動を完全に捉えるとは限りません。本研究のアブレーション研究でクラス固有性が確認されましたが、注意が必要です。最近の研究では、ランダムに初期化されたモデルからでも SAE が特徴を抽出できることが示されており [7]、代替的な解釈手法の必要性が示唆されています。
結論 我々は、SAE を用いた復元ベースの分析フレームワークを導入し、表現の削除と抑制を定量的に区別します。このフレームワークを適用した結果、近似忘却手法のほとんどは情報を単に抑制するだけであり、出力ベースの評価指標が成功を示す場合でも、中間層において意味的表現が持続して復元可能であることが明らかになりました。この不一致は重大なリスクをもたらします。安全と見なされたモデルがモデル共有プラットフォームを通じて配布され再デプロイされる際、利用可能な持続的な表現を保持しているからです。本分析に基づき、我々は重要な忘却手法設計 (MU design) のガイドラインを提案します:今後の評価にはメカニズム的検証の組み込みが必要であり、効果的な忘却には中間表現を直接対象とする層意識的な改変が必要です。出力行動から内部メカニズムへと評価をシフトさせることで、本稿は事前トレーニングモデルの安全な再配布における信頼性の高いプライバシー保証のための基盤を提供します。
謝辞 本研究は、韓国政府 (MSIT) が支援した情報通信技術計画評価研究所 (IITP) の助成金 (RS-2022-II220688, RS-2019-II190421, RS-2024-00437849) および韓国政府 (MSIT) が支援する国立研究財団 (NRF) の助成金 (No. RS-2024-00356293) によって部分的に支援されました。
参考文献 [1] Y. Cao and J. Yang. Towards making systems forget with machine unlearning. In IEEE S&P, 2015. [2] V. Chundawat et al. Can bad teaching induce forgetting? unlearning in deep networks using an incompetent teacher. In Proc. AAAI, 2023. [3] A. Dosovitskiy. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv:2010.11929, 2020. [4] C. Fan et al. Salun: Empowering machine unlearning via gradient-based weight saliency. arXiv:2310.12508, 2023. [5] J. Foster et al. Fast machine unlearning without retraining through selective synaptic dampening. In Proc. AAAI, 2024. [6] S. Goel et al. Towards adversarial evaluations for inexact machine unlearning. arXiv:2201.06640, 2022. [7] T. Heap et al. Sparse autoencoders can interpret randomly initialized transformers. arXiv:2501.17727, 2025. [8] J. Howard. Imagenette. https://github.com/fastai/imagenette, 2019. [9] J. Jia et al. Model sparsity can simplify machine unlearning. NeurIPS, 2023. [10] S. Joseph et al. Steering CLIP’s vision transformer with sparse autoencoders. arXiv:2504.08729, 2025. [11] S. Kim et al. Propile: Probing privacy leakage in large language models. NeurIPS, 2023. [12] Y. Kim et al. Are we truly forgetting? a critical re-examination of machine unlearning evaluation protocols. arXiv:2503.06991, 2025. [13] A. Krizhevsky and G. Hinton. Learning multiple layers of features from tiny images. 2009. [14] H. Kuhn. The hungarian method for the assignment problem. Naval Research Logistics Quarterly, 2, 1955. [15] M. Kurmanji et al. Towards unbounded machine unlearning. NeurIPS, 2023. [16] J. Lee et al. Unlearning comparator: A visual analytics system for comparative evaluation of machine unlearning methods. arXiv:2508.12730, 2025. [17] K. O’Brien et al. Steering language model refusal with sparse autoencoders. arXiv:2411.11296, 2024. [18] B. Olshausen and D. Field. Sparse coding with an overcomplete basis set: A strategy employed by V1? Vision Research, 37(23), 1997. [19] R. Shokri et al. Membership inference attacks against machine learning models. In IEEE S&P, 2017. [20] S. Stevens et al. Sparse autoencoders for scientifically rigorous interpretation of vision models. arXiv:2502.06755, 2025. [21] A. Tarun et al. Fast yet effective machine unlearning. IEEE TNNLS, 35(9), 2023. [22] A. Templeton et al. Scaling monosemanticity: Extracting interpretable features from Claude 3 Sonnet. Anthropic, 2024. [23] P. Voigt and A. V. dem Bussche. The EU GDPR. Springer, 2017. [24] T. Wolf et al. Huggingface’s transformers: State-of-the-art natural language processing. arXiv:1910.03771, 2019. [25] B. Wu et al. Visual transformers: Token-based image representation and processing, 2020.