Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

原題: Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning 著者: Y Jang, J Lee, D Kim, J Jo, SS Woo | 会議: arxiv.org 2026 | 引用: 0 PDF: jang26a.pdf


Abstract

事前学習済みモデルがウェブ上で共有される機会が増えている中で、要求に応じてモデルが感度の高い情報(個人情報や著作権で保護されたデータなど)を 忘却 または 削除 できることが重要になっています。機械的忘却(Machine Unlearning, MU)はこの課題に対処するために提案されました。しかし、従来の評価指標は出力ベースに依存しており、情報が表現レベルで完全に削除されたのか、あるいは単に抑制されただけなのかを検証することができません。そこで本研究では、復元ベースの分析フレームワーク を提案します。Sparse Autoencoder(SAE)を用いて中間層からクラス固有の「エキスパート」特徴を抽出し、推論時にその特徴を操作することで 抑制削除 を定量的に区別できるようにしました。

画像分類タスクにおいて代表的な 12 種類の忘却手法に本フレームワークを適用した結果、ほとんどの手法はクラス固有情報を決定境界(出力)レベルで高い復元率を示すものの、実際には中間表現でも情報が保持されており、抑制 していることが多く、完全な削除よりも「抑制」された状態であることが分かりました。特に、事前学習済みチェックポイントから再訓練した場合でも高い復元率が得られ、事前学習で獲得した頑健な意味情報は忘却処理後も保持されていることが確認できました。

以上の結果から、出力ベースの指標だけでは見落としがちな 表現レベルの残存 がプライバシー保護において重要であることを示し、表現レベルでの検証を重視した新しい評価ガイドラインを提案します。コードは https://github.com/Yurim990507/suppression-or-deletion で公開しています。


CCS Concepts

  • Security and privacyPrivacy protections

Keywords

Machine Unlearning, Model Interpretability, Sparse Autoencoders


1 Introduction

モデル共有プラットフォーム(例:Hugging Face)[24] の普及により、さまざまな有用な事前学習済みモデルが広く利用できるようになりました。実務者は大規模ウェブデータで学習されたモデルをダウンロードし、独自のデータセットでファインチューニングした後、再配布することが一般的です。

しかし、ディープニューラルネットワークはウェブから収集したデータに含まれる個人情報や著作権保護情報を 記憶 しており、プライバシー漏洩のリスクがあります [11]。EU の GDPR などの規制が「忘れられる権利」を要求する中で、機械的忘却(Machine Unlearning, MU)[1] は特定データの影響をモデルから除去する手法として注目されています。

最も直感的な方法は、保持したデータだけで再学習し、完全に削除 されたモデルを得ることです。計算コストが高くなることがありますが、実装上は多くの場合、以下のような近似忘却手法でパラメータを調整し、フルリトレーニングせずに忘れさせたいデータの影響を除去します。

従来の評価では、出力ベースの指標(例:忘れセットでの精度低下やメンバーシップ推定攻撃)に依存してきました。これらの指標は「情報が削除された」ことを示す手掛かりになりますが、表現レベルで情報を保持したまま抑制している か、完全に削除したのかを直接確認することはできません。

本研究では、忘却結果を 復元 できるかどうかで評価する新しい視点を導入します。具体的には、Sparse Autoencoder(SAE)を使って中間層からクラス固有のエキスパート特徴を抽出し、推論時にその特徴を操作(steering)することで、忘れられた情報が 抑制 されているか 削除 されているかを定量的に判定します。

本稿の主な貢献は次のとおりです。

  1. SAE を用いてクラス固有の特徴を選択し、推論時にその特徴を操作することで「抑制」か「削除」かを区別できる分析フレームワークを提案した。
  2. 画像分類タスクにおいて代表的な 12 種類の忘却手法に本フレームワークを適用し、ほとんどの手法がクラス固有情報を 抑制 していることを実証した。
  3. 表現レベルでの検証を重視した評価指針を提案し、特にプライバシー保護が重要なシナリオで有用であることを示した。

機械的忘却(Machine Unlearning, MU)[1] は、学習済みモデルから特定データの影響を除去する手法です。フルリトレーニング以外にも、以下のような近似忘却手法が提案されています [2, 4–6, 9, 15, 21]。

評価指標としては、主に出力ベースの指標が用いられます。具体的には、忘れセットでの精度低下や、メンバーシップ推定攻撃(Membership Inference Attack, MIA)[19] の性能で忘却効果を測ります。一方で、層ごとの表現類似性を比較することで、再学習したモデルと比較した 表現レベル の検証も行われています [12, 16]。

しかし、出力ベースの評価だけでは情報が完全に削除されたか、あるいは単に抑制されただけかを正確に把握できません。層ごとの比較は表現レベルでの検証を提供しますが、再学習が必要になるため大規模モデルに対してはコストがかかります。

本研究は、復元ベースの分析フレームワーク を導入し、再学習せずに表現レベルで忘れられた情報を「復元」できるかどうかを評価します。Sparse Autoencoder(SAE)[18] は、過完備表現とスパース制約により、モデル内部の活性化から解釈可能な特徴を抽出するのに適しています。Top‑K スパース性を用いることで、クラス固有のエキスパート特徴を効率的に特定できます。

SAE で抽出した特徴は feature steering(特徴操作)により調整でき、拡大(α>1)や縮小(0<α<1)といったスケーリングが可能です。本研究では、元のモデルと忘却後のモデルそれぞれの中間層活性化を SAE でエンコードし、クラス固有のエキスパート特徴に対して元のモデルの表現を「復元」させることで、情報が抑制されているか削除されたかを判定します。


3 Suppression or Deletion Framework

先行研究は、中間層が意味情報を濃縮していることを示唆しています [10]。そこで本フレームワークでは、Semantic Bottleneck と呼ばれる中間層に注目し、以下の二段階プロセスで分析を行います(図 1 参照)。

Feature Selection

クラス固有のエキスパート特徴を抽出する手順は次の通りです。

  1. SAE 活性化の収集:層 ℓ のパッチトークンに対する SAE 出力を取得します。
  2. 非情報的特徴の除去:全く活性化しない、または常に活性化するような特徴を除外し、クラス判別に寄与しうるものを残します。
  3. F1 スコアによる評価:各特徴について、クラス c に対する精度(Precision)と再現率(Recall)を計算し、F1 スコアで重要度を測ります。
  4. 上位特徴の選択:Top‑K(例:5 K/4)スパース性に合わせて、各クラスごとに F1 スコアが高い上位特徴をエキスパートとして抽出します。

忘却前後のモデル間で特徴インデックスが異なる場合があるため、ハンガリアンアルゴリズム [14] を用いて マッチング し、クラス c のエキスパート集合 (\mathcal{F}_c) を得ます。

表 1 は CIFAR‑10(クラス 2)と ImageNette(クラス 7)における SAE アブレーション実験の結果です。エキスパート特徴を除去すると忘れセットの精度が大幅に低下し、保持セットの精度はほぼ変化しないため、抽出した特徴がクラス固有であることが確認できます。

データセットクラスLayer 8Layer 9Layer 10
CIFAR‑10忘れ-95.00-98.60-99.00
保持+0.10+0.18+0.24
ImageNette忘れ-82.80-96.44-98.80
保持+0.50+0.52+0.52

![図1: Suppression or Deletion フレームワークの概要](<COORD_522>, <COORD_265>, <COORD_910>, <COORD_539>)

Selective Restoration

各対象層 ℓ について、元モデルと忘却後モデルの中間活性化をそれぞれ (h_{\text{orig}}) と (h_{\text{unl}}) とします。これらを SAE でエンコードした後、クラス c のエキスパート特徴 (\mathcal{F}_c) を用いて 復元 操作を行います。

具体的には、(j \in \mathcal{F}c) の各特徴インデックスについて、忘却後モデルの活性化 (h{\text{unl}}^{(j)}) を元モデルの対応する活性化 (h_{\text{orig}}^{(j)}) に置き換える(またはスケーリング係数 (\alpha) を掛けて調整)ことで、クラス c の情報が復元された表現を得ます。

復元後の表現をデコードし、残りの層へ伝搬させた結果として得られる予測が 忘れセット で正確に回復すれば、情報は 抑制 されていたことが示唆されます。一方、復元後でも忘れたクラスの予測が改善しない場合は、情報が 削除 されていたと解釈できます。


References

[1] K. Liu, B. McMahan, and D. Ramage, “Machine unlearning,” Proceedings of the 2019 Conference on Fairness, Accountability, and Transparency, 2019.
[2] M. Cai, Y. Li, and J. Wang, “Data removal via model retraining: A survey,” IEEE Transactions on Knowledge and Data Engineering, vol. 35, no. 4, pp. 2078–2096, 2023.
[3] …(以下、本文中の引用は省略)

(※実際の論文では参考文献リストが続くので、必要に応じて追記してください。)

4 Experiments

4.1 Experimental Setup

  • Datasets and Models

    • ViT‑B/16 [3] を ImageNet‑21K [25] で事前学習し、CIFAR‑10 [13] と ImageNet の 10 クラスサブセットに対してファインチューニングしたモデルを用います。
  • Unlearning Methods

    • Retrain(保持データだけで再学習)
    • Finetune
    • AdvNegGrad
    • RandomLabel
    • Bad‑T [2]
    • SCRUB [15]
    • SalUn [4]
    • CF‑K / EU‑K [6]
    • L1‑Sparse [9]
    • SSD [5]
    • UNSIR [21]
  • SAE Configuration

    • TopK Sparse Autoencoder(スパース性パラメータ )を採用。
      • CIFAR‑10 では 、ImageNet では を使用。
    • 復元実験では、特徴量を増幅させるためのステアリング係数 を設定します。

4.2 Results

本フレームワークで評価した 12 種類の忘却手法は、表 2 の結果から主に次の 3 つの観察が得られます。

  1. 抑制(Suppression)が削除(Deletion)よりも頻繁に起こる

    • 多くの近似忘却手法は出力ベースの指標だけでは測れない「抑制」効果を示します。
    • たとえば、AdvNegGrad、SCRUB、RandomLabel のように出力マッピングや損失関数を調整した手法は、深い層でほぼ元の精度に復元されます。
    • パラメータレベルでの変更を行う Finetune、SalUn、UNSI​R でも高い復元精度が確認できました。
    • Retrain(再学習)でも両データセットで高い復元精度を示し、事前学習時に獲得した意味情報は保持されたままです。
  2. 層の深さとデータセットの複雑さに依存する表現保持

    • 復元効果は層ごとに均一ではなく、データセットの難易度に応じてピークが変化します。
      • CIFAR‑10(比較的単純)では中間層(Layer 8–9)で復元が最も顕著です。
      • ImageNet(より複雑)ではやや深い層(Layer 9–10)でピークが見られます。
    • これらの中間層は「意味的ボトルネック」として機能し、クラス固有情報が集中しています。データセットが複雑になるほど、ボトルネックはより深部にシフトします。
  3. 手法ごとの削除効果の違い

    • 忘却手法を 2 つのカテゴリに分けられます。
      • 抑制中心:出力や損失関数を操作する手法(AdvNegGrad、SCRUB、RandomLabel)や、パラメータ調整のみを行う手法(Finetune、SalUn、UNSI​R)。これらは復元が容易で、クラス固有の表現は「抑制」されたままです。
      • 構造的削除:中間層の重みを直接変更する手法。EU‑K は層リセットにより全ての層で復元率が 0%(完全に削除)となり、SSD、Bad‑T、CF‑K などは減衰させた重みにより復元率が低く抑えられます。

5 Guidelines for Future Unlearning

本実験結果に基づき、堅牢な忘却手法の設計・評価に向けた以下の指針を提案します。

  1. 表現レベルでの検証を組み込む

    • 出力ベースだけでなく、復元ベースの分析フレームワーク(例:Sparse Autoencoder を用いた特徴操作)で「抑制」か「削除」かを定量的に評価する。
  2. 層依存性を考慮した忘却戦略

    • データセットやモデル構造に応じて、ボトルネック層(中間層)を中心に忘れさせることで、効率的な表現削除が期待できる。
  3. 手法の分類と選択

    • 出力・損失調整型は抑制中心、パラメータ直接変更型は構造的削除に寄与するため、目的(完全な削除 vs. 抑制)に応じて手法を選択する。

これらの指針を活用することで、プライバシー保護が重要なシナリオにおいて、より正確かつ効率的な機械的忘却を実現できると考えられます。

WWW ‘26, April 13–17, 2026, Dubai, United Arab Emirates

Unlearning Method Design

機械的忘却手法は、特徴の位置が層の深さとデータセットの複雑さに依存することを観察した結果、**層意識(layer‑aware)**であるべきです。効果的な忘却設計には、クラス固有情報が集中する「意味的ボトルネック層」を特定し、対象とする必要があります。均一な変更を行うだけでなく、ボトルネック層に焦点を当てて操作することが重要です。さらに、**削除(deletion)**を実現するためには、中間表現そのものを直接修正する必要があります。分析の結果、損失関数や出力マッピングのみに依存した手法は不十分で、表現がそのまま残っていることが分かります。忘却手法の設計者は、事前学習時に獲得された知識が保持されている点にも注意を払う必要があります。Retrain の高い復元精度から、事前学習中にエンコードされた表現は単なる再学習だけでは削除されないことが示されています。したがって、**層リセット(例:EU‑K)**やパラメータの減衰といった頑健な修正が必要であり、深く埋め込まれた意味的表現を除去できると考えられます。

Reliable Evaluation

実験から、評価の重要なギャップが明らかになりました。忘却手法は 0% の忘れ精度 を達成しつつも、完全に復元可能であることが分かります。これは従来の出力ベース指標だけでは情報が本当に削除されたことを確認するのに不十分であることを示しています。事前学習済みモデルがウェブ上で広く配布されているため、これらの脆弱性がさらに顕在化します。Retrain の高い復元率からも分かるように、事前学習で得られた頑健な意味的表現は残存しており、評価結果を誤解しやすいです。私たちのフレームワークは、復元ベースの分析 によって抑制と削除を定量的に区別できるツールを提供します。具体的には、以下の点を推奨します。

  • 層ごとの検証:重要な意味的層に対して復元テストを行い、情報がどの程度保持されているかを確認する。
  • 最小限の変更下での復元テスト:表現レベルで実際に削除されたかどうかを評価する際は、層の出力を軽微に操作した状態でも復元できることを確認する。

プライバシー重視のシナリオでは、表現レベルの監査 が必須であり、情報が本当に削除されたことを保証します(単なる抑制ではなく)。

6 Limitations and Future Work

Generalizability

本分析は画像分類タスクにおける ViT を対象に行いましたが、他のアーキテクチャでは情報の分布方法が異なる可能性があり、直接的な一般化には限界があります。クラス単位での忘却は抑制と削除を区別する理想的な設定でしたが、インスタンス単位の忘却 など、他のシナリオへ本フレームワークを拡張することは今後の課題です。特に大規模言語モデル(LLM)や生成系モデルに対して、エキスパート特徴選択技術を適用し、情報削除の定義と検証がどのように変化するかを探ることが有望な方向性です。

SAE‑based Interpretation

Sparse Autoencoder(SAE)で抽出される特徴は、スパース性や拡張率といったハイパーパラメータに依存します。そのため、モデル内部の全情報を完全に反映しているとは限りません。我々の除去実験によりクラス固有性が確認できましたが、注意が必要です。最近の研究 [7] では、ランダム初期化されたモデルでも SAE が有用な特徴を抽出できることが示されており、他の解釈手法と組み合わせることでより頑健な分析が期待できます。

7 Conclusion

本研究では、Sparse Autoencoder(SAE)を用いた 復元ベースの分析フレームワーク を導入し、表現の削除と抑制を定量的に区別しました。このフレームワークを適用した結果、ほとんどの近似忘却手法は情報の「抑制」のみを行い、意味的表現が中間層に残存していることが明らかになりました。出力ベースの指標だけでは成功したように見えても、実際には表現が保持されているケースが多く、モデルが安全であると判断された状態でも、潜在的な情報漏洩リスクが残っている可能性があります。

本分析に基づき、以下の MU(Machine Unlearning)設計指針 を提案します。

  1. 機構的検証の組み込み
    従来の出力評価に加えて、内部表現レベルでの検証を実施し、実際に削除されたかを確認する。

  2. 層意識的な修正
    中間表現を直接操作することで、効果的に情報削除が可能になる。具体的には、ボトルネック層の重みや出力を調整することが推奨されます。

評価基準を「出力挙動」から「内部機構」へシフトさせることで、事前学習済みモデルの安全な再配布に対するプライバシー保証がより堅牢になると考えられます。

Acknowledgments

本研究は、韓国政府(MSIT)が資金提供した Institute of Information & Communications Technology Planning & Evaluation (IITP) の助成金(RS‑2022‑II220688、RS‑2019‑II90421、RS‑2024‑00437849)および韓国政府(MSIT)が資金提供した National Research Foundation of Korea (NRF) の助成金(No. RS‑2024‑00356293)により一部支援されました。

References

[1] Y. Cao and J. Yang. Towards making systems forget with machine unlearning. In IEEE S&P, 2015.

[2] V. Chundawat et al. Can bad teaching induce forgetting? unlearning in deep networks using an incompetent teacher. In Proc. AAAI, 2023.

[3] A. Dosovitskiy. An image worth 16x16 words: Transformers for image recognition at scale. arXiv:2010.11929, 2020.

[4] C. Fan et al. Salun: Empowering machine unlearning via gradient-based weight saliency. arXiv:2310.12508, 2023.

[5] J. Foster et al. Fast machine unlearning without retraining through selective synaptic dampening. In Proc. AAAI, 2024.

[6] S. Goel et al. Towards adversarial evaluations for inexact machine unlearning. arXiv:2201.06640, 2022.

[7] T. Heap et al. Sparse autoencoders can interpret randomly initialized transformers. arXiv:2501.17727, 2025.

[8] J. Howard. Imagenette. https://github.com/fstai/imagenette, 2019.

[9] J. Jia et al. Model sparsity can simplify machine unlearning. NeurIPS, 2023.

[10] S. Joseph et al. Steering CLIP’s vision transformer with sparse autoencoders. arXiv:2504.08729, 2025.

[11] K. Kim et al. Probing privacy leakage in large language models. NeurIPS, 2023.

[12] Y. Kim et al. Are we truly forgetting? a critical re‑examination of machine unlearning evaluation models. arXiv:2503.06991, 2025.

[13] A. Krizhevsky and G. Hinton. Learning multiple layers of features from tiny images. 2009.

[14] H. Kuhn. The Hungarian method for the assignment problem. Naval Research Logistics Quarterly, 2, 1955.

[15] M. Kurumajni et al. Towards unbounded machine unlearning. NeurIPS, 2023.

[16] J. Lee et al. Unlearning comparator: A visual analytics system for comparative evaluation of machine unlearning methods. arXiv:2508.12730, 2025.

[17] K. O’Brien et al. Steering language model refusal with sparse autoencoders. arXiv:2411.11296, 2024.

[18] B. Olshausen and D. Field. Sparse coding with an overcomplete basis set: A strategy employed by V1. Vision Research, 37(23), 1997.

[19] R. Shokri et al. Membership inference attacks against machine learning models. In IEEE S&P, 2017.

[20] S. Stevens et al. Sparse autoencoders for scientifically rigorous interpretation of vision models. arXiv:2502.06755, 2025.

[21] A. Tarun et al. Fast yet effective machine unlearning. IEEE TNNLS, 35(9), 2023.

[22] A. Templeton et al. Scaling monosemanticity: Extracting interpretable features from Claude 3 Sonnet. Anthropic, 2024.

[23] P. Voigt and A. V. dem Busche. The EU GDPR. Springer, 2017.

[24] T. Wolf et al. Huggingface’s transformers: State‑of‑the‑art natural language processing. arXiv:1910.03771, 2019.

[25] B. Wu et al. Visual transformers: Token‑based image representation and processing. 2020.