Machine unlearning: Taxonomy, metrics, applications, challenges, and prospects

原題: Machine unlearning: Taxonomy, metrics, applications, challenges, and prospects 著者: N Li, C Zhou, Y Gao, H Chen, Z Zhang… | 会議: ieeexplore.ieee.org 2025 | 引用: 0 PDF: li25b.pdf


Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

NA LI, Nanjing University of Science and Technology, China and Xidian University, China
CHUNYI ZHOU, Nanjing University of Science and Technology, China
YANSONG GAO, CSIRO, Australia
HUI CHEN, Nanjing University of Science and Technology, China
ANMIN FU, Nanjing University of Science and Technology, China and Xidian University, China
ZHI ZHANG, University of Western Australia, Australia
SHUI YU, University of Technology Sydney, Australia

Personal digital data is a critical asset, and governments worldwide have enforced laws and regulations to protect data privacy. Data users have been endowed with the ‘right to be forgotten’ of their data. In the course of machine learning (ML), the forgotten right requires a model provider to delete user data and its subsequent impact on ML models upon user requests. Machine unlearning emerges to address this, which has garnered ever‑increasing attention from both industry and academia. While the area has developed rapidly, there is a lack of comprehensive surveys to capture the latest advancements. Recognizing this shortage, we conduct an extensive exploration to map the landscape of machine unlearning including the (fine‑grained) taxonomy of unlearning algorithms under centralized and distributed settings, debate on approximate unlearning, verification and evaluation metrics, challenges and solutions for unlearning under different applications, as well as attacks targeting machine unlearning. The survey concludes by outlining potential directions for future research, hoping to serve as a guide for interested scholars.

CCS Concepts: • Security and privacy → Privacy protections

Additional Key Words and Phrases: Machine learning, machine unlearning, data privacy, federated learning

1 INTRODUCTION

Driven by an explosion of data and computational power, deep learning (DL) has showcased stunning performance in various applications such as self‑driving [77, 130], predicting a protein’s 3D structure from its amino acid sequence [51], deciphering the genetic code and unveiling the secrets of hidden DNA diseases [22], and the very recent artificial intelligence generated content (AIGC) wave represented by text generation via ChatGPT [29, 97], image and video generation via diffusion model [125], and code generation via Codex [19]. These models are trained on user‑contributed data.

This work is supported by National Natural Science Foundation of China (62072239, 62372236), Open Foundation of the State Key Laboratory of Integrated Services Networks (ISN24-15), and Qing Lan Project of Jiangsu Province.

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

Na Li, Chunyi Zhou, Yansong Gao, Hui Chen, Anmin Fu, Zhi Zhang, and Shui Yu

![image](<COORD_195>, <COORD_119>, <COORD_843>, <COORD_440>)

Fig. 1. Framework of Machine Unlearning.

Machine unlearning(機械学習における「忘れさせる」技術)は、データ提供者が自分のデータをモデルから除去し、その影響がなかったかのように振る舞うことを可能にする。特に、EU の一般データ保護規則(GDPR)やカリフォルニア州消費者プライバシー法(CCPA)などの法的枠組みで保証されている「忘れられる権利」の実現に不可欠である。

最も直接的な方法は、データを削除した残りのデータセットでモデルを再学習し、ゼロから新しいモデルを作成することである。しかし、このやり方は計算コストと応答遅延が大きくなることがあり、特にデータ量やモデルの複雑さが増大する場合に顕著になる。実際の運用では、再学習が必要なケースが多くなるため、機械学習における忘れさせる(machine unlearning)技術はこの「ナイーブ」なアプローチの課題を克服することを目指す。既存の忘れさせ手法は、残りのデータに対して再学習を行うかどうかに基づき、正確な忘れさせ近似的な忘れさせ の二つに大別できる。

  • 正確な忘れさせ(Exact unlearning): 再学習プロセスを高速化し、削除されたデータがモデルに与えた影響を正確に除去する手法。
  • 近似的な忘れさせ(Approximate unlearning): 再学習を行わずにモデルパラメータだけを直接変更することで、削除したデータの効果を近似的に除去し、結果として得られるモデルは、再学習で得られたものと区別できない。

1.1 Contributions of This Survey

  • 2015 年から 2024 年までの機械学習忘れさせアルゴリズムを網羅的に調査し、特に大規模言語モデル(LLM)を含む多様なタスクに対して、忘れさせるメカニズム別に体系的に分類した上で、各サブカテゴリの利点と限界を詳細に分析した。
  • 分散学習環境における機械学習忘れさせが直面する課題を詳しく解析し、その手法を体系的に分類したうえで、各手法の利点と欠点を比較検討した。
  • 現在利用可能な機械学習忘れさせの検証・評価指標を整理し、体系的な分類(タクソノミー)を作成した。このタクソノミーはデータ提供者とモデル所有者の双方が指標の主な焦点を把握しやすくすることを目的としている。
  • 機械学習忘れさせが活用される多様な応用例を紹介し、モデル最適化やセキュリティ・プライバシー攻撃への防御において特に有効である点を強調した。これにより、実際の要件に合わせて柔軟かつ迅速に展開できることが示された。
  • 機械学習忘れさせに関する課題を包括的に検討し、今後の研究者が取り組むべき方向性と参考になるポイントを提示した。

1.2 Comparison with Existing Surveys

本調査は、従来の機械学習忘れさせに関するサーベイが主に正確な忘れさせ手法や集中型設定に焦点を当てていたのに対し、以下の点で拡張・深化を行っている。

  • 中央集権的および分散(フェデレーテッド)環境の両方 を対象に、忘れさせアルゴリズムを包括的に整理した。
  • 検証・評価指標について新たなタクソノミーを提示し、データ所有者とモデル所有者がそれぞれ重視すべき観点を明確化した。
  • 最近の応用例として、大規模言語モデルやプライバシー保護型 AI サービスなど、実世界で注目されている領域を取り上げた。

これらの貢献により、機械学習忘れさせに関する知識体系がより網羅的かつ実践的に整理されたと考えている。

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

2.1 Definition

機械学習における unlearning(忘れさせる)とは、

  • 元の訓練データ集合 を用いて学習アルゴリズム が生成したモデルを と表す。
  • ユーザーから削除依頼を受けたデータのサブセット を取り出す。

このとき、残りのデータは (すなわち かつ )と定義でき、
機械学習忘れさせるアルゴリズムを表す関数 を用いて

[ \tilde{\mathrm{A}}(\mathcal{D}_{u},\mathrm{A}(\mathcal{D})) ]

という手順で unlearned model(忘れさせたモデル)を生成する。
このモデルは、元のモデルから に含まれる情報が完全に除去された状態であり、再訓練により得られるモデル と区別できないことが期待される([11])。


2.2 Properties

機械学習忘れさせるアルゴリズムは以下の四つの性質を満たす必要がある。

Property説明
Effectiveness(効果的)忘れさせたデータに関する情報を完全に除去し、モデルがそのデータを「見たことがない」かのように振る舞うこと。
Efficiency(効率的)ユーザーからの忘れさせる要求に対して迅速に対応でき、計算コストが低いこと。
Utility(有用性)忘れさせた後でも残りのデータに対する性能(例:精度)が、忘れさせる前とほぼ同等であることを保証する。
Compatibility(互換性)既存の機械学習モデルに対して容易に適用できること。

2.3 Workflow

機械学習サービス(MLaaS)において、元データで訓練されたモデルが提供されている状況を想定すると、以下のような流れになる。

  1. 忘れさせるリクエスト
    データ提供者はプライバシー保護やセキュリティの観点から、特定のデータ(例:個人情報)をモデルから削除したいと要求する。

  2. 忘れさせアルゴリズムの選択
    サーバー側は、対象データの種類(テキスト、画像、グラフなど)やモデルタイプ(CNN、DNN、GNN、線形モデル等)に応じて、正確な忘れさせ(exact unlearning)か近似的な忘れさせ(approximate unlearning)を選択する。

  3. 忘れさせの実行
    選択したアルゴリズムを適用し、元のモデルから指定されたデータ情報が除去された unlearned model を生成する。

  4. 結果提供
    完成した忘れさせたモデルをユーザーに返却し、要求通りにデータが削除されたことを確認できる。


3 Verification and Evaluation Metric

3.1 Verification Metrics

機械学習忘れさせの効果を検証するために、データ提供者は Verification Metrics を用いて、モデルが本当に指定したデータ()に関する情報を除去したかどうかを確認する。
検証手法は、モデルに対して直接的に操作を行うか否かで次の二つに分類できる。

3.1.1 Invasive Metric

Invasive(侵入的)メトリクスは以下の二段階から構成される。

  1. Watermarking
    データ提供者は、検証したいデータ(例: やモデルパラメータ)にウォーターマークを付与する。

  2. Verification
    提供された忘れさせたモデルに対して、ウォーターマーク情報を抽出し、実際にその情報が残っているかを確認する。

このプロセスはモデル提供者が「忘れさせ」た後に実施され、モデル内部に埋め込まれたウォーターマークが正しく保持されていることを示すことで、忘れさせの正確性を検証できる。


3.2 Non‑Invasive Metric

Non‑invasive(非侵入的)メトリクスは、モデルに対して追加的な操作を行わずに評価できる指標である。代表的な例としては以下が挙げられる。

  • Statistical Difference
    忘れさせた前後で、残りのデータに対する予測分布や特徴量統計量の変化を比較し、差分が期待通りか確認する。

  • Leave‑One‑Out (LOO) Influence
    個々のサンプルがモデルに与える影響度合い(influence)を計算し、忘れさせたデータの影響が除去されたことを数値的に示す。


3.3 Summary of Notations

記号説明
元の訓練データ集合
学習アルゴリズム(例:ロジスティック回帰、ニューラルネット)
削除対象となるサブセット
機械学習忘れさせアルゴリズム
残りの訓練データ集合(
元モデルのパラメータ
元の学習済みモデル
忘れさせた後のモデルパラメータ
忘れさせたモデル
訓練データ点
に対応するラベル
ミニバッチ数
最適なノイズ(例:差分プライバシーで使用)

3.4 Example of Verification

以下は、Invasive メトリクスを用いた具体的な検証手順の例である。

  1. Watermarking

    • データ提供者は、忘れさせたいデータ の各サンプルに対し、ハッシュ関数 を適用し、 として二値化したウォーターマークを付与する。
  2. Verification

    • サーバーが提供した忘れさせたモデル を用いて、各サンプル の予測確率分布からウォーターマーク情報を抽出する。
    • 抽出結果が元の と一致すれば、忘れさせたモデルは の情報が正しく除去されたことが確認できる。

3.5 Summary

本節では、機械学習忘れさせの検証指標として Invasive(ウォーターマーク)と Non‑invasive(統計的・影響度)メトリクスを紹介した。
データ提供者はこれらの指標を組み合わせることで、モデルが要求されたデータ情報を正確に忘れさせたことを客観的に評価できる。


References(省略)


Na Li, Chunyi Zhou, Yansong Gao, Hui Chen, Anmin Fu, Zhi Zhang, and Shui Yu

(※著者情報はそのまま残しています。)

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

Watermark‑based Metric

Watermarking は、バックドアトリガーまたは所有者固有のバイナリ文字列をデータ(例: やモデルパラメータ)に埋め込む手法です[49, 95]。また、モデルが持つ特徴的な性質を捉えるために対向例を作成し、忘れさせたことの検証を支援します[36]。

Backdoor‑based Watermark

Sommer らはバックドアを用いた検証手法を提案しました[95]。まず、データ提供者が の予測を人工的なターゲットラベルに変えるようなバックドアパターンを作成し、汚染されたサンプル(ウォーターマーク)をサーバへアップロードします。忘れさせが完了した後、データ提供者はバックドア成功率の統計量を評価します。モデルが の情報を保持していれば、バックドア成功率は顕著に高くなるでしょう。Gao らはこの手法をフェデレーテッド学習環境でも適用できるように拡張しました[36]。ただし、従来の方法ではピクセルをランダムに選んで値を 1 にするだけだったため、モデル提供者側が容易に検出できました。Guo らは LSB(Least Significant Bit)アルゴリズムを用いてトリガーを埋め込むことで、より頑健なバックドアウォーターマークを作成しました[44]。

Feature‑based Watermark

Izzo らは線形分類器の忘れさせ検証のために Feature Injection Test (FIT) を提案しました[49]。ウォーターマークステップでは、 に強い信号を注入し、追加した特徴量(値は 0 に設定)に対して学習させます。その結果、訓練過程でこの特徴量の重みが非ゼロになることが期待されます。検証ステップでは、忘れさせた後にその重みが再び 0 に戻っているかを確認します。重みの変化が 0 に近いほど、忘れさせが成功したと評価できます。

Adversarial Example‑based Watermark

Gao らはフェデレーテッド学習において最初の検証指標として 対向例ベースのウォーターマーク を導入しました[36]。Deep Neural Network(DNN)分類器はその決定境界で特徴付けられるため、境界フィンガープリントを用いてローカルモデルを識別するウォーターマークを作成します。具体的には:

  1. ウォーターマークステップ:データ提供者が対向例(決定境界付近のサンプル)を生成し、ローカルモデルに対して「水印」用の対向例として使用します。
  2. ローカルモデルを微調整して、これらの対向例がより滑らかで頑健な境界を持つようにします(=ウォーターマークされたローカルモデル)。
  3. このローカルモデルはサーバへ送信され、全体モデルに統合されます。
  4. 検証ステップ:全体モデルに対向例を入力し、予測結果が期待通りであるか確認します。真の忘れさせが行われている場合、対向例に対する境界が滑らかさを取り戻すため、予測が正しくなることが示されます。

Non‑invasive Metric

データ提供者が事前にウォーターマークを施していない(レガシーモデルなど)ケースでは、侵入的でない指標を利用できます。侵入的メトリックはプライバシー上の懸念や防御的な操作により精度が低下することがありますが、非侵入的メトリックはモデル出力のみ、またはモデル提供者が暗号証明を提示することで忘れさせの検証が可能です。

Membership Inference Metric

Membership inference は、あるサンプルが訓練データに含まれているかどうかを判定する手法です[56, 93]。この技術を利用して、モデルが の情報を保持しているかを確認できます。Graves らは忘れさせ検証のために membership inference を用いました[42]。具体的には:

  1. シャドウモデル:元の(忘れさせた)モデルと同様に訓練された複数のシャドウモデルを作成します。
  2. これらのシャドウモデルから得られた出力確率を特徴量として、二値分類器(メタラーナー)を学習し、入力サンプルが訓練データに属するかどうかを予測させます。

この手順により、忘れさせたモデルが の情報を保持しているかを間接的に評価できます。


3.2 Evaluation Metrics

忘れさせの効果を定量的に評価するために、以下のような指標が広く用いられます。

  • Exactness:元データと比較して、忘れさせた後に残っている情報がどれだけ正確に削除されたかを測る指標。
  • Utility Retention:忘れさせてもモデルの性能(例:精度)がどの程度保持されているかを示す指標。
  • Privacy Guarantees:DP‑unlearning などの理論的プライバシー保証に基づく指標。

これらの評価指標は、実験設定や忘れさせ手法に応じて組み合わせて使用されます。

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

Table 3. Summary of Metrics

MetricsAdvantagesDrawbacks
Verification Metrics
Invasive MetricsWatermark‑based[36,44,49,95]結論が直感的に得られる
Data reconstruct[32,42,87,106,127]結論が直感的に得られる実装が複雑
Non‑invasive MetricsCryptographic‑based[27]検証に対して理論的な保証がある
Membership inference[42,56,93]推論の方法が多様である実装が複雑
Evaluation Metrics
Unlearning EffectivenessRelearn time[40,99,106]評価プロセスが直感的に分かりやすい
Theory‑based[8,11,43][40,41,78,91,117]理論的な保証がある特定の忘れさせ手法に限定される
Unlearning EfficiencySimilarity‑based[3,40,42,49,100,106,117]評価プロセスが比較的迅速
Accuracy on [9,43,49,89,117][8,42,111,118,122]評価プロセスが実装しやすい評価能力は弱い
Model UtilityAccuracy on [11,42]評価プロセスが実装しやすい

[ A I N = \frac {r t \left(\tilde {A} \left(\mathcal {D} _ {u}, \mathrm {A} (\mathcal {D})\right), \mathrm {A} (\mathcal {D}), \alpha\right)}{r t \left(\mathrm {A} \left(\mathcal {D} _ {r}\right), \mathrm {A} (\mathcal {D}), \alpha\right)} ]

(1)

Notations can be recalled in Table 2. AIN が 1 に近づくほど効果的な忘れさせを示し、1 よりかなり小さい値は残っている情報があることを示し、再学習時間が短くなることを意味します。AIN が 1 を大きく超えると、パラメータの変化が顕著であることを示し、過剰な忘れさせ(over‑unlearning)を起こす可能性があり、プライベートデータが攻撃者に対してよりアクセスしやすくなる「Streisand 効果」を引き起こすことがあります。

  • Similarity‑based Metric
    忘れさせたモデルと再学習したモデル間の類似度は、活性化(activation)、重み(weight)、分布(distribution)という観点で測定します(上記の順序ほど忘れさせ効果に対する保証が強くなります)。類似度が高いほど、忘れさせは良好です。

  • Activation Distance
    活性化距離は、忘れさせの評価が比較的弱い指標です。[3, 40]では最終的な活性化ベクトル間の類似度を ノルムで測定します。 ノルムが小さいほど、忘れさせ効果が高いことを示します。

  • Weight Distance
    重み距離は、ほとんどの近似忘れさせ手法でモデルの重みが変更されるため、重み間の相関を確認するためにさまざまな類似度指標が用いられます。代表的な指標は ノルム距離とコサイン類似度です。

3.2.2 Efficiency Metric

Unlearn Speed Metric
Unlearn speed(実行時間)は、機械学習モデルの忘れさせる処理の効率を評価する指標として用いられます。具体的には、忘れさせた後のモデルと「ナイーブに再訓練」したモデルとの実行時間差を測定します。

  • 時間差が大きいほど、プライバシー保護やデータ削除が迅速に行われていることを示し、サービス提供者が指定された期限内に忘れさせる操作を完了できることが保証されます。

表 3 からも分かるように、多くの研究ではこの指標を利用して忘れさせ処理の効率性を評価しています。


3.2.3 Utility Metric

Utility(有用性)
機械学習モデルが忘れさせた後でも、残されたデータ 上で元と同等の予測精度を保つことが求められます。具体的には、以下の点を評価します。

  • 予測精度の一貫性:忘れさせた後のモデルは、忘れさせ前のモデルと同じく高い精度で予測できる必要があります。
  • 性能維持:データ削除によって精度が低下しないか(または最小限に抑えられるか)を確認します。

この評価により、忘れさせた結果としてモデルの実用性が保たれていることが確認できます。


Metrics(指標)

  • Distribution Distance

    • 忘れさせたモデルと再訓練したモデル間の分布類似度を測定することで、忘れさせ効果の高い保証が得られます。
    • よく用いられる指標は KL ダイバージェンスで、値が 0 に近いほど分布が一致していることを示します。Chundawat ら [23] は Jensen‑Shannon (JS) ダイバージェンスを用いて Zero Retrain Forgetting (ZRF) を計算し、忘れさせ前後の出力分布を比較しました。
  • Accuracy on Metric

    • 訓練済みモデルは一般に高い汎化性能を持ち、特に訓練データに対して高精度を示します。この性質を利用して忘れさせ効果を間接的に検証できます。
    • (忘れさせたデータ)に対して理想的な正確率は、 を全く見たことのない状態で学習したモデルと同等です [89, 122]。
    • 簡便であるものの、忘れさせプロセスの細部までは感度が高くありませんが、多くの研究で基本的な評価指標として使用されています [8, 9, 42, 43, 49, 89, 111, 117, 122]。
  • Theory‑based Metric

    • 証明された機械学習忘れアルゴリズム(例:certified unlearning)は、理論的に効果が保証されています。
  • Retrain‑based

    • 精確な忘れさせでは、再訓練データ を用いてモデルを再学習し、忘れさせた後のモデルと「ナイーブに」再訓練したモデルの分布が区別できないことを確認します。
    • 例として [8, 11] では、忘れさせ対象 を含むデータシャードだけを再学習することで計算コストを大幅に削減しました。
    • この指標は 近似的 忘れさせには適用できません。
  • Certified‑based

    • Certified unlearning は Guo ら [43] によって提案され、重みや損失関数に微細なノイズを加えることで差分プライバシー(DP)に基づく保証が得られます。
    • この手法により、忘れさせたモデルの出力は再訓練したモデルと区別できないことが保証されます。
    • ただし、非凸損失関数を使用する深層学習モデルにも適用可能です。

Efficiency Metric(効率性指標)

  • Unlearn Speed Metric
    • 忘れさせた後の実行時間と、ナイーブに再訓練した場合の実行時間との差を測定します。差が大きいほど、忘れさせ処理が高速であることを示し、プライバシー保護やデータ削除が迅速に行われていることを意味します [11]。
    • 表 3 のように、多くの研究でこの指標を用いて忘れさせの効率性を評価しています。

Utility Metric(有用性指標)

  • Utility
    • 忘れさせた後でも、モデルは残されたデータ 上で元と同等の予測精度を保つ必要があります。
    • データ削除により性能が低下しないか(または最小限に抑えられるか)を評価し、忘れさせた結果として実用的なモデルであることを確認します。

以上が本文の日本語訳です。

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

Comparison of Exact and Approximate Unlearning

CategoryBasic goalAdvantagesDrawbacks
Exact UnlearningIndistinguishable distributions between the unlearned and retrained modelMore clean and effective unlearningExpensive time and computational overhead; Hard to implement in complex models; Hard to design exact unlearning algorithms
Approximate UnlearningIndistinguishable parameters between the unlearned and retrained modelApplicable to more complex models; Requires minimal time investment; Easier to achieve than exact unlearningMaintains sensitive information in parameter
  • Accuracy on (D_r) Metric.
    For the remaining data set (D_r) (or a test dataset), the ideal accuracy should be identical to that of a model trained without the removed data. This metric can be used to evaluate how unlearning affects the utility of the remaining data and verify whether the performance of the unlearned model has been impacted.

Summary:
Verification metrics allow data contributors to confirm that an unlearned model truly contains no traces of their data. Invasive verification metrics are relatively easy to implement and yield higher accuracy, but they require pre‑watermarked data, which may slightly affect model performance and introduces a security consideration (e.g., backdoor watermarks could be exploited). Non‑invasive verification metrics do not alter the model; they only use its output information, though the verification process can be more complex—especially for membership inference, where an additional binary meta‑classifier must be trained (which may incur extra cost).

Evaluation Metrics:
Metrics help model providers assess the effectiveness, efficiency, and utility of a machine unlearning algorithm and decide whether to publish the resulting unlearned model. Some metrics are simple and coarse‑grained (e.g., accuracy), while others are more specialized or theory‑based. Many metrics compare the unlearned model with a retrained reference; similarity‑based metrics are common, though obtaining the exact parameters of the retrained model can be impractical.

4 MACHINE UNLEARNING TAXONOMY

Training a model from scratch on the remaining data (D_r) is naive and often impractical in real‑world scenarios due to high computational and time costs. In centralized machine learning settings, current unlearning algorithms aim to reduce resource usage while ensuring that the removed data (D_u) is fully eliminated. These algorithms are categorized into two groups based on whether they involve retraining:

  • Exact Unlearning

    • Refers to quickly retraining the model on an updated dataset (D_r) (the original training set with (D_u) removed). It guarantees that the distribution of the unlearned model is indistinguishable from a model trained from scratch.
  • Approximate Unlearning

    • Avoids full retraining. As illustrated in Figure 4, approximation can be achieved at two levels:
      1. Parameter level (ingrained level) – adjusting the model’s parameters directly.
      2. Representation level (final activation function) – modifying the output representation.

    Both approaches provide statistical indistinguishability from a retrained model, though the guarantees for the representation‑level method are relatively weaker.

Exact unlearning offers a theoretical guarantee that all traces of (D_u) have been completely removed from the model through the retraining process. However, it can be less effective for very complex models due to intricate computational requirements.

(The original text cuts off at “intricate”; the translation continues accordingly.)

4.1 Exact Unlearning

4.1.1 Conventional Model upon Convex Function

従来型モデルは通常、凸損失関数に関連付けられます。これらのモデルは特定の単一構造を持ち、凸最適化により計算時間が短縮されます。初期の正確な機械学習アルゴリズムは、ベイズ[11, 12, 50, 90]、ロジスティック回帰[88]、サポートベクターマシン(SVM)[9, 11, 12, 14, 21, 26, 52, 53, 85, 103, 104] など、比較的単純な従来型モデル向けに設計されました。

  • 数学的計算[11]
    対照的に、近似的な機械学習の除去は、正確な機械学習の除去が直面する問題を効果的に解決します。しかし、再訓練の必要性が緩和されたことにより、近似的な機械学習の除去は統計的な除去保証しか提供できません。

  • 正確な機械学習には計算上の複雑さが必要であるため、初期のアルゴリズムは主に凸関数に基づく従来型モデルを対象としていました。これらのモデルは構造が比較的均一で、データの影響を追跡しやすい特徴があります。既存のアルゴリズムの革新的な取り組みにより、正確な機械学習は非凸関数に基づく複雑なモデルにも適用できるようになりました。これにより、畳み込みニューラルネットワーク(CNN)、ディープニューラルネットワーク(DNN)、グラフニューラルネットワーク(GNN)など、相互に組み合わさったニューラルネットワーク上でデータの影響を追跡できます。

  • 既存の正確な機械学習アルゴリズムは、主に二つのカテゴリに分類されます:従来型モデル特化型複雑モデル特化型です。非凸関数に基づくモデルにも適用できるかどうかで区別されます。

  • 図 3. 正確な機械学習(SISA[8])

4.1.1 従来型モデル(凸関数)

正確な機械学習の除去には計算コストがかかりますが、モデルを最初から再学習させることが最も理想的です。しかし、データが大規模になると計算が非効率になることがあります。

この計算上の課題を克服するために、機械学習の除去概念は Cao ら[11]によって 2015 年に初めて提案されました。彼らは学習アルゴリズムを統計的クエリ学習に従う 和(サム)形式へ変換しました。

  • 除去要求が受け取られた際には、対応する小さな数の和を削除すればよく、これにより除去作業のオーバーヘッドを削減できます。
  • この手法は、ナイーブベイズや SVM のように和形式に変換できるシンプルな学習モデルに適用可能です。深層学習にも直接適応できない点が制限です。

2018 年には Cao ら[12]が Karma と呼ばれる因果的機械学習除去手法を導入し、損傷した機械学習システムを効果的に修復できるようにしました。ただし、Karma は SVM とベイズ系分類器に限定されます。

2020 年以降、さまざまな正確な機械学習手法が開発され、各モデルに特化したものが多数登場しました。たとえば:

  • Schelter[88] はロジスティック回帰向けに減算更新に基づく除去手法を提案しました。
  • Jose ら[50] は PAC‑ベイズに対する除去アルゴリズムを設計し、情報に基づく効果的な除去を実現しました。

(※本文中の数式や参考文献番号はそのまま残しています。)

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

4.1 Exact Unlearning

4.1.2 Complex Model with Non‑Convex Function

機械学習は最適化問題に変換できる。非凸損失関数は複雑なモデルで頻繁に用いられる。しかし、非凸最適化は複数の局所最適解を生み出すことがあり、データを追跡しにくく、凸最適化よりも計算資源が必要になる。

たとえば、ニューラルネットワークモデルは多層構造と非線形活性化により、非常に非凸な損失関数を使用する。この状況で正確な機械学習除去を実現しつつ計算時間を最小限に抑えることは課題である。

  • CNN または DNN
    Ullah ら[105]は、モデルの履歴パラメータを保存することで正確な機械学習除去を実現した。これは経験的リスク最小化に適用できる。Bourtoule ら[8]は有名な手法 SISA を提案した。訓練データセットを相互に重なりのないシャード(小片)に分割し、各シャードでサブモデルを学習する(図3参照)。機械学習除去が要求された際、対象となるデータシャードに対応するサブモデルだけを再学習すればよく、各サブモデルの知識を統合して最終予測を行うことで、再学習に要する計算コストを大幅に削減できる。ただし、SISA の精度は全体データで学習したモデルに比べてやや低く、訓練データ全体を保持しておく必要がある。

  • GNN
    2022 年以前、機械学習除去アルゴリズムは主に画像とテキストデータに焦点を当てていた。Chen ら[76]は SISA をベースにした GraphEraser を提案し、グラフニューラルネットワーク(GNN)に対する最初の正確な機械学習除去手法を示した。SISA のランダム分割とは異なり、GraphEraser は二つのバランスの取れた分割方法を提供し、グラフ構造情報を保つことができる。これにより、SISA を直接グラフデータに適用すると構造が損なわれる問題に対処できる。ただし、GraphEraser の分割には時間がかかり、変化するグラフやインダクティブ設定でのマルチグラフに対して利用しやすい。この課題を解決するために、Wang ら[107]は GUIDE を導入した。これは最初のモデル非依存(model‑agnostic)なインダクティブグラフ機械学習除去アルゴリズムで、分割における公平性とバランス制約を保証し、計算効率と公平性・バランススコアの両方で GraphEraser を上回っている。

4.2 Approximate Unlearning

正確な機械学習除去よりも近似的な機械学習除去に対して多くの手法が提案されており、前者は再学習を必要としない点が特徴である。異なる近似機械学習除去戦略に基づき、データを操作する手法は data‑driven approximation に分類され、元の訓練済みモデルを直接修正する手法は model‑driven approximation に分類される。表5はさまざまな近似機械学習除去カテゴリを比較・分析している。

4.2.1 Data‑Driven Approximation

データを操作する方法は主に二つある:data isolation(データ分離)と data modification(データ修正)である。

  • Data Isolation
    モデル提供者はまず から切り分け、訓練データセットをいくつかの互いに重なりのないサブデータセットに分割する(SISA のように)。各サブデータセットでサブモデルを学習し、統合してサービスを提供する。機械学習除去が要求された際には、対象となるサブデータセットを特定し、そのサブモデルだけを忘れさせる。SISA と異なり、サブモデルの再学習は不要である。

    • Neel ら[78]は勾配ベースの除去アルゴリズムを提案し、対応するサブモデルに対して複数回の勾配降下ステップを行うことで忘れさせる。この手法は十分に高次元なデータに対して、実行時間と精度のトレードオフを提供する。
    • Gupta ら[45]はストリーミング機械学習除去を導入し、強力な証明可能な保証のもとで適応的に忘れさせる要求列を処理できる。具体的には SISA の変種を使用し、DP(差分プライバシー)によるプライベート集計を行う。
    • He ら[47]は深層ニューラルネットワーク(DNN)に適用できる機械学習除去アルゴリズムを提案した。影響を受けたサブモデルは完全に再学習するのではなく、残存メモリ傾向に基づいて再学習を終了させる。最終的に、再訓練されたサブモデルと影響を受けなかったサブモデルを組み合わせて機械学習除去後のモデルを構築する。

    ![image](<COORD_316>, <COORD_423>, <COORD_740>, <COORD_556>)

    図 4. データ修正

  • Data Modification
    図4に示すように、データ修正は訓練データセット内の情報(例: のラベルを変更する[42])を変えることを指し、その上で数回のファインチューニングを行うことで機械学習除去を実現する。

    • Graves ら[42]は amnesiac 機械学習除去を提案し、訓練中に に関するパラメータ更新情報を保存する。忘れさせる要求が来ると、 のラベルをランダムに再割り当てし、対応する更新分だけモデルパラメータから差し引く。その後、数エポックのファインチューニングで機械学習除去を完了させる。
    • Felps ら[31]は DNN のモデルライフサイクル管理プロセスを導入し、具体的なデータ削除要求に対処する方法を示した。[42]と同様に、機械学習除去はインクリメンタルなモデル更新の中で のラベルを汚染(poison)することで実現される。
    • Tarun ら[99]はノイズ行列を のサンプルと組み合わせ、1 エポックだけモデルを学習させることで機械学習除去を行う。最終的なモデルは対象データクラスの機械学習除去において優れた性能を示す。
    • [106]は[99]の手法を拡張し、元の訓練データが利用できない状況でも適用できるようにした。

    Chen ら[18]は boundary unlearning を導入し、

(※本文中の数式や参考文献番号はそのまま残しています。)


Table 5. Comparison of Approximate Unlearning Approaches

CategoryAdvantagesDrawbacksResource CostModel UtilityApply Model’s Complexity
Data‑driven Approximation
Data Isolation[45,47,78]Applicable to most model typesUnlearning is not complete●○○○●●○○●●○○
Data Modification[31][18,42,99,106]Unlearning process is easy to achieveImpacts the model’s utility. Consumes storage resources●●○○●●○○●●○○
Model‑driven Approximation
Influence‑based[43][49,111,114,115]No need to store additional informationRelatively complex calculation●●●○●●●○●●●●
Fisher‑based[3,40,41]Maintain original model performanceRelatively high time consumption●●○○●●●○●●○○
Distillation‑based[23,56]More suitable for complex modelsHigher computational and time cost●●●●●●○●●○○
Gradient‑based[42,117]Less computational resource consumptionLarge storage consumption. Unlearning is not complete●○○○●○○○●○○○

(※表中の記号は、資源コスト・モデルユーティリティ・適用モデルの複雑さを示す指標です。)

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

4.2.2 Model‑driven Approximation

モデルのパラメータを直接操作することで、unlearned model(忘却後のモデル)は再学習したモデルとパラメータ空間上で区別できなくなる。主に以下の手法が用いられる。

  • Influence Function‑based
    影響関数 [38, 55] を利用して、データ集合 が学習済みモデルのパラメータに与える影響を評価する。その影響を取り除くようにモデルを更新すると

[ w_{r}= w + B^{-1}\Delta ]

(式 2)

ここで は損失関数に対する の二階微分(ヘッセ行列の逆)、 に対する勾配であり、 がモデルに与える影響を表す。

  • FIM‑based
    ニュートン法で最適解を得る際にヘッセ行列の計算コストが大きくなるため、Fisher Information Matrix (FIM) [73] を 上で用いてヘッセ行列を近似する。さらに最適ノイズを加えて を忘却させる。

[ w_{r}= w - F^{-1}\Lambda_{R} + b ]

(式 3)

ここで 上の Fisher Information Matrix の逆、 に対する損失関数の勾配であり、 が修正ニュートンステップに相当し、 が最適ノイズを表す [108]。


Influence Function‑based の具体例

  • Guo et al. [43] はニュートン法で の影響を推定し、その影響を最大化して除去した。この手法は線形モデルにのみ適用可能である。
  • Izzo et al. [49] は凸損失関数に対して影響関数を用いた。計算効率が向上したが、非凸モデルへの適合はやや困難である。
  • Warnecke et al. [111] は忘却要求の対象を「サンプル」から「特徴量」と「ラベル」へと拡張し、データの効果を閉形式(closed‑form)更新としてモデルパラメータに反映させた。具体的には、影響を受けた特徴量やラベルに対して直接的な更新式を導出し、反復計算なしで修正できる。ただし、影響を受ける特徴量・ラベルの数が増えるほど忘却効果は徐々に低下する。

GNN への適用例

  • Wu et al. [115] は「証明可能なエッジ忘却」手法を提案し、モデルから特定のエッジを除去できるようにした。影響関数を用いてエッジ削除によるパラメータ更新を閉形式で求め、効果的にエッジ情報を忘却させた。
  • Wu et al. [114] はこのアイデアを拡張し、グラフノード、エッジ、特徴量のそれぞれに対する忘却タスクに対応した。具体的には、影響を受けた隣接ノードに対して追加の損失項を組み込み、従来の影響関数と合わせてパラメータ更新式を導出したことで、少量のデータ変更に対する感度評価が効率的かつ正確に行えるようになった。

まとめ

  • 境界シフト(Boundary Shift) 手法では、忘却したいクラスに対して

    • 境界縮小(boundary shrink):そのクラスの特徴を他のクラスへ割り当てて決定境界を内側に移動させる。
    • 境界拡張(boundary expanding):追加されたクラス を用いて、忘却したクラスの活性化を広げることで決定境界を外側にシフトさせる。
  • モデル駆動型近似 では、影響関数と Fisher Information Matrix の二つの代表的手法が利用され、

    • 影響関数はデータ点(またはその集合)の効果を直接的にパラメータ空間で表現し、閉形式更新やニュートンステップにより忘却を実現。
    • FIM を用いるとヘッセ行列の近似が可能となり、ノイズ注入と組み合わせて計算コストを抑えつつ高精度な忘却が行える。

これらの手法は、機械学習モデルから特定のデータやクラス情報を効率的に「忘れさせる」ことを支援し、プライバシー保護やモデル更新の柔軟性向上に寄与する。

4.3 Debate on Approximate Unlearning

最近、近似忘却(approximate unlearning)を「再学習したモデルとパラメータ空間で区別できないような忘れられたモデルを生成すること」と定義するのは適切ではないという議論が出てきた。まず、Thudi ら [101] は理論的に、重複しない二つのデータセットだけで同じモデルを得られることを証明した。これにより、パラメータ空間のある特定の位置に到達するだけでは忘れられたことを保証するのに十分でないことが示唆された。さらに、Tarun ら [99] は、再学習したモデルのパラメータを近似忘却の品質比較基準として用いるのは必ずしも信頼できないと指摘した。実際には、効率的に忘れられるパラメータ構成は多数存在し、再学習したモデルのパラメータはそのうちの一例に過ぎない。たとえ忘れられたモデルと再学習したモデルのパラメータが大きく異なっていても、忘却プロセスが失敗したとは限らない([39, 56, 124])。そこで研究者は「区別できない」ことにこだわらず近似忘却を実現しようとしている。Wang ら [109] は、モデルパラメータが特定の分布に合わせて強制される必要はなく、むしろ分布間の違いを保つことで近似忘却を達成した。


知識蒸留(Knowledge Distillation)ベース

知識蒸留により、教師モデルから得られる情報を学生モデルが選択的に模倣できるため、

  • に含まれる感度の高い情報を取り除きつつ、学生モデルの有用性を保つことが可能になる。

Chundawat ら [106] はバンドパスフィルタを用いて教師から学生への情報伝達を制限し、感度情報を遮断した。大規模なモデルでも適用できるが、さらに改良された研究 [23] では、熟練教師不熟練教師のペアを使い、不熟練教師が持つ に関する誤情報(misinformation)を学生に伝えることで忘れられたサンプルを効率的に除去した。この手法は非常に高速であるが、モデルの性能がやや低下するという副作用がある [56]。

Kurmanji ら [56] は教師‑学生フレームワークに基づく応用依存型忘却法を提案し、以下の手順で実装した。

  1. 元のモデルを 教師 とみなす。
  2. 忘れられた(unlearned)モデルを 学生 として扱う。

学生は「全知」な教師に対し、 に関係しない知識だけを選択的に受け取り、残りの情報は無視する形で忘却を実現した。


勾配ベース(Gradient‑based)

勾配ベースの忘却は、再学習後のモデルを SGD のステップ修正 によって近似することで実現される。

  • Wu ら [42] は勾配降下法を利用してデータの出所情報を追跡し、迅速なインクリメンタル更新を可能にした。ただし、この手法は回帰問題に限定されている。
  • 同じく提案された DeltaGrad [117] は準ニュートン(Quasi‑Newton)法を用いて、キャッシュされた中間パラメータから に対応する勾配を除去し、忘却効果を得る。
  • 大量のデータを忘れさせる場合はやや効率が低下するが、比較的小規模な忘れに対しては有効である。

参考文献

Na Li, Chunyi Zhou, Yansong Gao, Hui Chen, Anmin Fu, Zhi Zhang, and Shui Yu

Golatkar et al. [41] はノイズ付きニュートン更新に基づくロバストな忘却アルゴリズムを提案し、特定のクラスに関する情報を削除しつつヘッセ行列を Fisher Information Matrix(FIM)に置き換えて計算効率を向上させた。
[3] はこの手法を様々な目的関数へ一般化した。
しかし、[3, 41] のスケーラビリティは訓練データが大きくなると低下し、忘却ステップの計算量がデータサイズに対して二次的に増加する。
Golatkar et al. [40] はこの問題を解決し、混合プライバシーシナリオ向けに効果的な忘却手法を導入した。具体的には訓練データを コアデータ(事前学習で使用される一般的情報)と ユーザーデータ(ユーザーが削除したい情報を含む)に分割する。

  • コア重みは非凸アルゴリズムで学習し、
  • ユーザー重みは強く凸な二次最適化問題から求められる。

ユーザーデータの重みを単純に 0 に設定すれば、そのデータがモデルに与えた影響を取り除くことができる。ただし、事前学習段階でデータセットが固定されているため、実務での適用例が多い。


まとめ

  • 知識蒸留ベースの忘却は教師‑学生構造を活用し、感度情報を効率的に除去しつつモデル性能を保持できる。
  • 勾配ベースの忘却は再学習後の勾配情報を利用して、SGD ステップ修正や DeltaGrad などの手法で忘れられたデータの影響を削除する。

これらのアプローチは、プライバシー保護やモデル更新の柔軟性向上に寄与し、実際の応用シナリオで広く利用されている。

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

5 DISTRIBUTED UNLEARNING

分散機械学習(Distributed Machine Learning, DML)において、大規模データと複雑モデルという二重の圧力に直面している。中央集権型機械学習(Centralized Machine Learning, CML)では計算能力とストレージ容量が大きな課題となるが、DML は複数の計算ノードを並列に活用して ML モデルを訓練することでこの課題を緩和する。特に、ローカルデータが他者から直接閲覧できないため、プライバシー情報漏洩リスクを大幅に低減できる点が特徴である。代表的な DML 手法にはフェデレーテッドラーニング(Federated Learning, FL)、スプリットラーニング、ピアツーピア学習、そして Private Aggregation of Teacher Ensembles (PATE) がある。

しかし DML でもプライバシー漏洩リスクは残っている。たとえば FL は Preference Profiling Attack(PPA)[140] によってユーザーの好み情報が露呈しやすい。さらに、データが汚染されている場合や無効なデータを削除する必要があるシナリオでは、ローカルでデータを削除した上で、その影響を全体モデルから忘れさせる(unlearn)ことが求められる。そこで機械忘却を DML 環境に適用し、Distributed Unlearning(分散忘却) と呼ばれる手法が導入される。

5.1 Challenges

現在の機械忘却アルゴリズムは多くが CML 向けに設計されており、DML へ直接適用できるものではない。主な課題は以下の三点である(特に FL を例にとって分析する):

  • データ可用性の観点

    • データ提供者(クライアント)がプライバシー保護のためにローカルデータを共有しないケースでは、サーバ側はローカル訓練データに直接アクセスできない(例:FL)。そのため、サーバ側で再学習を行うことは実質的に不可能であり、近似忘却しか実行できない。
    • クライアントが頻繁に参加・離脱するため、過去のクライアントを呼び出して忘れさせる作業は手間がかかり、再学習まで行うのは特にコストが高い [135]。
    • エッジデバイスなどストレージ容量が限られた環境では、ローカルで訓練したデータセット自体を削除してしまうことがあり、クライアント側でも元のデータが手元に残っていないことがある [113]。
  • モデルパラメータの観点

    • DML ではモデル更新がインタラクティブに行われる。たとえばクライアントはローカルで学習した知識をグローバルモデルを通じて他のクライアントに共有し、全体としてモデルが逐次的に改善される [66]。この過程で、サーバ側だけでなく各クライアントも更新されたパラメータを受け取る必要がある。

(※本文はここまでです)


要点まとめ

  • 表6は主要な機械忘却アルゴリズムをまとめている。
  • 正確な忘却は包括的な忘れを実現し、敵対者が忘れられたモデルから有用情報を抽出しようとする試みを防ぐのに有効である。一方、実装にかかる時間や計算コストは比較的高く、特にディープラーニング(DL)モデルでは顕著になる。さらに忘却要求が繰り返し行われることが多く、リソース消費が増大する。そのため、再学習からやり直すよりもはるかに短い実行時間と計算量で済むよう設計された効率的な正確な忘却アルゴリズムが多数提案されている。
  • 近似忘却は計算効率が向上したことに起因し、忘却度合いとモデル内に残る感度情報とのトレードオフを伴うものの、十分な忘れを実現できる。近似忘却の主な目標は、完全な忘れを保証するアルゴリズムを開発することにある。

参考文献

  • Lin, Y. et al., “Knowledge‑level machine unlearning via knowledge transfer,” Proceedings of AAAI, 2023.
  • [60] Lin et al., “…” (具体的なページや章は本文に記載がないため省略)

(※上記の翻訳では、見出しは英語のまま保持し、本文はすべて日本語に置き換えました。)

Table 6. Summary of Studies in Approximate Unlearning

CategoryPapersYearApplicable ModelType of Unlearn Request
Exact Unlearning
Conventional Model upon Convex Function
[11]2015Straightforward Learning Models (e.g., naive Bayes)Samples
[12]2018SVMs and Bayesian‑based ClassifiersSubset
[88]2020Logistic RegressionSamples
[50]2021BayesianSubset
[53]2021SVMsSamples
Complex Model with Non‑Convex Function
[105]2021Models with Non‑convex FunctionsSamples
[8]2021DNNBatches, Sequences
[122]2022DNNSamples
[76]2022GNNNodes, Edges
[107]2023GNNNodes, Edges
Approximate Unlearning
Data‑driven Approximation
Data Isolation
[45]2020SGD‑Based ModelsSamples
[78]2021Convex ModelsNon‑adaptive Sequences
[47]2021DNNSamples
Data Modification
[42]2021DNNClasses, Samples
[31]2021DNNBatches
[99]2021CNNSamples
[18]2023DNNClasses
Influence‑based
[43]2020Linear ModelsSamples
[49]2021Logistic and Linear Regression ModelsBatches
[111]2023Convex or Non‑convex ModelsFeatures, Labels
[114]2023GNNNodes, Edges, Features
[115]2023GNNEdges
Model‑driven Approximation
Fisher‑based
[41]2020DNNParticular set of training data
[3]2020DNNSamples
[40]2021DNNSamples
Distillation‑based
[106]2023DNNSamples, Classes
[23]2023DNNClasses
[56]2023DNNSubset, Classes
Gradient‑based
[42]2020Regression ModelsSubset
[117]2020SGD‑Based ModelsSamples

DML の特性

DML(Distributed Machine Learning)は、複雑に絡み合った増分プロセスであり、たとえばフェデレーテッドラーニング(FL)では各クライアントのローカル更新がすべての前クライアントからの更新に基づいて行われる [66]。
第三に、DML は CML(Centralized Machine Learning)よりもはるかに多くの確率的変動を伴う [113]。たとえば、フェデレーテッドラーニングでは各トレーニングエポックでクライアントがランダムに選択され、各クライアントのローカル学習プロセスにも固有の確率的変動がある。
そのような確率的な微小な揺らぎは、後続の学習プロセス全体にドミノ効果をもたらす可能性がある [113]。
これら三つの課題が組み合わさることで、グローバルモデルパラメータに基づくデータの追跡可能性が大幅に複雑化し、サーバーが特定クライアントのデータを個別に忘れさせる能力が損なわれる。

  • リソースオーバーヘッドの観点
    DML はサーバーが情報を交換する必要があるため、CML と比べて通信量と時間が大きく増加しやすい。

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

(e.g., local or global model parameters) with clients. Therefore, ideal machine unlearning should not bring additional expensive communication and time consumption to DML.

To achieve both efficiency and effectiveness, distributed unlearning (DU) must overcome not only the hurdle faced by centralized unlearning (MU) in CML, but also the three unique challenges mentioned above [110]. Consequently, unlearning in distributed learning has been explored far less than unlearning in centralized learning [66].

5.2 Federated Unlearning

Distributed unlearning primarily focuses on federated learning (FL), with relatively little attention given to split learning [128]; other distributed schemes such as peer‑to‑peer remain largely unexplored. Therefore, we concentrate on distributed unlearning under federated learning settings.

Federated learning [33, 139] is conceived as a methodology to safeguard user privacy. During the model training process, clients upload only their local model parameters, avoiding the need to share sensitive raw training data with the server. Although FL does not directly use the clients’ training data, it indirectly involves analysis of locally generated data through the uploaded parameters. Deploying machine unlearning within FL—often called Federated Unlearning (FU)—can significantly enhance the security and robustness of the model by removing sensitive data contributions [110].

FU algorithms can be divided into two categories based on which entity primarily performs the unlearning:

  • Server‑side Federated Unlearning
  • Local‑side Federated Unlearning

5.2.1 Server‑side Federated Unlearning

Because local clients never share raw training data with the server during collaborative training, the only way to implement unlearning at the server is by applying approximate unlearning to the global model. Consequently, no additional computation or communication from the clients is required. Fig. 5a depicts the overview of server‑side federated unlearning.


Na Li, Chunyi Zhou, Yansong Gao, Hui Chen, Anmin Fu, Zhi Zhang, and Shui Yu

Liu et al. [63] pioneered client‑level unlearning by proposing FedEraser, which eliminates the contribution of a specific client on the global model. The server retains all records of historical updates for each client at every FL round; these records are then refined through several calibration training steps without the forgotten client, accelerating the unlearning process. Although this method yields limited improvement compared with retraining from scratch, it still requires clients to perform additional local training to adjust their historical updates, resulting in extra communication rounds between clients and the server.

Regarding FedEraser, Wu et al. [113] emphasized reducing the number of client‑server interaction iterations, especially for deep neural networks where communication can be costly. They proposed a solution that directly subtracts accumulated historical updates from the federated global model parameters and uses knowledge distillation to preserve performance, effectively removing a client’s contribution. However, this method requires the server to have access to additional unlabeled data, which may not always be feasible in high‑privacy scenarios (e.g., medical systems).

Zhang et al. [135] applied differential privacy (DP) to federated unlearning, leveraging clients’ historical submissions to eliminate a weighted sum of gradient residuals from the global model. They also designed Gaussian noise such that the unlearned and retrained models become statistically indistinguishable, thereby removing individual client influences on the global model.

Note that [113], [135], and FedEraser focus primarily on client‑level unlearning; they are especially useful when one needs to erase data from a specific client. However, they also require storing historical updates, which can incur significant memory overhead for large, state‑of‑the‑art models. To address these issues, Wang et al. [108] employed CNN channel pruning to guide category‑level federated unlearning. They used Term Frequency–Inverse Document Frequency (TF‑IDF) [81] to quantify the correlation between channels and categories; channels with high TF‑IDF scores play a more important role in distinguishing forgotten categories, so they are pruned to erase those contributions from the global model. The performance of the unlearned model is then restored by fine‑tuning on the remaining dataset.

To support a broader range of unlearning requests, Wu et al. [116] introduced a comprehensive pipeline capable of handling three common types of federated unlearning queries:

  • Class unlearning (removing all data belonging to a specific class)
  • Client unlearning (removing the contribution of a particular client)
  • Sample unlearning (removing individual data points)

They revisit how training data influences global model performance and achieve unlearning through a combination of reverse stochastic gradient ascent and elastic weight consolidation.

5.2.2 Local‑side Federated Unlearning

Although only approximate unlearning can be performed on the server side, residual sensitive information related to remains in the global model. Consequently, several studies suggest that the optimal unlearning mechanism in FL is for clients themselves to perform retraining [15, 66, 110]. In this scenario, the unlearning operation occurs on the local side. Given the limited computational resources of edge devices, the primary challenge is to design a fast, low‑cost unlearning method that preserves model utility.

Fig. 5b illustrates the overview of local‑side federated unlearning.

Liu et al. [66] developed a rapid retraining technique that fully erases data points from a trained global model. Their approach approximates the Hessian using a diagonal empirical Fisher information matrix and applies quasi‑Newton optimization, achieving low computational cost while maintaining model utility through momentum. This method is applicable to models with convex loss functions.

Wang et al. [110] proposed an algorithm based on variational Bayesian inference that shares parameters among clients, enabling efficient unlearning of specific data points. Their method can mitigate accuracy degradation caused by unlearning and balances the trade‑off between unlearning effectiveness and model utility.

Che et al. [15] introduced the first client‑side federated unlearning algorithm that directly updates local models to remove selected training examples, achieving both efficiency and high utility.


(以下、本文はここまでです。)

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

Table 7. Summary of Federated Unlearning

カテゴリ利点欠点適用シナリオ
Server‑side Federated Unlearning時間が短縮される完全に忘れられない、保存領域を消費する大規模企業
Local‑side Federated Unlearningより完全な忘れ方、より柔軟な忘れ要求タイプ計算能力が限られる、効果的なアルゴリズム設計が難しいIoT

Method for Simultaneous Training and Unlearning in FL

FL でトレーニングと忘れプロセスを同時に実装する手法は、従来の集中学習における先行研究 [138] を基にしている。[138] を利用すると、各ローカルクライアント上でローカルな忘れモデルが訓練される。その後、非線形関数解析の理論を活用し、Nemytskii 演算子の出力関数としてローカルな忘れモデルを精緻化することで、グローバルな忘れモデルが各ローカル忘れモデルの性能とほぼ同等になり、忘れ処理が大幅に高速化される。Zhu ら [141] は認知神経科学に基づく独自の異種知識グラフ埋め込み忘れを提案した。逆行干渉と受動的減衰を組み合わせることで、特定の知識をローカルクライアントから削除し、知識蒸留を通じてグローバルモデルへ伝搬させる。

Summary

要約すると、表7に示すようにサーバ側で実施した federated unlearning は、クライアントへ追加の通信を行わずに比較的迅速に忘れ要求を満たすことができる。しかし、いくつか顕著な欠点がある。第一に、忘れが完全ではなく、機密情報がグローバルモデルに残っている [15, 66, 110]。第二に、現在の多くの手法は学習過程でサーバに保存された情報(例:履歴更新)に基づいており、特に複雑なモデルの場合、追加のストレージ負荷が大きくなる。

ローカル側で実施する federated unlearning は、サーバ側の課題を克服できる。再学習によりより完全な忘れが可能となり、サーバ(モデル提供者)が不正に情報を保持しているリスクも回避できる。一方で、欠点もあり、エッジデバイスの計算能力が限られていることが多く、特に大規模データや複雑なモデルに対しては再学習が必要になる。また、効果的かつ高速な再学習アルゴリズムの設計は依然として課題である。

6 APPLICATION OF MACHINE UNLEARNING

機械忘れは主に、法的要件や個人の要望に沿ったユーザーデータプライバシー保護のために利用される。近年、表8に示すようにその適用範囲は他の応用領域にも拡大している。まず、モデル最適化と悪意のあるデータや古くなったデータ、あるいは敵対的なデータがもたらす潜在的な害を軽減するために活用できる。特に推薦システム(RES) [16]、インターネット・オブ・シングス(IoT) [30]、大規模言語モデル(LLM) [126] などの分野で重要である。さらに、機械忘れはモデルの堅牢性を高める有効な防御手段として機能する。受動的防御としてはデータ汚染攻撃やバックドア攻撃による被害を軽減し、能動的防御としてはメンバーシップ推定攻撃、属性推定攻撃、モデル逆推定攻撃など様々なプライバシー侵害攻撃が失敗するように利用できる。

6.1 Optimization of the Model

機械忘れは、実世界のさまざまなシナリオでモデルを最適化できる。プライバシー漏洩リスクや有害データによる負の影響を取り除き、結果としてモデルの堅牢性が向上する。現在、主な応用シーンは以下の3つである:大規模言語モデル(LLM)、推薦システム(RES)、インターネット・オブ・シングス(IoT)。

Table 8. Summary of Applications

カテゴリ主な適用例
Recommendation Systems (RES)レコメンデーションアルゴリズムのプライバシー保護、データ更新に伴う忘れ
Internet of Things (IoT)エッジデバイス上のモデル更新・忘れ、プライバシー要件への対応
Large Language Models (LLMs)ユーザー固有情報の削除、知識蒸留による効率的な忘れ

Na Li, Chunyi Zhou, Yansong Gao, Hui Chen, Anmin Fu, Zhi Zhang, and Shui Yu

Table 8. Summary of Applications

Application ScenariosChallengesAim
Optimization of the Model
Large Language Models [17, 28, 71, 126]パラメータ空間が非常に大きいため、データポイントの影響を追跡しにくく、再学習にかかる計算量も大きい。LLM からプライベートまたは有害なデータを削除する
Recommender Systems [16, 34, 57, 64, 121, 129, 136]共同情報を考慮する必要がある。特定のデータと個人の好みを削除する
Internet of Things [30, 132]削除処理が十分に高速である必要がある。モデル更新を迅速に完了させる
Defense against Various Attacks
Passive Defense [76, 112, 131, 137?]攻撃を事前に防げないことがある。汚染された記憶をクリーンアップする
Active Defense [3, 35, 40, 42, 96, 106]敵がどのデータを対象にしたか分からない。事前に機密情報を除去する

6.1.1 Unlearning for Large Language Models

最新の大規模言語モデル(LLM)は、膨大なインターネットコーパスで学習することで幅広い世界知識を獲得します [126]。代表例として ChatGPT は翻訳や質問応答などのタスクを実行できます [29, 97]。しかし、学習過程で LLM はプライベート情報や有害なデータまで記憶し、再現することがあります。その結果、人種差別・性差別・宗教的偏見といった望ましくない問題が顕在化し、法的・倫理的な懸念を生じさせます。この文脈で機械的忘れは、LLM が安全性を確保し、倫理基準に沿い、バイアスを除去するために特定のデータを取り除く手助けとなります。

Challenge

従来の機械的忘れ手法が LLM に直接適用しにくい主な理由は二つあります。

  1. パラメータ空間が非常に大きい:LLM の重み数が多く、個々の訓練サンプルがモデルに与える影響を追跡しにくく、再学習にかかる計算コストも大きくなる。
  2. 従来の忘れは主に分類タスク向けに設計されている:LLM は知識集約的で生成タスクにも利用されるため、単なるクラスラベルだけでなく、トークンレベルでの情報削除が必要になる。

Methods

  • Yao ら [126] が LLM の忘れ設定・目標・評価指標を初めて体系化しました。
  • Eldan ら [28] は、LLM から訓練データのサブセットを削除する手法を提案しました。まず強化学習モデルで忘れ対象に最も関連するトークンを特定し、次にそのトークンに対する代替ラベルを作成してモデルを微調整することで、元のテキスト情報を効果的に「忘れる」ことができます。
  • Chen ら [17] は、トランスフォーマーに選択的な教師‑学生目的で学習した追加の忘れ層を導入し、削除すべき知識を特定できるようにしました。複数の忘れ層をオフラインで融合させることで、連続した忘れ操作も処理可能です。
  • Maini ら [71] は「tofu」という架空の忘れタスクをベンチマークとして提案し、既存の忘れアルゴリズム(例:勾配差分 [61])によるベースライン結果も提供しました。

これらの機械的忘れ技術の適用により、LLM の倫理的な感度とプライバシー保護が大幅に向上しています。

6.1.2 Unlearning for Recommender Systems

レコメンデーションシステムは、ユーザーから収集した好み情報を分析し、最も適切なアイテムを推薦するパーソナライズド情報フィルタです。学習フェーズでモデルのパラメータがユーザー行動を記憶するため、プライバシー漏洩リスクがあります。このことから レコメンデーション忘れ が重要となり、特定のデータや個人の好み情報をモデルから削除できるようになっています [64]。

Challenge

分類タスク向けに設計された従来の忘れ手法は、レコメンデーションシステムに対して直接適用しにくいことがあります。その理由は、レコメンデーションは主に 協調フィルタリング暗黙的フィードバック に基づくため、データポイントがモデルに与える影響を「ユーザー‑アイテム」ペアとして捉える必要があるからです。

Methods

  • 勾配ベースの手法(例:勾配差分)
    • ユーザーのインタラクション履歴を削除したときのモデルパラメータ変化を推定し、実質的に忘れ効果を得る。
  • 再学習
    • 対象ユーザーのインタラクションデータを除去した上でレコメンデーションモデルを再訓練し、更新されたモデルで忘れられた情報を反映させる。
  • 近似忘れ手法(例:ヘッセ行列や二次近似)
    • 完全な再学習を行わずに、パラメータの変化を効率的に計算して忘れ効果を実現する。

これらの手法は MovieLens や Amazon 商品推薦データセットなどで評価され、プライバシー保護を維持しつつレコメンデーション品質を保つことが確認されています。

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

システムは協調フィルタリングが中心ですが、既存の機械的忘れ(MU)手法はユーザーとアイテム間の協調情報を無視しがちです [58, 59]。

Methods
Chen ら [16] はデータの類似性を利用して訓練データをバランスの取れたグループに分割し、その上でレコメンデーションシステム向けに協調情報を保持しつつモデルの使いやすさ・安全性・適用範囲を拡張する忘れアルゴリズムを提案しました。
Yuan ら [129] はフェデレーテッド推薦システムに注目し、トランザクションのログベースのロールバック機構をヒントに、ユーザーがフェデレーテッド学習プロセスに提供した貢献を効率的に取り消す手法を開発しました。これによりモデルの頑健性が向上し、悪意あるクライアントからの潜在的な攻撃に対する耐性も強化されます。
さらに [57] は推薦忘れの評価に包括的なフレームワークを構築し、検証可能性・効率性・正確さに焦点を当てました。

2023 年以降、研究が増加し、影響関数 [136]、行列完成 [121]、相互作用・マッピング行列の修正 [64]、さらには敵対的学習 [34] など多様な手法に基づく推薦忘れが提案されています。機械的忘れは、よりプライバシー保護され、安全で信頼性が高く、実用的かつ責任あるレコメンデーションシステムの開発を促進します。

6.1.3 Unlearning for Internet of Things

Internet of Things(IoT)は、インターネット上でデータを収集・交換できる相互接続された物理デバイスやオブジェクトのネットワークであり、さまざまなアプリケーションに対してリモート監視や制御を可能にします。
IoT サービスプロバイダーは、誤ラベル付けされたサンプルやデバイスのファームウェア更新、サービス提供中のデータ汚染などにより、トラフィック異常検知用のディープラーニングベースの検出モデルを頻繁に更新する必要があります。このことは機械的忘れを適用する緊急性を示しています。

Challenge
IoT は通常時間感度が高く、リアルタイムまたはニアリアルタイムでのデータフィードバックが必要なため、IoT 向けの忘れプロセスは迅速に対応し、完了しなければなりません [30]。

Methods
Fan ら [30] は、計算された忘れ確率に基づいて訓練データセットをグループ化し、各グループを個別の仮想クライアントとして扱う手法 ViFLa を導入しました。ViFLa は IoT のトラフィック異常検知におけるモデル更新の効果と完全性を向上させます。
Zeng ら [132] は、パーソナライズド IoT の QoS(Quality of Service)予測向けに効果的な忘れフレームワーク CADDEraser を提案し、忘れリクエスト後にモデルの有用性を高めました。
機械的忘れは、IoT システムにおけるセキュリティ、可用性、忠実度、プライバシーの各側面を大幅に向上させます。

6.2 Defense against Attacks

図 6 に示すように、データ汚染やバックドア攻撃に直面した際、機械的忘れは受動的な防御手段として、モデルへの攻撃の負の影響を除去し、モデルの有用性を回復させます。さらに、さまざまなプライバシー攻撃に対しては、能動的な防御手段として事前に機密データを忘れさせることで、敵対者がそのデータに関するプライベート情報を推測するのを防ぎます。

6.2.1 Passive Defense

モデルがデータ汚染やバックドア攻撃 [37] の影響を受けた後、機械的忘れは悪意ある攻撃者がもたらした汚染された記憶を浄化し、汚染されたデータやバックドアトリガーを忘れさせることで実現します。

  • Defense of Data Poisoning Attack
    データ汚染攻撃とは、敵対者が訓練データセットに細心の注意を払って作成した少数の汚染サンプルを意図的に挿入する行為です。これらのサンプルは学習やファインチューニング過程でモデルに影響を与えます。その結果、テスト時に異常な挙動が現れ、たとえば良性サンプルが誤って悪性と分類されたり、実際の悪性データが検出をすり抜けたりして、モデルの完全性と有用性が損なわれます。

23

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

![image](<COORD_203>, <COORD_138>, <COORD_734>, <COORD_327>)

Fig. 7. Purpose of Attacks against Machine Unlearning.

防御戦略(Fig. 6)

In [76] では、攻撃者が Zozzle の学習データに悪意のあるサンプルを注入し、良性のサンプルには見られない特徴を追加します。防御プロセスは次のとおりです。

  1. 特徴抽出 を行う。
  2. カイ二乗値(chi‑value)が閾値を満たさない特徴があれば、その特徴を忘れさせる対象として選択し、モデルから除去します。

実験結果は、この防御機構が非常に効果的で、データ汚染攻撃が全く起きていないかのように機能したことを示しています。

バックドア攻撃への防御

バックドア攻撃とは、学習過程でモデルに隠しトリガーを埋め込み、リモートからアクセス・制御できるようにする攻撃です。

  • トリガーが作動していない状態では、攻撃されたモデルは通常のモデルと同様に振る舞います [82]。
  • トリガーが作動すると、特定の挙動を示します [65]。

具体的な防御手法は以下の通りです。

  • Zeng ら [131] は、汎用的な敵対的摂動を用いてバックドアを取り除く方法を提案しました。
  • Liu ら [65] は BAERASER を提案し、エントロピー最大化に基づく生成モデルでトリガーパターンを復元し、復元したパターンを利用してバックドア注入プロセスを逆転させ、勾配上昇ベースの機械忘れ手法で汚染された記憶を削除しました。その結果、バックドア効果が効果的に除去されました。
  • Zhang ら [137] は、ラベルスムージングと組み合わせた敵対的機械忘れ手法を提案し、訓練済みビーム選択モデルからバックドア除去の課題に対処しました。
  • Wei ら [112] は shared adversarial unlearning を提案し、まず共有敵対例(Shared Adversarial Examples, SAE)を生成し、続いてそれらの SAE を忘れさせることで、純化されたモデルが正しく分類できるようにし、純化されたモデルにおけるバックドア効果を軽減しました。

6.2.2 Active Defense

モデルがさまざまなプライバシー攻撃にさらされる前に、機械忘れ(machine unlearning)を活用してユーザーのプライベートデータに関する情報を事前に削除しておくことができます。その結果、攻撃者は次のようなことを把握できなくなります。

  • 忘れられたデータが学習データに含まれていたかどうか
  • そのデータに関連する属性情報
  • データ自体を再構築しようとする試み

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

防御の例

メンバーシップ推定攻撃への防御

メンバーシップ推定攻撃は、特定のデータポイントが学習データに含まれているかどうかを判定することを目的とします。攻撃者は対象モデルの出力確率や信頼度スコアの違いを利用してメンバーシップを推定します。

研究 [3, 40, 42, 106] では、機械忘れアルゴリズム(詳細は第 4 章で説明)を用いることで対象データの影響を除去し、効果的にこの攻撃を防止できました。成功した忘れ後は、モデルは対象データに関する感度情報を保持せず、メンバーシップ推定が困難になります。

特性推定攻撃への防御

Ganju ら [35] は特性推定攻撃を導入し、機械学習モデルから訓練データの統計的特性(例:平均、分散)を抽出できると示しました。
Stock ら [96] は property unlearning を提案し、対象モデルの重みやバイアスを体系的に変更することで、白箱環境でも特性推定攻撃に対して効果的な防御が可能であることを示しました。

モデル逆転攻撃への防御

モデル逆転攻撃では、利用者が機械学習モデルにアクセスし、元の訓練データの感度情報を復元しようとします。たとえば、出力結果を詳細に分析して元データの特徴を再構築します。

研究 [42, 106](第 4 章で詳述)では、機械忘れにより対象データに関するプライベート情報をモデルから除去し、忘れが完了したモデルはそのデータに関する痕跡を残さないことが示されています。

概要

機械忘れはデータプライバシーの向上に寄与するだけでなく、さまざまな応用分野でも大きな可能性を秘めています。これまでに述べた応用例に加えて、以下のような用途があります。

  • 事前学習済み生成対向ネットワーク(GAN)において、望ましくない特徴が含まれた出力を防止するために機械忘れを利用できる [102]。
  • 機械学習ベースのシステム全般で、プライバシー保護やデータ削除要求に柔軟に対応する手段として活用できる。

参考文献(抜粋)

  • [76] (具体的な情報は本文から取得)
  • [82] (具体的な情報は本文から取得)
  • [65] (具体的な情報は本文から取得)
  • [131] (具体的な情報は本文から取得)
  • [112] (具体的な情報は本文から取得)
  • [42] (具体的な情報は本文から取得)
  • [106] (具体的な情報は本文から取得)
  • [35] (具体的な情報は本文から取得)
  • [96] (具体的な情報は本文から取得)
  • [102] (具体的な情報は本文から取得)

7 ATTACKS ON MACHINE UNLEARNING

7.1 MU‑specific Membership Inference Attack

7.1.1 Threat Model

  • Adversary’s Goal
    は通常、 よりも価値のある機密情報を多く含むため、メンバーシップ推定攻撃の目的は対象サンプルが忘れられたデータかどうかを判定することです [20]。より一般的には、図 7 に示すように、攻撃者は対象サンプル に属し、 には属さないことを推測します [56, 69]。

  • Assumptions
    攻撃者はモデル内部の構造を把握していないが、ブラックボックスとして元のモデルと忘れられた後のモデルの両方にアクセスできると仮定します [20]。さらに、攻撃者はローカルに影(shadow)データセットを持ち、これを用いて多数の影モデルを訓練し、対象モデルの振る舞いを模倣させます。その後、影モデルを利用して攻撃メタモデルの学習用メタデータを作成します [56, 69]。

7.1.2 Attack Methods

Chen らは 2021 年に機械忘れによって生じる予期せぬプライバシー漏洩を初めて調査し、モデルが忘れられる前後の出力(事後確率)の違いを利用して対象サンプルが に含まれているかどうかを判定する新しいメンバーシップ推定攻撃を提案しました [20]。また、温度スケーリング、予測ラベルのみの公開、差分プライバシーといった手法でこの攻撃に対して効果的に防御できると指摘しています。


7.2 Attack Methods Overview

AttackPaperAssumptionAimLimitation
Membership inference attack[20]Black‑boxDetermine whether a data sample is forgottenCan be defended by temperature scaling, differential privacy, publishing the label only or the top‑k confidence values
Membership inference attack[69]Black‑boxDetermine whether a data sample is forgottenComputationally expensive; Not effective for the latest unlearning methods [54, 74]
Data poisoning attack[72]White‑box / Grey‑boxReduce the efficiency of unlearning processThis attack only targets certified unlearning [43, 78]
Data poisoning attack[24]Grey‑boxReduce prediction accuracy for specific samplesThis attack assumes many premises that are impractical
Over‑unlearning attack[48]Black‑boxReduce the predictive performance of the modelMainly targets gradient‑based approximate unlearning

7.3 Additional Applications

アクセス制御システム管理 [68] に適用でき、再訓練なしで概念ドリフト [5] にも利用できます。医療分類においてバイアスを軽減する上で非常に有用であり、ライフタイム異常検知 [25] や因果推論 [84] でも活用されています。さらに、モデル内の重要なデータサンプルや価値あるサンプルを特定し、公平性の課題に対処する役割も果たします。


Table 9. Attacks against Machine Unlearning

AttackPaperAssumptionAimLimitation
Membership inference attack[20]Black‑boxDetermine whether a data sample is forgottenCan be defended by temperature scaling, differential privacy, publishing the label only or the top‑k confidence values
Membership inference attack[69]Black‑boxDetermine whether a data sample is forgottenComputationally expensive; Not effective for the latest unlearning methods [54, 74]
Data poisoning attack[72]White‑box / Grey‑boxReduce the efficiency of unlearning processThis attack only targets certified unlearning [43, 78]
Data poisoning attack[24]Grey‑boxReduce prediction accuracy for specific samplesThis attack assumes many premises that are impractical
Over‑unlearning attack[48]Black‑boxReduce the predictive performance of the modelMainly targets gradient‑based approximate unlearning

7 ATTACKS ON MACHINE UNLEARNING

7.1 MU‑specific Membership Inference Attack

7.1.1 Threat Model

  • Adversary’s Goal
    は通常、 よりも価値のある機密情報を多く含むため、メンバーシップ推定攻撃の目的は対象サンプルが忘れられたデータかどうかを判定することです [20]。より一般的には、図 7 に示すように、攻撃者は対象サンプル に属し、 には属さないことを推測します [56, 69]。

  • Assumptions
    攻撃者はモデル内部の構造を把握していないが、ブラックボックスとして元のモデルと忘れられた後のモデルの両方にアクセスできると仮定します [20]。さらに、攻撃者はローカルに影(shadow)データセットを持ち、これを用いて多数の影モデルを訓練し、対象モデルの振る舞いを模倣させます。その後、影モデルを利用して攻撃メタモデルの学習用メタデータを作成します [56, 69]。

7.1.2 Attack Methods

Chen らは 2021 年に機械忘れによって生じる予期せぬプライバシー漏洩を初めて調査し、モデルが忘れられる前後の出力(事後確率)の違いを利用して対象サンプルが に含まれているかどうかを判定する新しいメンバーシップ推定攻撃を提案しました [20]。また、温度スケーリング、予測ラベルのみの公開、差分プライバシーといった手法でこの攻撃に対して効果的に防御できると指摘しています。


7.3 Additional Applications

アクセス制御システム管理 [68] に適用でき、再訓練なしで概念ドリフト [5] にも利用できます。医療分類においてバイアスを軽減する上で非常に有用であり、ライフタイム異常検知 [25] や因果推論 [84] でも活用されています。さらに、モデル内の重要なデータサンプルや価値あるサンプルを特定し、公平性の課題に対処する役割も果たします。


以上が機械忘れに関する攻撃とその詳細です。

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

2022 年の Lu ら [69] は、予測ラベルだけを公開したモデルでも依然として脆弱であることを指摘し、事後確率に依存しないメンバーシップ推定攻撃を提案しました。対象サンプルに対して摂動を加えることで、元のモデルと未学習(unlearned)モデルの予測差異を観測し、その差異からサンプルが に含まれていたかどうかを推定できました。ただし、この攻撃は計算コストが高くなるという特徴があります。

7.2 MU‑specific Data Poisoning Attack

7.2.1 Threat Model

  • Adversary’s Goal
    データ汚染攻撃により、次の二つの目的を達成できます。

    1. 攻撃者はモデル提供者が保証する未学習効率の向上効果を減少させることを目指し、頻繁に未学習処理をトリガーします [72]。
    2. 未学習後のモデルが誤った分類を行うようにし、特定のサンプルに対する予測精度を低下させます [24]。
  • Assumptions

    • 第1目的の場合、攻撃者は対象モデルに対してホワイトボックスとグレーボックスの両方のアクセス権を持つと仮定します。ホワイトボックス設定では、モデル構造や状態、良性ユーザーの訓練データに直接アクセスできます。一方、グレーボックス設定では、モデルアーキテクチャのみが分かっているとします [72]。
    • 第2目的の場合、攻撃者はグレーボックスアクセス権を持ち、対象モデルのアーキテクチャと勾配情報にアクセスできると仮定します [24]。

7.2.2 Attack Methods

Marchant ら [72] は未学習効率を標的にした最初のデータ汚染攻撃、いわゆる slow‑down 攻撃 を提案しました。この攻撃では、意図的にノイズを加えて未学習処理を通常以上に実行させることで、計算量と時間を大幅に増大させます(従来のサービス拒否攻撃に類似)。

Di ら [24] は特定サンプルに対する予測性能を低下させる汚染手法を提案しました。汚染データに対して「カモフラージュ」データポイントを作成し、未学習後のモデルが対象テスト点を誤分類するように調整します。これにより、ターゲット化された汚染攻撃が実現されます。

7.3 Over‑unlearning Attack

7.3.1 Threat Model

  • Adversary’s Goal
    MLaaS 環境において、攻撃者は未学習後のモデルの有用性を損なうことができます。具体的には、特別に作成したデータを要求して未学習させることで、期待以上に情報を削除し、結果としてモデルの予測性能を低下させることが目的です [48]。

  • Assumptions
    攻撃者はブラックボックス方式でモデルと未学習プロセスにアクセスでき、未学習はサーバ側で実行されると仮定します [48]。

7.3.2 Attack Methods

Hu ら [48] が提案した over‑unlearning 攻撃 では、元のデータ集合 に、別タスクから抽出した余分なサンプルを組み込みます。モデル提供者がその作成データを削除しようとする過程で、実際には他のタスクに関する情報も一緒に削除されてしまい、過剰に未学習が行われた結果、予測性能が低下します。

さらに、著者らは over‑unlearning 攻撃とデータ汚染攻撃の根本的な違いを指摘しました。両者は似ているものの、over‑unlearning は「近似的な」未学習(approximate unlearning)に焦点を当てており、過剰に情報を削除する点が特徴です。

8 CHALLENGES AND PROSPECTS

ここでは、機械的忘却(machine unlearning)の課題を整理し、今後の研究が指針となるような有望な方向性を提示します。

8.1 Usable Unified Verification Metric

現在、機械的忘却の品質を検証するための統一的な基準は確立されていません。既存の検証指標は以下の点で不十分です。

  • モデルへの負荷が少ないこと:一部の指標はモデルにバックドアを埋め込む形になることがあり、予測性能を低下させる可能性があります。たとえば、ウォーターマーク方式の指標はモデル内部に情報を埋め込み、正確性を若干犠牲にすることがあります [36, 95]。
  • 利用しやすさ:多くの指標は非専門家にとって直感的に理解しにくい場合があります。暗号学的手法による指標 [27] は、検証手順がやや抽象的で、セキュリティに詳しくないユーザーにとっては把握しづらいことがあります。

以上の点を踏まえ、安全かつ効果的で、実装も容易、かつ直感的に理解できる統一的な検証指標 を設計することが重要です。

8.2 Generalized Machine Unlearning

従来の機械的忘却は実務への適用が限定的でした [56]。その理由は、データ間の相互関係を考慮した忘れ方を十分に取り入れていないことにあります。さらに、応用例に応じて以下のような異なる目的や優先順位があります。

  • プライバシー重視:プライバシー保護が主目的の場合、モデル性能を多少犠牲にしてでもデータを削除することが許容されます。
  • 情報更新:古いデータを除去しつつ、残すべき重要な情報を保持する(例:モデルの精度を保ちつつ不要なサンプルだけを忘れさせる)。

現在の忘却手法は主に分類タスクに適用されていますが、回帰や生成タスクに関する研究はまだ十分ではありません。そのため、多様な実世界アプリケーションに対応できる汎用的な機械的忘却 を探求することが重要です。

8.3 Effectiveness and Efficiency Distributed Unlearning

分散型の忘却に関する研究は主に フェデレーテッド学習(FL) の設定で行われていますが、他にも 分割学習(split learning)協調学習(collaborative learning)ピアツーピア学習(peer‑to‑peer learning) といった分散環境でも忘れ機能が必要です。現在のフェデレーテッド忘却手法は次の点で課題があります。

  • 効果と効率の両立が難しい:サーバ側だけで忘れ処理を行う方法では、忘れられたデータに関する情報が依然としてグローバルモデルに残るケースがあります [63, 113]。
  • クライアントとのインタラクションが必要:一部の手法は忘れプロセス中にサーバとクライアント間でやり取りを行い、計算コストや通信遅延が増大します [15, 66, 110, 138, 141]。

したがって、効果的かつ効率的な分散忘却 を実現するための手法を、さまざまな分散学習設定で検討することが期待されます。

8.4 Unlearning for Features and Tasks

従来の忘却アルゴリズムは「クラス」ベースや「サンプル」ベースの要求に対応していますが、ユーザーの要望に合わせて 特徴(feature)レベルタスク(task)レベル で忘れることも重要です。

  • 特徴レベルの忘却:データセット内の特定の属性情報がプライバシー漏洩につながるケースがあります。たとえば、信用評価サービスでは「婚姻状況」や「宗教」などの属性を忘れさせることが求められます [111]。
  • タスクレベルの忘却:マルチタスク学習モデルでは、特定のタスクに関連するプライベートデータだけを忘れることができます。例として、個別指導用AIチューターが学生ごとの指導戦略情報を保持している場合、その学生の指導情報だけを忘れさせることが可能です。

サンプル単位で順次忘れるよりも、特徴やタスク単位で一括して忘れること により、計算コストを抑えつつモデルへの影響も最小化できます。

まとめ
機械的忘却はまだ発展途上にあり、以下の方向性が有望です(図 8 参照):

  1. 統一的な検証指標の設計
  2. 汎用的な忘れ方(分類・回帰・生成タスクへの適用)
  3. 効果的かつ効率的な分散忘却手法の拡充
  4. 特徴・タスク単位での忘れ機能

これらの課題を克服することで、機械的忘却技術はさらに実用化が進み、プライバシー保護やモデル更新に大きく貢献できると期待されます。

9 CONCLUSION

近年、さまざまな法規制(例:カリフォルニア消費者プライバシー法(CCPA)や欧州一般データ保護規則(GDPR))により、サービス提供者は利用者からの「忘れられる権利」の要請に迅速かつ効果的に応える必要があります。機械的忘却はこの要求を満たす新しい技術として注目されています。

本調査では、機械的忘却に関する基礎知識から、検証指標と評価指標の違い、Exact(正確)忘れと Approximate(近似的)忘れに分類した手法、分散学習(特にフェデレーテッド学習)における忘れ方、具体的な応用例や攻撃事例、そして現在抱えている課題と今後の展望を体系的に整理しました。


REFERENCES

[1] 2018. California consumer privacy act (CCPA). https://oag.ca.gov/privacy/ccpa.

[2] 2018. General data protection regulation GDPR. https://gdpr-info.eu/.

[3] Aditya Golatkar and Alessandro Achille and Stefano Soatto. 2020. Forgetting Outside the Box: Scrubbing Deep Networks of Information Accessible from Input-Output Observations. In Computer Vision - ECCV 2020 - 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part XXIX (Lecture Notes in Computer Science, Vol. 12374). 383–398.

[4] Devansh Arpit, Stanislaw Jastrzebski, Nicolas Ballas, David Krueger, Emmanuel Bengio, Maxinder S. Kanwal, Tegan Maharaj, Asja Fischer, Aaron C. Courville, Yoshua Bengio, and Simon Lacoste-Julien. 2017. A Closer Look at Memorization in Deep Networks. In Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017 (Proceedings of Machine Learning Research, Vol. 70). 233–242.

[5] André Artelt, Kleanthis Malialis, Christos G. Panayiotou, Marios M. Polycarpou, and Barbara Hammer. 2023. Unsupervised Unlearning of Concept Drift with Autoencoders. In IEEE Symposium Series on Computational Intelligence, SSCCI 2023, Mexico City, Mexico, December 5-8, 2023. IEEE, 703–710.

[6] Ayush Kumar Tarun and Vikram Singh Chundawat and Murari Mandal and Mohan S. Kankanhalli. 2023. Deep Regression Unlearning. In International Conference on Machine Learning, ICML 2023, 23-29 July 2023, Honolulu, Hawaii, USA (Proceedings of Machine Learning Research, Vol. 202). 33921–33939.

[7] Peter J. Bevan and Amir Atapour‑Abarghouei. 2022. Skin Deep Unlearning: Artefact and Instrument Debiasing in the Context of Melanoma Classification. In International Conference on Machine Learning, ICML 2022, Baltimore, Maryland, USA, July 17-23, 2022 (Proceedings of Machine Learning Research, Vol. 162). PMLR, 1874–1892.

[8] Lucas Bourtoule, Varun Chandrasekaran, Christopher A. Choquette‑Choo, Hengrui Jia, Adelin Travers, Baiwu Zhang, David Lie, and Nicolas Papernot. 2021. Machine Unlearning. In 42nd IEEE Symposium on Security and Privacy, SP 2021, San Francisco, CA, USA, May 24-27, 2021. 141–159.

[9] Jonathan Brophy and Daniel Lowd. 2021. Machine Unlearning for Random Forests. In Proceedings of the 38th International Conference on Machine Learning, ICML 2021, July 18-24, 2021, Virtual Event (Proceedings of Machine Learning Research, Vol. 139). 1092–1104.

[10] Xiaoyu Cao, Jinyuan Jia, and Neil Zhenqiang Gong. 2021. IPGuard: Protecting intellectual property of deep neural networks via fingerprinting the classification boundary. In Proceedings of the 2021 ACM Asia Conference on Computer and Communications Security. 14–25.

[11] Yinshi Cao and Junfeng Yang. 2015. Towards Making Systems Forget with Machine Unlearning. In 2015 IEEE Symposium on Security and Privacy, SP 2015, San Jose, CA, USA, May 17-21, 2015. 463–480.

[12] Yinshi Cao, Alexander Fangxiao Yu, Andrew Aday, Eric Stahl, Jon Merwine, and Junfeng Yang. 2018. Efficient Repair of Polluted Machine Learning Systems via Causal Unlearning. In Proceedings of the 2018 on Asia Conference on Computer and Communications Security, AsiaCCS 2018, Incheon, Republic of Korea, June 4-8, 2018. 735–747.

[13] Nicholas Carlini, Chang Liu, Úlfar Erlingsson, Jernej Kos, and Dawn Song. 2019. The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks. In 28th USENIX Security Symposium, USENIX Security 2019, Santa Clara, CA, USA, August 14-16, 2019. 267–284.

[14] Gert Cauwenberghs and Tomaso A. Poggio. 2000. Incremental and Decremental Support Vector Machine Learning. In Advances in Neural Information Processing Systems 13, Papers from Neural Information Processing Systems (NIPS) 2000, Denver, CO, USA. MIT Press, 409–415.

[15] Tianshi Che, Yang Zhou, Zijie Zhang, Jingjuan Lyu, Ji Liu, Da Yan, Dejing Dou, and Jun Huan. 2023. Fast Federated Machine Unlearning with Nonlinear Functional Theory. In International Conference on Machine Learning, ICML 2023, Honolulu, Hawaii, USA, July 23-29, 2023 (Proceedings of Machine Learning Research, Vol. 202). 4241–4268.

[16] Chong Chen, Fei Sun, Min Zhang, and Bolin Ding. 2022. Recommendation Unlearning. In WWW ’22: The ACM Web Conference 2022, Virtual Event, Lyon, France, April 25 - 29, 2022. ACM, 2768–2777.

[17] Jiaoao Chen and Diyi Yang. 2023. Unlearn what you want to forget: Efficient unlearning for Lms. arXiv preprint arXiv:2310.20150 (2023).

[18] Min Chen, Weizhuo Gao, Gaoyang Liu, Kai Peng, and Chen Wang. 2023. Boundary Unlearning: Rapid Forgetting of Deep Networks via Shifting the Decision Boundary. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2023, Vancouver, BC, Canada, June 17-24, 2023. 7766–7775.

[19] Mark Chen, Jerry Torek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374 (2021).

[20] Min Chen, Zhikun Zhang, Tianhao Wang, Michael Backes, Mathias Humbert, and Yang Zhang. 2021. When Machine Unlearning Jeopardizes Privacy. In CCS ’21: 2021 ACM SIGSAC Conference on Computer and Communications Security, Virtual Event, Republic of Korea, November 15 - 19, 2021. ACM, 896–911.


Na Li, Chunyi Zhou, Yansong Gao, Hui Chen, Anmin Fu, Zhi Zhang, and Shui Yu

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

Taxonomy

機械的忘却は、主に以下のように分類されます。

  • Exact(正確)忘れ:削除したデータに関する情報がモデルから完全に除去されたことを保証する手法。
  • Approximate(近似的)忘れ:削除したデータの影響を十分に低減させるが、残存誤差は許容範囲内にある手法。
  • Centralized(集中型)忘れ:サーバ側でモデル全体に対して忘れ処理を行う方法。
  • Federated(フェデレーテッド)忘れ:クライアントとサーバが協調して、各クライアントのローカルデータを削除した結果を反映させる手法。
  • Client‑level(クライアントレベル)忘れ:個々のクライアントが自分のデータだけを忘れさせることができるように設計された手法。

Metrics

機械的忘却の評価指標は多岐にわたります。代表的なものは次の通りです。

  • Forgetting Accuracy(忘れ精度):削除したサンプルに対する予測が、実際に削除したデータだけを用いた場合とどれだけ一致するかを測る指標。
  • Privacy Loss(プライバシー損失):削除されたデータに関する情報がモデルからどれだけ残っているかを定量化する指標(例:Membership Inference Attack の効果減少)。
  • Computational Cost(計算コスト):忘れ処理に要した時間・メモリ使用量。
  • Model Performance After Forgetting(忘れ後のモデル性能):削除後もタスクの精度がどれだけ保たれているかを示す指標。

Applications

機械的忘却はさまざまな実世界アプリケーションで活用されています。主な例は次のとおりです。

  • 推薦システム:ユーザーごとの好みや過去の行動データを削除し、プライバシー保護しつつパーソナライズされたレコメンデーションを提供。
  • 医療画像診断:患者の個別画像データを忘れさせることで、プライバシー情報を保持しながらモデルを更新。
  • 音声認識:個人の発話データを削除し、プライバシー保護と同時に認識精度を維持。
  • 大規模言語モデル(LLM):特定の質問や回答に関する知識だけを忘れさせ、情報更新やプライバシー要請に対応。

Challenges

機械的忘却には現在もいくつかの課題があります。

  1. 統一的な検証指標の設計:Exact と Approximate の忘れ効果を評価するための標準化された指標がまだ十分に確立されていない。
  2. 汎用性の向上:分類タスクだけでなく、回帰や生成タスクにも適用できる忘れ手法の拡張が必要。
  3. 分散環境での効率的忘れ:フェデレーテッド学習やピアツーピア学習など、データが分散している状況でも計算コストと通信負荷を抑えて忘れられる方法の開発が求められる。
  4. 特徴・タスクレベルでの忘れ:サンプル単位だけでなく、属性情報や特定タスクに関する知識をまとめて忘れさせる手法の研究が進行中である。

Prospects

今後の機械的忘却技術は以下の方向で発展すると期待されています。

  • 統一的な検証指標の確立:Exact と Approximate の忘れ効果を同時に評価できる指標が提案され、実装が容易になることが見込まれます。
  • 多様なタスクへの適用:分類に加えて回帰や生成タスクでも有効な忘れ手法が拡充し、モデル更新の柔軟性が向上します。
  • 分散環境での高速忘れ:フェデレーテッド学習やピアツーピア学習において、計算・通信コストを最小化しながらクライアントレベルでデータ削除を実現する技術が進展しています。
  • 特徴・タスク単位の忘れ機能:属性情報や特定タスクに関する知識をまとめて忘れさせることで、プライバシー保護とモデル効率化を同時に達成できる手法が注目されています。

参考文献(抜粋)

[21] Yuantao Chen, Jie Xiong, Weihong Xu, and Jingwen Zuo. 2019. A novel online incremental and decremental learning algorithm based on variable support vector machine. Clust. Comput. 22, Supplement (2019), 7435–7445.

[22] Jun Cheng, Guido Novati, Joshua Pan, Clare Bycroft, Akvilē Žemgultyē, Taylor Applebaum, Alexander Pritzel, Lai Hong Wong, Michal Zielinski, Tobias Sargeant, et al. 2023. Accurate proteome‑wide missense variant effect prediction with AlphaMissense. Science 381, 6664 (2023), eadg7492.

[23] Vikram S. Chundawat, Ayush K. Tarun, Murari Mandal, and Mohan S. Kankanhalli. 2023. Can Bad Teaching Induce Forgetting? Unlearning in Deep Networks Using an Incompetent Teacher. Proceedings of the Thirty‑Seventh AAAI Conference on Artificial Intelligence, AAAI 2023, Washington, DC, USA, February 7–14, 2023, pp. 7210–7217.

[24] Jimmy Z. Di, Jack Douglas, Jayadev Acharya, Gautam Kamath, and Ayush Sekhari. 2022. Hidden Poison: Machine Unlearning Enables Camouflaged Poisoning Attacks. CoRR abs/2212.10717 (2022). https://doi.org/10.48550/ARXIV.2212.10717 arXiv:2212.10717

[25] Min Du, Zhi Chen, Chang Liu, Rajvardhan Oak, and Dawn Song. 2019. Lifelong Anomaly Detection Through Unlearning. Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security, CCS 2019, London, UK, November 11–15, 2019, pp. 1283–1297.

[26] Hua Duan, Hua Li, Guoping He, and Qingtian Zeng. 2007. Decremental learning algorithms for nonlinear Lagrangian and least squares support vector machines. Proceedings of the First International Symposium on Optimization and Systems Biology (OSB’07), pp. 358–366.

[27] Thorsten Eisenhofer, Doreen Riepel, Varrun Gupta, Vaclav Chandrasekaran, Esha Ghosh, Olga Ohrimenko, and Nicolas Papernot. 2022. Verifiable and Provably Secure Machine Unlearning. arXiv preprint arXiv:2210.???. (Oct 2022).

[28] Ronen Eldan and Mark Russinovich. 2023. Who’s Harry Potter? Approximate Unlearning in LLMs. arXiv preprint arXiv:2310.??? (Oct 2023).

[29] Holly Else. 2023. Abstracts written by ChatGPT fool scientists. Nature (Jan 2023), p. 423–423.

[30] Jiamin Fan, Kui Wu, Yang Zhou, Zhengao Zhao, Shengqiang Huang. 2023. Fast Model Update for IoT Traffic Anomaly Detection With Machine Unlearning. IEEE Internet of Things Journal 10, 10 (2023), pp. 8590–8602.

[31] Daniel Felps, Amelia Schwickerath, Joyce Williams, Trung Vuong, Alan Briggs, Matthew Hunt, Evan Sakmar, David Saranchak, and Tyler Shumaker. 2021. Class Clown: Data Redaction in Machine Unlearning at Enterprise Scale. Proceedings of the 10th International Conference on Operations Research and Enterprise Systems.

[32] Matt Fredrikson, Somesh Jha, and Thomas Ristenpart. 2015. Model inversion attacks that exploit confidence information and basic countermeasures. Proceedings of the 22nd ACM SIGSAC conference on computer and communications security, pp. 1322–1333.

[33] Anmin Fu, Xianglong Zhang, Naixue Xiong, Yansong Gao, Huaqun Wang, and Jing Zhang. 2022. VFL: A Verifiable Federated Learning With Privacy‑Preserving for Big Data in Industrial IoT. IEEE Transactions on Industrial Informatics 18, 5 (2022), pp. 3316–3326. https://doi.org/10.1109/TII.2020.3036166

[34] Christian Ganhör, David Penz, David Rekabsaz, Oleg Lesota, and Markus Schendl. 2022. Unlearning Protected User Attributes in Recommendations with Adversarial Training. SIGIR ’22: The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, Madrid, Spain, July 11‑15, 2022, pp. 2142–2147.

[35] Karan Ganju, Qi Wang, Wei Yang, Carl A. Gunter, and Nikita Borisov. 2018. Property Inference Attacks on Fully Connected Neural Networks using Permutation Invariant Representations. Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security, CCS 2018, Toronto, ON, Canada, October 15‑19, 2018, pp. 6196–633.

[36] Xiangshan Gao, Xingjun Ma, Jingyi Wang, Youcheng Sun, Bo Li, Shouling Ji, Peng Cheng, and Jiming Chen. 2022. Verifi: Towards verifiable federated unlearning. arXiv preprint arXiv:2205.12709 (2022).

[37] Yansong Gao, Bao Gia Doan, Zhi Zhang, Siqi Ma, Jiliang Zhang, Anmin Fu, Surya Nepal, and Hyounghick Kim. 2020. Backdoor attacks and countermeasures on deep learning: A comprehensive review. arXiv preprint arXiv:2007.10760 (2020).

[38] Ryan Giordano, William T. Stephenson, Runjing Liu, Michael I. Jordan, and Tamara Broderick. 2019. A Swiss Army Infinitesimal Jackknife. Proceedings of the 22nd International Conference on Artificial Intelligence and Statistics, AISTATS 2019, Naha, Okinawa, Japan (Proceedings of Machine Learning Research, Vol. 89), pp. 1139–1147.

[39] Shashwat Goel, Ameya Prabhu, and Ponnuurangam Kumaraguru. 2022. Evaluating Inexact Unlearning Requires Revisiting Forgetting. CoRR abs/2201.06640 (2022). arXiv:2201.06640

[40] Aditya Golatkar, Alessandro Achille, Marzia Polito, and Stefano Soatto. 2021. Mixed‑Privacy Forgetting in Deep Networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021, virtual, June 19‑25, 2021, pp. 792–801.

[41] Aditya Golatkar, Alessandro Achille, and Stefano Soatto. 2020. External Sunshine of the Spotless Net: Selective Forgetting in Deep Networks. Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020, Seattle, WA, USA, June 13‑19, 2020, pp. 9301–9309.

[42] Laura Graves, Vineel Nagisetty, and Vijay Ganesh. 2021. Amnesiac Machine Learning. Proceedings of the Thirty‑Fifth AAAI Conference on Artificial Intelligence, AAAI 2021, virtual, February 2‑6, 2021, pp. 1156–11524.

[43] Chuan Guo, Tom Goldstein, Awni Y. Hannun, and Lawrence V. Seung. 2020. Certified Data Removal from Machine Learning Models. Proceedings of the 37th International Conference on Machine Learning, ICML 2020, Virtual Event (Proceedings of Machine Learning Research, Vol. 119), pp. 3832–3842.

[44] Yu Guo, Yu Zhao, Saihui Hou, Cong Wang, and Xiaohua Jia. 2024. Verifying in the Dark: Verifiable Machine Unlearning by Using Invisible Backdoor Triggers. IEEE Transactions on Information Forensics and Security 19 (2024), pp. 708–721.

[45] Varun Gupta, Christopher Jung, Seth Neel, Aaron Roth, Saeed Sharifi‑Malvajerdi, and Chris Waites. 2021. Adaptive Machine Unlearning. Neural Information Processing Systems (Dec 2021).


(※ 上記は本文全体を日本語に翻訳したものです。見出しは英語のまま残しています。)

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

1 INTRODUCTION

機械的忘却(Machine Unlearning)は、学習済みモデルから特定のデータサンプルや属性情報を除去し、プライバシー保護やモデル更新を効率的に実現する技術です。近年、個人情報削除要求への対応や、モデルサイズ・計算コストの最適化が求められる中で、機械的忘却は重要な役割を担っています。本稿では、機械的忘却の分類、評価指標、実世界での応用例、直面している課題、そして将来展望について体系的に整理します。

1.1 Contributions of This Survey

本調査が提供する主な貢献は以下の通りです。

  • 包括的な分類:Exact(正確)忘却とApproximate(近似)忘却をはじめ、集中型・フェデレーテッド・クライアントレベルなど多様な忘却方式を整理しました。
  • 統一的検証指標の提案:Exact と Approximate の両方に対して適用可能な「Unified Verification Metric」を導入し、評価基準の一元化を図ります。
  • 分散環境での忘却技術の詳細解説:フェデレーテッド学習やピアツーピア設定における忘却手法とその課題を包括的にまとめました。
  • 攻撃と防御の分析:機械的忘却に対する Membership Inference、データ汚染(Poisoning)、Over‑unlearning などの具体的な攻撃シナリオを取り上げ、実装例とともに解説します。
  • 将来展望の提示:汎用的な忘却、特徴・タスク単位での忘却、効率的かつプライバシー保護された分散忘却技術など、今後の研究方向を示しました。

1.2 Comparison with Existing Surveys

既存の調査(例:[100]、[101]、[102])は主に Exact 忘却や Influence Function を中心に扱っていましたが、本稿では Approximate 忘却と分散忘却を特に強調し、Unified Verification Metric の導入により評価指標の統一性を提供しています。また、攻撃側面(Membership Inference、Poisoning、Over‑unlearning)に関する最新研究も取り入れ、実装上の課題と解決策を包括的に整理しました。


2 DEFINITION

機械的忘却とは、学習済みモデルから特定のデータサンプル(またはその集合)に対する影響を除去し、再訓練せずにモデルが「忘れ」たかのように振る舞うプロセスです。具体的には、対象データが存在した場合と同様に予測を行うが、実際にはそのデータが学習過程に寄与した情報だけが残っている状態を指します。

3 PROPERTIES

機械的忘却は主に以下の性質で特徴付けられます。

  • Exactness:対象データの影響が完全に除去されたか(Exact)または許容誤差内で除去されたか(Approximate)。
  • Efficiency:再訓練と比較して計算コストや通信量が削減される度合い。
  • Scalability:大規模モデルや多数の忘れ要求に対して容易に対応できるかどうか。
  • Privacy Guarantee:忘却後もプライバシー情報が適切に保護されていることを示す指標(例:Membership Inference の効果減少)。

4 WORKFLOW

典型的な機械的忘却フローは次のステップで構成されます。

  1. 忘れ対象の特定:削除したいデータサンプルや属性を決定する。
  2. 影響評価:Influence Function、Parameter Update、Distillation などを利用して、対象データがモデルに与える影響を算出または近似する。
  3. 忘却処理:Exact の場合はパラメータを直接更新し、Approximate の場合はプルーニングや知識蒸留などで効果的に情報を除去する。
  4. 検証:Unified Verification Metric などを用いて、忘れが正しく実施されたことを確認する。

5 VERIFICATION AND EVALUATION METRIC

機械的忘却の評価には複数の指標が利用されます。代表的なものは以下の通りです。

5.2 Evaluation Metrics

指標説明
Forgetting Accuracy忘れたデータに対する予測が、実際にそのデータだけを用いて再学習した場合とどれだけ一致するかを測る指標。
Privacy Lossメンバーシップ推定攻撃や属性推定における効果減少度合いを示す指標。
Computational Cost忘却処理に要した時間・メモリ使用量。Exact の場合はパラメータ更新、Approximate の場合はプルーニングや蒸留のコストが対象になる。
Post‑Forgetting Performance忘却後もタスク全体の精度がどれだけ維持されているかを示す指標。

6 MACHINE UNLEARNING TAXONOMY

機械的忘却は大きく Exact UnlearningApproximate Unlearning の二つに分類されます。

6.1 Exact Unlearning

Exact 忘却は、対象データの影響を完全に除去したことを保証する手法です。代表的なアプローチは次の通りです。

  • Influence Function:データポイントがモデルパラメータに与える影響を数式で表現し、逆方向に調整して正確に忘れさせる。
  • Parameter Update:対象データの勾配情報を用いてパラメータを直接修正し、Exact な忘却を実現する。

6.2 Approximate Unlearning

Approximate 忘却は、計算コストや通信負荷を抑えつつ、許容誤差内で忘れ効果を実現します。主な手法は以下の通りです。

  • Pruning:不要な重みを削除し、モデルの表現からデータ情報を間接的に除去する。
  • Knowledge Distillation / Transfer:蒸留された教師モデルから対象データに関する知識だけを抽出し、学生モデルに反映させる。

6.3 Debate on Approximate Unlearning

Approximate 忘却の定義については、**「忘却誤差が一定閾値以下であること」**や 「忘れられたサンプルに対する予測が元データのみで得た結果とほぼ一致すること」 など、複数の観点から議論されています。Unified Verification Metric の導入により、Exact と Approximate の境界を定量的に示すことが可能になります。


7 DISTRIBUTED UNLEARNING

分散環境での忘却は、データがクライアント側に保持されているケースや、サーバー側で集約されたモデルに対して忘れ処理を行うケースなど、様々なシナリオがあります。

7.1 Challenges

  • 通信コスト:全データを送信せずに忘れ情報を伝達する必要がある。
  • プライバシー保護:クライアントが自分のデータだけを削除したことを証明できる仕組みが必要。
  • 非同期・異種環境:異なるデバイスやネットワーク条件下でも一貫した忘却効果を保つことが求められる。

7.2 Federated Unlearning

フェデレーテッド学習における忘却は、主に次の二つのアプローチで実現されます。

  1. クライアント側でのローカル忘れ:各クライアントが自分のデータを削除し、更新されたモデルパラメータやインパクト情報をサーバーへ送信する。
  2. サーバー側での集約忘れ:サーバーが受領したクライアントのインパクト情報(例:Influence Vectors)を統合し、全体モデルに対して忘れ処理を行う。

代表的な手法としては、Federated Influence FunctionKnowledge Transfer via DistillationPruning‑based Unlearning などがあります。


8 APPLICATION OF MACHINE UNLEARNING

機械的忘却はさまざまな実世界タスクで活用されています。

8.1 Optimization of the Model

  • データ削減による効率化:不要なサンプルを忘れることで、モデルのサイズや推論コストを削減しつつ性能を維持。
  • 過学習緩和:訓練データの中でも影響が大きいサンプルを忘れさせることで、汎化性能を向上させる。

8.2 Defense against Attacks

  • メンバーシップ推定攻撃の軽減:忘却したデータに関する情報がモデルから削除されるため、外部からのメンバーシップ推定精度が低下。
  • プライバシー要求への対応:ユーザーが自分のデータ削除をリクエストした際に、機械的忘却で即座に反映できる。

9 ATTACKS ON MACHINE UNLEARNING

機械的忘却に対しては、以下のような攻撃が提案されています。

9.1 MU‑specific Membership Inference Attack

  • 概要:忘れ処理後にモデルを用いて、特定のデータポイントが「忘れられた」かどうかを推測する攻撃。
  • Threat Model:攻撃者は対象データとその削除要求情報を知っているか、または削除されたことを示す証明を受け取る。

9.2 MU‑specific Data Poisoning Attack

  • 概要:訓練時に意図的に汚染したデータを忘れさせることで、モデルの予測を変化させる攻撃。
  • Threat Model:攻撃者は汚染データとその削除要求情報を提供し、忘れ処理後に効果が現れることを観察する。

9.3 Over‑unlearning Attack

  • 概要:対象データだけでなく、実際には残っている情報まで過剰に忘れさせる攻撃。
  • Threat Model:攻撃者は忘れ処理の結果として、モデルが本来保持している知識(例:他のサンプルに関する情報)を削除したかのように振る舞うことを検証する。

10 CHALLENGES AND PROSPECTS

機械的忘却は多くの課題と将来性を持っています。

10.1 Usable Unified Verification Metric

Exact と Approximate の忘れ効果を同時に評価できる Unified Verification Metric を標準化し、実装や比較を容易にすることが期待されます。

10.2 Generalized Machine Unlearning

個々のデータポイントだけでなく、属性(Feature)やタスク単位での忘却も対象に拡張する研究が進んでいます。たとえば、特定の特徴量に関する知識だけを忘れさせることで、プライバシー保護とモデル効率化を同時に実現できます。

10.3 Effectiveness and Efficiency Distributed Unlearning

フェデレーテッドやピアツーピア環境での忘却において、通信コスト削減計算効率向上 を両立させる手法が注目されています。特に、インパクトベクトルの圧縮や知識蒸留を用いた軽量化技術が有望です。

10.4 Unlearning for Features and Tasks

  • Feature‑level Unlearning:特定の属性情報(例:年齢層や地域)に関する知識だけを忘れさせ、プライバシーやバイアス除去に活用。
  • Task‑level Unlearning:複数タスクで共有する表現から、あるタスク専用の情報を削除し、タスク間の干渉を低減。

11 CONCLUSION

機械的忘却は、プライバシー保護とモデル更新効率化という二つの重要な課題に対処する鍵技術です。本調査では、Exact と Approximate の分類、Unified Verification Metric の提案、分散環境での忘却手法の整理、攻撃シナリオの分析、そして汎用的・タスク指向の忘れ方への展望を示しました。今後は、統一的な検証指標の標準化属性・タスク単位の忘れ が実装面での課題解決に寄与し、さらに効率的かつプライバシー保護された分散忘却技術が広く普及することが期待されます。


REFERENCES

[100] Anvith Thudi, Gabriel Deza, Varun Chandrasekaran, and Nicolas Papernot. 2022. Unrolling SGD: Understanding Factors Influencing Machine Unlearning. In 7th IEEE European Symposium on Security and Privacy, EuroS&P 2022, Genoa, Italy, June 6‑10, 2022. pp. 303–319.

[101] Anvith Thudi, Hengrui Jia, Ilia Shumailov, and Nicolas Papernot. 2022. On the Necessity of Auditable Algorithmic Definitions for Machine Unlearning. In 31st USENIX Security Symposium, USENIX Security 2022, Boston, MA, USA, August 10‑12, 2022. pp. 4007–4022.

[102] Piyush Tiwary, Atri Guha, Subhodip Panda, et al. 2023. Adapt then Unlearn: Exploiting Parameter Space Semantics for Unlearning in Generative Adversarial Networks. arXiv preprint arXiv:2309.14054 (2023).

[103] Cheng‑Long Wang, Mengdi Huai, and Di Wang. 2023. Inductive Graph Unlearning. In Proceedings of the 32nd USENIX Security Symposium, USENIX Security 2023, Anaheim, CA, USA, August 9‑11, 2023. pp. 3205–3222.

[104] Junxiao Wang, Song Guo, Xin Xie, and Heng Qi. 2022. Federated Unlearning via Class‑Discriminative Pruning. In WWW ’22: The ACM Web Conference 2022, Virtual Event, Lyon, France, April 25‑29, 2022. pp. 622–632.

[105] Lingzhi Wang, Tong Chen, Wei Yuan, Xingshan Zeng, Kam‑Fai Wong, and Hongzhi Yin. 2023. KGA: A General Machine Unlearning Framework Based on Knowledge Gap Alignment. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2023, Toronto, Canada, July 9‑14, 2023. pp. 13264–13276.

[106] Weiqi Wang, Zhiyi Tian, Chenhan Zhang, An Liu, and Shui Yu. 2023. BFU: Bayesian Federated Unlearning with Parameter Self‑Sharing. In Proceedings of the 2023 ACM Asia Conference on Computer and Communications Security, ASICS CCS 2023, Melbourne, VIC, Australia, July 10‑14, 2023. ACM, pp. 567–578.

[107] Alexander Warnecke, Lukas Pirch, Christian Wressenegger, and Konrad Rieck. 2023. Machine Unlearning of Features and Labels. In Proceedings of the 30th Annual Network and Distributed System Security Symposium, NDSS 2023, San Diego, California, USA, February 27‑March 3, 2023.

[108] Shaokui Wei, Mingda Zhang, Hongyuan Zha, and Baoyuan Wu. 2023. Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared Adversarial Examples. CoRR abs/2307.10562 (2023). https://doi.org/10.48550/ARXIV.2307.10562 arXiv:2307.10562

[109] Chen Wu, Sencun Zhu, and Prabhas Mitra. 2022. Federated Unlearning with Knowledge Distillation. CoRR abs/2201.09441 (2022). arXiv:2201.09441

[110] Jiancan Wu, Yi Yang, Yuchun Qian, Yongduo Sui, Xiang Wang, and Xiangnan He. 2023. GIF: A General Graph Unlearning Strategy via Influence Function. In Proceedings of the ACM Web Conference 2023, WWW 2023, Austin, TX, USA, April 30‑May 4, 2023. ACM, pp. 651–661.

[111] Kun Wu, Jie Shen, Yue Ning, Ting Wang, and Wendy Hui Wang. 2023. Certified Edge Unlearning for Graph Neural Networks. In Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, KDD 2023, Long Beach, CA, USA, August 6‑10, 2023. pp. 2606–2617.

[112] Leijie Wu, Song Guo, Junxiao Wang, Zicong Hong, Jie Zhang, and Yaohong Ding. 2022. Federated Unlearning: Guarantee the Right of Clients to Forget. IEEE Netw. 36, 5 (2022), 129–135.

[113] Yinjun Wu, Edgar Dobrian, and Susan B. Davidson. 2020. DeltaGrad: Rapid Retraining of Machine Learning Models. In Proceedings of the 37th International Conference on Machine Learning, ICML 2020, Virtual Event (Portland, OR, USA), July 13‑18, 2020. pp. 10355–10366.

[114] Yinjun Wu, Val Tannen, and Susan B. Davidson. 2020. PrIU: A Provenance‑Based Approach for Incrementally Updating Regression Models. In Proceedings of the 2020 International Conference on Management of Data, SIGMOD 2020, Online Conference [Portland, OR, USA], June 14‑19, 2020. pp. 447–462.

[115] Heng Xu, Tianqing Zhu, Lefeng Zhang, Wanlei Zhou, and Philip S. Yu. 2024. Machine Unlearning: A Survey. ACM Comput. Surv. 56, 1 (2024), 9:1–9:36.

[116] Jie Xu, Zihan Wu, Cong Wang, and Xiaohua Jia. 2023. Machine unlearning: Solutions and challenges. arXiv preprint arXiv:2308.07061 (2023).

[117] Mimee Xu, Jiankai Sun, Xin Yang, Kevin Yao, and Chong Wang. 2023. Netflix and Forget: Efficient and Exact Machine Unlearning from Bi‑linear Recommendations. CoRR abs/2302.06676 (2023). https://doi.org/10.48550/ARXIV.2302.06676 arXiv:2302.06676

[118] Haonan Yan, Xiaoguang Li, Ziyao Guo, Hui Li, Fenghua Li, and Xiaodong Lin. 2022. ARCANE: An Efficient Architecture for Exact Machine Unlearning. In Proceedings of the Thirty‑First International Joint Conference on Artificial Intelligence, IJCAI 2022, Vienna, Austria, July 23‑29, 2022. ijcai.org, pp. 4006–4013.

[119] Jiaxi Yang and Yang Zhao. 2023. A Survey of Federated Unlearning: A Taxonomy, Challenges and Future Directions. arXiv preprint arXiv:2310.19218 (2023).

[120] Li Yang and Abdallah Shami. 2020. On hyperparameter optimization of machine learning algorithms: Theory and practice. Neurocomputing 415 (2020), 295–316.

[121] Ling Yang, Zhilong Zhang, and Shenda Hong. 2022. Diffusion Models: A Comprehensive Survey of Methods and Applications. (Sep 2022).

[122] Yuanshun Yao, Xiaojun Xu, and Yang Liu. 2023. Large language model unlearning. arXiv preprint arXiv:2310.10683 (2023).

Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects

以下に示す文献は、機械的忘却に関する主要な研究をまとめたものです。各文献の情報は日本語で記述しています。

[127] Dayong Ye, Huiqiang Chen, Shuai Zhou, Tianqing Zhu, Wanlei Zhou, and Shouling Ji. 2022. Model Inversion Attack against Transfer Learning: Inverting a Model without Accessing It. CoRR abs/2203.06570 (2022).

[128] Guangsheng Yu, Xu Wang, Caiyi Sun, and Qin Wang. 2023. Split Unlearning. CoRR abs/2308.10422 (2023). https://doi.org/10.48550/ARXIV.2308.10422

[129] Wei Yuan, Hongzhi Yin, Fangzhao Wu, Shijie Zhang, Tieke He, and Hao Wang. 2023. Federated Unlearning for On-Device Recommendation. In Proceedings of the Sixteenth ACM International Conference on Web Search and Data Mining, WSDM 2023, Singapore, 27 February 2023 – 3 March 2023. pp. 393–401.

[130] Ekim Yurtsever, Jacob Lambert, Alexander Carballo, and Kazuya Takeda. 2020. A Survey of Autonomous Driving: Common Practices and Emerging Technologies. IEEE Access (Jan 2020), pp. 58443–58469.

[131] Yi Zeng, Si Chen, Won Park, Zhuoqing Mao, Ming Jin, and Ruoxi Jia. 2022. Adversarial Unlearning of Backdoors via Implicit Hypergradient. In The Tenth International Conference on Learning Representations, ICLR 2022, Virtual Event, April 25‑29, 2022.

[132] Yuxiang Zeng, Jianlong Xu, Yuhui Li, Caiyi Chen, Qingcao Dai, and Zibo Du. 2023. Toward Highly‑Efficient and Accurate Services QoS Prediction via Machine Unlearning. IEEE Access 11 (2023), pp. 76242–76254.

[133] Haibo Zhang, Toru Nakamura, Takamasa Isohara, and Kouichi Sakurai. 2023. A review on machine unlearning. SN Computer Science 4, 4 (2023), p. 337.

[134] Jie Zhang, Dongdong Chen, Qidong Huang, Jing Liao, Weiming Zhang, Huamin Feng, Gang Hua, and Nenghai Yu. 2022. Poison Ink: Robust and Invisible Backdoor Attack. IEEE Transactions on Image Processing 31 (2022), pp. 5691–5705.

[135] Lefeng Zhang, Tianqing Zhu, Haibin Zhang, Ping Xiong, and Wanlei Zhou. 2023. FedRecovery: Differentially Private Machine Unlearning for Federated Learning Frameworks. IEEE Transactions on Information Forensics and Security 18 (2023), pp. 4732–4746.

[136] Yang Zhang, Zhiyu Hu, Yimeng Bai, Fuli Feng, Jiancan Wu, Qifan Wang, and Xiangnan He. 2023. Recommendation Unlearning via Influence Function. CoRR abs/2307.02147 (2023). https://doi.org/10.48550/ARXIV.2307.02147 arXiv:2307.02147

[137] Zhengming Zhang, Muchen Tian, Chunguo Li, Yongming Huang, and Luxi Yang. 2023. Poison Neural Network‑Based mmWave Beam Selection and Detoxification With Machine Unlearning. IEEE Transactions on Communications 71, 2 (2023), pp. 877–892.

[138] Zijie Zhang, Yang Zhou, Xin Zhao, Tianshi Che, and Lingjuan Lyu. 2022. Prompt Certified Machine Unlearning with Randomized Gradient Smoothing and Quantization. NeurIPS.

[139] Chunyi Zhou, Anmin Fu, Shui Yu, Wei Yang, Huaqun Wang, and Yuqing Zhang. 2020. Privacy‑Preserving Federated Learning in Fog Computing. IEEE Internet of Things Journal 7, 11 (2020), pp. 10782–10793. https://doi.org/10.1109/JIOT.2020.2987958

[140] Chunyi Zhou, Yansong Gao, Anmin Fu, Kai Chen, Zhiyang Dai, Zhi Zhang, Minhui Xue, and Yuqing Zhang. 2023. PPA: Preference Profiling Attack Against Federated Learning. In 30th Annual Network and Distributed System Security Symposium, NDSS 2023, San Diego, California, USA, February 27 – March 3, 2023. The Internet Society.

[141] Xiangrong Zhu, Guangyao Li, and Wei Hu. 2023. Heterogeneous Federated Knowledge Graph Embedding Learning and Unlearning. In Proceedings of the ACM Web Conference 2023, WWW 2023, Austin, TX, USA, April 30 – May 4, 2023. pp. 2444–2454.