Machine unlearning: Taxonomy, metrics, applications, challenges, and prospects

原題: Machine unlearning: Taxonomy, metrics, applications, challenges, and prospects 著者: N Li, C Zhou, Y Gao, H Chen, Z Zhang… | 会議: ieeexplore.ieee.org 2025 | 引用: 0 PDF: li25b.pdf


Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects NA LI, Nanjing University of Science and Technology, China and Xidian University, China CHUNYI ZHOU, Nanjing University of Science and Technology, China YANSONG GAO, CSIRO, Australia HUI CHEN, Nanjing University of Science and Technology, China ANMIN FU, Nanjing University of Science and Technology, China and Xidian University, China ZHI ZHANG, University of Western Australia, Australia SHUI YU, University of Technology Sydney, Australia Personal digital data is a critical asset, and governments worldwide have enforced laws and regulations to protect data privacy. Data users have been endowed with the ‘right to be forgotten’ of their data. In the course of machine learning (ML), the forgotten right requires a model provider to delete user data and its subsequent impact on ML models upon user requests. Machine unlearning emerges to address this, which has garnered ever-increasing attention from both industry and academia. While the area has developed rapidly, there is a lack of comprehensive surveys to capture the latest advancements. Recognizing this shortage, we conduct an extensive exploration to map the landscape of machine unlearning including the (fine-grained) taxonomy of unlearning algorithms under centralized and distributed settings, debate on approximate unlearning, verification and evaluation metrics, challenges and solutions for unlearning under different applications, as well as attacks targeting machine unlearning. The survey concludes by outlining potential directions for future research, hoping to serve as a guide for interested scholars. CCS Concepts: • Security and privacy →Privacy protections. Additional Key Words and Phrases: Machine learning, machine unlearning, data privacy, federated learning 1

導入

データと計算能力の爆発的な増加によって駆動され、ディープラーニング(DL)は、自動運転 [77, 130]、アミノ酸配列からのタンパク質の 3D 構造の予測 [51]、遺伝子コードの解読および隠された DNA 疾患の秘密の解明 [22]、そして非常に最近のテキスト生成による ChatGPT に代表される人工知能生成コンテンツ(AIGC)[29, 97]、拡散モデルによる画像および動画生成 [125]、Codex によるコード生成 [19] など、さまざまなアプリケーションにおいて驚異的なパフォーマンスを示してきました。これらのモデルは、ユーザーが貢献したデータ [70] に基づいてトレーニングされています。意図せずにも、これはプライバシーの懸念を引き起こします。なぜなら、モデルがユーザーの個人情報を持続的に記憶してしまい、既知のメンバーシップ推論攻撃、プロパティ推論攻撃、嗜好プロファイリング攻撃、および未公開のプライバシー攻撃を通じて漏洩する可能性があるからです。

ユーザーデータの保護の重要性を認識し、各国政府は、EU の一般データ保護規則(GDPR)[2]、カナダの消費者プライバシー保護法(CPPA)、米国カリフォルニア州消費者プライバシー法(CCPA)[1] など、多くの規制を発行しました。これらの規制規定は、関連するデータ消費者または組織によって市民からの個人データの収集、保存、分析、および利用に対する必須的手段を定めています。「忘れられる権利」により強制され、データ消費者はユーザーのデータを消去し、関連するあらゆる影響を排除するというユーザーのリクエストに迅速に従わなければなりません。これは、データ放出後もデータ提供者が自身のデータに対して制御権を持つことを可能にし、高品質なデータの共有と貢献への意欲を育みます。これにより、(モデル) サービスプロバイダーは、より高いサービス収益の獲得および法的リスクの低減という恩恵を受け [11]。

特筆すべきは、データを忘却することは、法的要件に準拠してプライバシーを保護するだけでなく、他のシナリオでも有益であることです。有害なデータ(例:敵対的データ、ポイズニングされたデータ [134]、ノイズの多いラベル [80])や陳旧化したデータによる悪影響を忘却することで、モデルのセキュリティ、応答性、および信頼性を向上させることができます。さらに、攻撃者によって標的にされた犠牲者のデータを忘却することにより、メンバーシップ推論攻撃やモデル逆転攻撃など、多数のプライバシー攻撃を緩和し、トレーニングデータの機密情報からモデルへの漏洩を防ぐことができます。

DL の文脈では、バックエンドデータベースから生のトレーニングデータ単に削除するだけでは相対的に無意味です。なぜなら、DL モデルは依然として(明示的または暗黙的に)リクエストされたデータサンプルの機密詳細を含むことが多い定着したパターンや特徴を記憶しているからです [4, 13]。したがって、生データに関連する潜在表現は、DL モデルから直接排除することが難しい課題であるように見えます。

既存の従来のプライバシー保護技術はこれらの要件を満たすことができないため、機械学習における「機械忘却(Machine Unlearning: MU)」という研究分野が出現しました。MU は、データ提供者がモデルトレーニングに使用された自身のデータを積極的に撤回することを可能にし、モデルの有用性を損なうことなく、まるでそのデータが存在しなかったかのように、トレーニング済みモデルからの影響を消去することを目指します(Fig. 1 に示す)。

「忘れられる権利」が付与されていることを考慮すると、機械忘却は間違いなくより関連性が高くなっています。最も単純なアプローチは、忘却するデータのグループを除く残りのデータセット上で定期的に新しいモデルを最初から再トレーニングすることです。残念ながら、これは計算オーバーヘッドおよび応答レイテンシが明らかに高コストとなり、特にデータセットサイズとモデル複雑性が絶えず増加している場合、この「最初からのトレーニング」はモデルプロバイダーやユーザーにとって受け入れられない可能性が高く、したがって実世界のアプリケーションには現実的ではありません。機械忘却は、上記の単純なアプローチの深刻な短所を克服しようとするものです。

既存の MU 手法は、残りのデータセット上で(再)トレーニング操作が必要かどうかに基づいて、主に 2 つのカテゴリーに分類されます。それは正確な忘却(Exact Unlearning)と近似忘却(Approximate Unlearning)です。正確な忘却は(再)トレーニングプロセスを加速することを目指し、一方、近似忘却はモデルパラメータを直接変更することで再トレーニングの必要性を不要にし、どちらも忘却後のモデルが単純なアプローチを使用して得られたものから区別できないようにします。

1.1 この調査の寄与

機械忘却は急速に発展していますが、最先端の状態をよりよく描写するために包括的な要約と分析が存在しないという顕著な欠如があります。例えば、さまざまなアプリケーションにおける機械忘却の課題への対応や、機械忘却に対するセキュリティ分析の不足が指摘されています。これらの短所により、私たちは徹底的な調査を行うことを促されました。この調査は、2015 年から 2024 年までの機械忘却に関する主要な研究を網羅しており、集中型および分散型設定における忘却アルゴリズムの分類(後者はしばしば見落とされます)、評価および検証指標、忘却機能付きアプリケーション、および MU を標的とする攻撃が含まれます。この調査の目的は、この急速に成長する MU 分野におけるさらなる学術研究とイノベーションを促進するための知識基盤を提供することです。この調査の主な寄与は以下の通り要約されます:

  • 私たちは、大規模言語モデルを含む多様なタスクに対する既存の機械忘却アルゴリズム包括的なレビューを行い、忘却メカニズムによって体系的に分類し、各(サブ)カテゴリに内在する利点と限界を批判的に分析しました。
  • 分散学習設定における機械忘却が直面する課題の詳細な分析を提供し、その手法を体系的に分類し、それぞれの長所と短所を比較しました。
  • 私たちは、既存の検証および評価指標のための分類体系を策定しました。この分類体系はデータ所有者およびモデル所有者の両方を支援することを目的としており、各指標の主要な焦点を強調しています。
  • 私たちは、機械忘却がさまざまなシナリオにおける多様な応用を強調し、モデル最適化およびセキュリティ・プライバシー攻撃に対する防御におけるその独自の利点を強調しました。この柔軟性は、特定の要件に合わせて迅速な展開と適応を可能にします。
  • 私たちは、機械忘却に関連する課題の徹底的な検討を行い、将来の学者が探索し参照するための潜在的な研究方向を概説しました。

1.2 既存の調査との比較

Table 1 は、本調査と過去の調査の違いを要約しています。主な違いはいくつかの側面にあります。第一に、私たちは検証および評価指標を明確に区別し包括的に説明しており、これらは機械忘却の実用的実装への道を開く上で不可欠です。一方、多くの既存の調査はこれらの指標を混同するか、あるいは見落としています。第二に、近似忘却に関する議論の詳細な要約を提供しており、これは他の調査では欠如しています。第三に、分散設定における機械忘却の課題に深く入り込み、現在の手法を詳細に分析しており、これは先行する調査で十分に扱われていないトピックです。第四に、異なるアプリケーションシナリオ(例:大規模言語モデル)における機械忘却が直面する困難および機械忘却がどのようにさまざまな攻撃に対する防御として転換できるかを指摘しています。以前の調査は、この分析においてしばしば深さと包括性に欠けています。最後に、機械忘却を脅かす様々な新興攻撃を分類し、それらの悪意のある目的と仮定について詳述しました。この側面は、ほとんどの調査では周辺的にのみ扱われ、選択された攻撃手法の一部のみを提供する分析に留まっています。

1.3 調査の構成

本調査は以下のように構成されています。セクション 2 は機械忘却の予備知識を提示します。セクション 3 は機械忘却の品質を測定するための検証および評価指標について議論します。セクション 4 は既存の機械忘却アルゴリズムを分類し、各微細なカテゴリに深入りしてそれぞれの強みと弱みを徹底的に分析します。セクション 5 は分散設定における新興の機械忘却を検証します。セクション 6 は機械忘却によって有害情報を消去可能にするなど、潜在的な応用を強調します。セクション 7 は機械忘却を対象とした既存のプライバシーおよびセキュリティ攻撃を要約します。最後に、セクション 8 は機械忘却が直面する現在の課題を記述し、将来の研究のための有望な方向性を提示します。

2 予備知識

機械忘却は、トレーニング済みモデルがデータポイントおよびそれらのモデルへの影響を選択的に消去することを可能にし、個人データのプライバシーを保護することに専念しています。このセクションでは、その定義、アルゴリズムが満たす必要がある必須の性質、およびその運用ワークフローを含む、機械忘却に関する包括的な紹介を提供します。

2.1 定義

を元のトレーニングデータセットとし、ここで はトレーニングデータポイントを表し、 に対応するラベルを表します。学習アルゴリズムが関数 で表され、 上でトレーニングを完了したモデルは と表記できます。 を削除リクエストされた の部分集合とし、この部分集合の補集合 ( かつ ) を残りのデータセットとします。関数 は機械忘却アルゴリズムを包摂しています。忘却リクエストが開始された場合、トレーニング済みモデル から に関連するすべての情報を消去することが不可欠です。これは を実行することで達成され、忘却済みモデルとして が構築されます。この忘却済みモデルは、単純な最初からの再トレーニングによって得られる再トレーニング済みモデル [11] と区別できないことが期待されます。

2.2 性質

よく設計された機械忘却アルゴリズムは、以下の 4 つの性質を満たすべきです:

  • 有効性(Effectiveness): 機械忘却において、忘却済みモデルは、堅牢な汎化能力を持つ元のモデルから選択的にデータポイントを忘却することによって得られます。重要な要件は、忘却済みモデルが忘却されたデータに関連するすべての情報を完全に削除し、まるでモデルがこのデータに一度も晒されなかったかのようにすることです。
  • 効率性(Efficiency): 忘却はユーザーのリクエストに応答して迅速に行われ、法的に要求される時間枠内で完了する必要があります。この文脈では、忘却アルゴリズムは計算コスト効率的であるべきです。
  • 有用性(Utility): 忘却後、残りのデータセット上でのモデルの精度などの有用性は、忘却前の能力と整合している必要があります。忘却プロセスはモデルの有用性を損なってはいけません。
  • 互換性(Compatibility): 設計された忘却アルゴリズムは、既存の機械学習モデル上で簡単に展開可能であるべきです。

2.3 ワークフロー

機械忘却の一般的なワークフローを Fig. 1 に示します。Machine Learning as a Service (MLaaS) の文脈では、モデルは元のデータセット上でトレーニングされ、高性能なサービスを提供しています。プライバシーおよびセキュリティ上の懸念により、データ提供者はデプロイされたモデルから自身の個人情報(または特定のデータ特徴など)を撤回したいと思うかもしれません [11]。したがって、データ提供者はモデルプロバイダー(サーバー)に忘却リクエストを開始し、モデルが使用したことがなかったかのように対応するデータを効果的に忘却することを要求します [12]。忘却リクエストを受信すると、サーバーは忘却データタイプ(例:テキスト、画像、グラフ)、モデルタイプ(例:畳み込みニューラルネットワーク、ディープニューラルネットワーク、グラフニューラルネットワーク、線形モデル)、および徹底的な削除または速度を優先する要件など、特定の要因に基づいて適切な忘却アルゴリズム(例:正確な忘却内のサブカテゴリ的手法または近似忘却)を選択して忘却を実行します [88, 89]。その後、サーバーは忘却されたデータに関する情報を一切含まない忘却済みモデルを取得します。

3 検証および評価指標

忘却後、モデルプロバイダーは忘却サンプル の影響を自身のモデルから削除したと主張します。しかし、悪意のあるプロバイダーは、リソースの節約、機密ユーザーデータへの関心、データの盗難、パフォーマンス低下の回避などの理由でこの主張に違反する可能性があります [46]。これに対処するため、検証指標は、忘却済みモデルが依然として関連する 情報を含んでいるかどうかをデータ提供者が評価するために不可欠です。セクション 2 に概説されているように、理想的な機械忘却アルゴリズムは有効性、効率性、有用性の性質を満たすべきです。モデルプロバイダーはこれらの性質に整合する評価指標を必要とし、自身の忘却アルゴリズムを評価する必要があります。一方、データ提供者は真のデータ削除を検証するために検証指標を必要とします。

3.1 検証指標

検証指標は、忘却済みモデルがモデルプロバイダーが主張したように を確かに完全に忘却したかどうかをデータ提供者が確認するために使用されます。検証がモデルトレーニングに影響を与えるかどうかに応じて、侵入型(Invasive)および非侵入型(Non-invasive)に分類されます。

3.1.1 侵入型指標

侵入型指標には 2 つの主要なステップがあります:ウォーターマーキングと検証(Fig. 2 に示す)[36]。ウォーターマーキングステップでは、データ提供者は確認する必要があるデータ(例:、モデルパラメータ)にウォーターマーキング手法を適用します。検証ステップでは、データ提供者はモデルプロバイダーが忘却完了を主張した直後に、ウォーターマーク上で忘却結果を能動的に分析します。侵入型検証プロセスは、悪意のある試行により検証結果の精度が低下することを防ぐために、モデルプロバイダーがデータがウォーターマーキングされていることに気づかないように隠密に行われることが不可欠です。

  • ウォーターマークベースの指標: ウォーターマークは、バックドアトリガーまたは所有者固有の二進文字列をデータ(例:、モデルパラメータ)に埋め込む [49, 95] こと、および忘却検証を支援するためにモデルの固有特性を捉える敵対的サンプルを作成することを含みます [36]。

  • バックドアベースのウォーターマーク: Sommer et al. [95] は、バックドアを通じて検証を行いました。プロセスはウォーターマーキングステップから始まり、データ提供者は の予測を人工的なターゲットラベルに変更するバックドアパターンを設計します。その後、ポイズニングされたサンプル(ウォーターマーク)がサーバーにアップロードされます。検証ステップでは、モデルが忘却完了後に、データ提供者はバックドア成功率の統計を評価します。もしモデルが の関連情報を保持している場合、バックドア成功率は著しく高くなります。Gao et al. [36] は [95] を連合学習設定における忘却検証に拡張しました。しかし、[36, 95] ではランダムにピクセルを選択し、その値を 1 に設定してバックドアトリガーとするだけであり、これはモデルプロバイダーによって容易に検出されます。これに対抗するため、Guo et al. [44] は最小ビット(LSB)アルゴリズムを使用してウォーターマークにトリガーを注入しました。

  • 特徴ベースのウォーターマーク: Izzo et al. [49] は、線形分類器の忘却検証のために主に Feature Injection Test (FIT) を提案しました。ウォーターマーキングステップでは、彼らは に強い信号を注入し、ゼロに設定された追加の特徴を含みます。トレーニングプロセスは、この特徴に対してゼロから著しく異なる重みを割り当てます。検証ステップでは、忘却によってこの特徴の重みが再びゼロになるため、削除前後の忘却済みモデルのこの特殊な特徴に対する重みの変化を検出することで忘却を検証できます。変化がゼロに近いほど、忘却はより成功したことになります。

  • 敵対的サンプルベースのウォーターマーク: Gao et al. [36] は、連合学習における最初の検証指標を導入し、特定のユーザーのローカルモデルにウォーターマークを付けて、その全データがグローバルモデルから削除されたことを確認しました。ディープニューラルネットワーク(DNN)分類器の固有特性は分類境界によって表現できるため [10]、彼らは境界指紋法 [10] を利用して、決定境界の指紋をローカルモデルを一意に識別するためのウォーターマークとして見つけました。具体的には、ウォーターマーキングステップから始まり、データ提供者は局所モデルの堅牢性を特徴付けるために決定境界付近の敵対的サンプルをウォーターマークとして生成します。その後、ウォーターマーク周囲により滑らか(堅牢)な境界を示すウォーターマーク付きローカルモデルを取得するためにローカルモデルをファインチューニングします。このウォーターマーク付きローカルモデルはサーバーに送信され、グローバルモデルへの集約に使用されます。最終ステップが検証であり、グローバルモデルの敵対的ウォーターマーク上での予測結果を確認します。真の忘却ではウォーターマーク周囲の滑らか(堅牢)な境界が急速に減少することが期待されるため、誤ったモデルの予測は成功した忘却を示唆します。

3.1.2 非侵入型指標

一般的なシナリオとして、データ提供者はモデルプロバイダーの主張された真正性を検証するために事前に能動的にデータをウォーターマーキングしない場合があります(例:レガシーモデル)。一方、侵入型指標はセキュリティ上の懸念を引き起こす可能性があり、検証結果の精度は防御的な侵入行動によって低下する可能性があります。この場合、データ提供者は非侵入型指標を採用でき、これはモデルの出力を利用するか、またはモデルプロバイダーに暗号証明を提供させることで忘却を検証します。以下に既存の非侵入型指標を要約します。

  • メンバーシップ推論指標: メンバーシップ推論は、特定のデータサンプルがトレーニングデータセットに含まれているかどうかを決定できます [56, 93]。これは、モデルが に関する関連情報を依然として含んでいるかどうかを検証するのに役立ちます。Graves et al. [42] は忘却検証においてメンバーシップ推論を使用しました。彼らはまずシャドウモデルをトレーニングして忘却済みモデルを模倣し、その後、トレーニングおよび非トレーニングデータ上のシャドウモデルの出力(例:予測確率または信頼度)をメタデータとして使用してバイナリメタ分類器をトレーニングしました。最後に、このメタ分類器は忘却済みモデルからの類似形式のメタデータを使用して、 が依然としてトレーニングデータセットに含まれているかどうかを決定します。Liu et al. [70] は、忘却前後のメンバー推論の精度を測定することにより忘却率(FR)を計算しました。FR は、忘却後にメンバーから非メンバーに変化する に対するメンバー推論の成功率の直感的な指標を提供します。FR 値が 1 の場合、 が完全にメンバーから非メンバーに変化し、忘却が成功したことを示します。

  • データ再構築指標: データ再構築は、モデル出力(ブラックボックス)またはパラメータ(ホワイトボックス)においてモデルのトレーニングデータを逆転させることができます [42, 127]。[42, 106] では、忘却はサンプルレベルではなくクラスレベルで行われます。クラスレベルでのデータ削除を検証するために、彼らは [32] が提案した脅威モデルの変種を採用してデータのクラス情報を再構築しました。入力ベクトルをゼロで初期化し、少量のノイズを注入します。この入力およびターゲットクラス(忘却クラス)に関する損失を使用して、勾配降下法によって脅威モデルが最適化されます。 回の勾配降下のステップごとに画像処理ステップが行われ、生成された画像の認識に役立ちます。最終的な逆転画像を得るために、プロセスは一定数のエポックに対して繰り返されます。忘却が正しく行われた場合、忘却済みモデルのパラメータから再構築されたデータには忘却されたクラスに関する情報は含まれていないはずです。Salem et al. [87] はブラックボックスモデルの出力の変化を利用しました。

3.1 検証指標

忘却後のモデルと忘却前のモデルの両方を使って、忘却されたサンプルを再構築し、サンプルレベルでのデータ削除を検証する敵対的攻撃を実行できる。 • 暗号ベースの指標。既存の検証フレームワークのほとんどが理論的な保証を持たないため、Eisenhofer ら [27] は検証可能な忘却のための最初のプロトコルを構築した。このインスタンス化プロトコルは、忘却によって誘発されるモデル更新を証明するために、知識に基づく簡潔な非対話的証明(succinct non-interactive argument of knowledge)の検証可能計算を使用し、トレーニングデータセットにメンバーでないことを証明するためにハッシュチェーンを使用する。モデルプロバイダーはこのプロトコルを使用して、合意された忘却プロセスが実行されたことの暗号学的証明を提供できる。

3.2 評価指標

評価指標は、モデルプロバイダーが自身の忘却の有効性、有用性、効率性を評価するために有用である。

3.2.1 有効性指標

忘却の有効性とは、忘却済みモデルが に関する情報を一切含まないことを意味し、まるでモデルが を一度も見たことがなかったかのように見えることである。有効性を評価することで、モデルプロバイダーはモデルの忘却能力の質を測定できる。 • 再学習時間指標。再学習時間は、 が削除された場合、忘却済みモデルが元のモデルと同じ精度を 上で回復するために必要なエポック数である。これは、忘却済みモデルに残留している情報の量を間接的に測定するものである。再学習時間が短い場合、忘却済みモデルはより多くの情報を保持している可能性が高い。そうでない場合、忘却済みモデルは を一度も見たことがないモデルに近い状態にあるため、忘却は有効である [40, 99]。Chundawat ら [106] は、忘却済みモデルが急速に大幅な精度を回復できるが、元の精度に収束するまでには長い期間がかかる可能性があることを示唆している。したがって、エポック数において元の精度に到達または上回るかどうかのみに基づいて再学習時間を決定することは誤解を招く可能性がある。これに対処するため、元の精度の周りにα% のマージンを導入して、Anamnesis Index (AIN) [106] を計算する。これは以下のように定義される:

(1)

記号は Table 2 で参照できる。AIN が 1 に近づくことは有効な忘却を示し、1 よりも大幅に低い値は情報が残っていることを示唆し、対応する再学習時間が短くなる。しかし、AIN が 1 を大幅に上回ることは、顕著なパラメータ変化を意味し、過剰忘却(over-unlearning)を引き起こす可能性があり、結果として『ストライサンド効果』(private data is more accessible to the adversary) を引き起こす可能性がある。 • 類似性ベースの指標。忘却済みモデルと再トレーニング済みモデルとの間の類似性は、活性化、重み、および分布における両者の距離を測定することによって示される(上記の順序で忘却の有効性の保証が強くなる)。類似性が高いほど、忘却はより良いものとなる。 – 活性化距離。活性化類似性は、忘却に対する評価において弱いものである。[3, 40] では、-ノルム距離が使用され、忘却済みモデルと再トレーニング済みモデルの最終的な活性化の類似性を定量化する。-ノルムが小さいほど、忘却の有効性は高い。 – 重み距離。モデルパラメータの変更は近似忘却プロセスにおける一般的な操作であるため、忘却済みモデルと再トレーニング済みモデル間の重みの相関を検証するために様々な類似性指標が使用される。一般的な指標は -ノルム距離およびコサイン類似度(cosine similarity)である。[42, 49, 117] に示すように、-ノルム距離またはコサイン類似度が小さいほど、忘却の有効性は高い。ただし、コサイン類似度は分類タスクの評価に限定される点に注意されたい。これらの指標は単純であるが、モデルを最初から再トレーニングする必要性や浮動小数点演算による潜在的な逸脱といった実用的な制限を課す。これに対処するため、Thudi ら [100] は近似忘却を検証するための拡張された -ノルム距離指標を提案した。彼らは、最終的な近似忘却重みと初期重みの間の -ノルム距離を計算することで、単純な再トレーニングの必要性を排除し、計算コストを大幅に削減した。 – 分布距離。忘却済みモデルと再トレーニング済みモデル間の分布類似性を保証することは、忘却の有効性に対するより高い保証を提供するが、そのような類似性を測定するのは非自明である。KL 分散(Kullback-Leibler divergence)は、2 つのモデル間の分布距離を測定するために一般的に使用される指標であり、0 に近いほど良い。Chundawat ら [23] は、Jensen-Shannon (JS) 分散を使用して、忘却前後の出力分布を比較する Zero Retrain Forgetting (ZRF) を計算した。 • 上の精度指標。よくトレーニングされたモデルは、特にトレーニングデータセット内のデータに対して、高い精度を持つ良好な汎化能力を示す傾向がある。この特性を利用して、間接的に忘却の有効性を検証できる [9, 117]。 における理想的な精度は、 を見ずにトレーニングされたモデルと同じであるべきである [89, 122]。単純で明確ではあるが、精度は忘却プロセスの複雑さや微妙な点に対する感度が低い。それでもなお、多くの研究がこの指標を忘却の有効性を評価する最も基本的な形態として使用している [8, 9, 42, 43, 49, 89, 111, 117, 122]。 • 理論ベースの指標。一部の機械忘却アルゴリズム、例えば証明可能な忘却(certified unlearning)は、本質的にその有効性を証明する性質を持つように設計されている。 – 再トレーニングベース。正確な忘却(Exact Unlearning)は通常、 で迅速に再トレーニングすることを目的としており、これにより忘却済みモデルと単純な最初からの再トレーニングモデルの分布が区別できないことを保証する。例えば [8, 11] では、 の忘却リクエストがあった場合、 を含む関連データシャードのみを再トレーニングし、有効性に対する計算コストを実質的に最小化する。ただし、この指標は近似忘却には適用できない。 – 証明可能ベース。証明可能な忘却は Guo ら [43] によって最初に提案され、微分プライバシー(Differential Privacy: DP)に基づいて重み [40, 41, 78, 91, 117] または損失関数 [43] に繊細なノイズを追加する。これにより、忘却済みモデルの出力が再トレーニング済みモデルと区別できないことが保証される。ただし、この指標はディープラーニングで一般的な非凸(non-convex)損失関数を持つモデルには適用されない。

3.2.2 効率性指標

忘却プロセスの効率性も検証する必要がある。「忘れられる権利」により、サービスプロバイダーは指定された時間枠内で忘却操作を完了しなければならないためである。完了が早いほど、ユーザーへのサービスの継続が早くなる。 • 忘却速度指標。忘却速度(実行時間)は、忘却の有効性を評価するために使用でき、忘却と単純な再トレーニングの間の時間の差を測定する。この差が大きいほど、システムがプライバシー、セキュリティ、および有用性を回復する速度が速い [11]。Table 3 から観察できるように、多くの研究がこの指標を使用して忘却効率を評価している。

3.2.3 有用性指標

有用性とは、モデルの 上での予測精度が忘却前後で整合していることを意味する。トレーニング済みモデルからデータを削除するとパフォーマンスが悪化する可能性があるため、これは通常のケースでは望ましくない。したがって、忘却済みモデルのパフォーマンスを評価して使用可能であることを保証することが不可欠である。 • 上の精度指標 またはテストデータセットの場合、理想的な精度は忘却を行わずにトレーニングされたモデルと同じであるべきである。この指標は、忘却が残りデータに与える影響を評価し、忘却済みモデルの有用性が悪影響を受けていないかを確認するために使用できる。

まとめ: 検証指標は、データ提供者が忘却済みモデルが実際に達成されており、自身のデータの痕跡が含まれていないことを確認することを可能にする。侵入型(Invasive)の検証指標は比較的实施が容易で精度が高いが、事前にウォーターマーク付きデータに依存しており、モデルトレーニングプロセスに干渉する可能性があるため、モデルの精度に影響を与えたり、本質的にセキュリティリスク(例えば、バックドアベースのウォーターマークが悪意ある目的で悪用される可能性など)を伴う。非侵入型(Non-invasive)の検証指標はモデルへの影響はないが、モデルの出力情報を受動的に使用するのみであるため、検証プロセスは比較的不複雑であり、特にメンバーシップ推論攻撃では追加のバイナリメタ分類器をトレーニングする必要があるため(つまり、コストがかかる可能性がある)。評価指標は、モデルプロバイダーが機械忘却アルゴリズムの有効性、効率性、有用性を評価し、評価に基づいて忘却済みモデルを公開するかどうかを決定することを支援する。ただし、一部の指標は単純で精度に基づくなど粗く測定可能である一方、理論に基づく指標などは適用範囲が限定的である。特に注目すべきは、多くの指標が再トレーニング済みモデルとの比較に基づいていること(例えば、類似性ベースの指標)であり、参照として再トレーニング済みモデルのパラメータを取得することは実用的ではない。

4 機械忘却の分類学

で最初からモデルをトレーニングすることは計算および時間のコストが高いため、現実世界のシナリオでは単純で非現実的であることが多い。集中型機械学習設定において、現在の機械忘却アルゴリズムは、リソース集約的な問題を解決しつつ の排除を確保することを目的としている。これらのアルゴリズムは、再トレーニングプロセスを採用するかどうかに基づいて 2 つのカテゴリーに分類される:正確な忘却(Exact Unlearning)と近似忘却(Approximate Unlearning)。これら 2 つのカテゴリーの比較を Table 4 に示す。 • 正確な忘却とは、 が削除された更新データセット でモデルを迅速に再トレーニングすることを指す。これにより、忘却済みモデルの分布が最初からのトレーニングモデルと区別できないことを保証する。 • 近似忘却は、モデルを再トレーニングする必要を回避する。Fig. 4 に示すように、近似化はモデルパラメータレベル(埋め込まれたレベル)だけでなく、最終活性化関数レベル(表現レベル)でも達成できる [6]。両方とも再トレーニング済みモデルとの統計的な区別不可能性を保証できるが、後者の保証は相対的に弱いことが証明されている [6]。

正確な忘却は、再トレーニングプロセスを通じて およびその影響をモデルから完全に排除するための理論的保証を提供する。しかし、複雑な数学的計算 [11] が必要であるため、複雑なモデルに対処する際には非効率的である。対照的に、近似忘却は正確な忘却が直面する問題を実質的に解決している。ただし、再トレーニングの必要性を緩和したため、近似忘却は統計的な忘却保証しか提供できない。

4.1 正確な忘却

正確な忘却に必要な計算複雑性のため、初期アルゴリズムは主に構造がより均一でデータの影響力を追跡しやすい凸(convex)関数に基づく従来のモデルを対象としていた。既存のアルゴリズムによる大きな革新的努力により、現在では非凸(non-convex)関数に基づく複雑なモデルにも正確な忘却を適用可能となっている。これには、畳み込みニューラルネットワーク(CNN)、ディープニューラルネットワーク(DNN)、グラフニューラルネットワーク(GNN)などの交差するニューラルネットワークにおけるデータの影響力を追跡できるものが含まれる。既存の正確な忘却アルゴリズムは、非凸関数に基づくモデルに適用可能かどうかに応じて、主に 2 つのカテゴリーに分類される:従来のモデル固有および複雑なモデル固有。

Fig. 3. 正確な忘却 (SISA [8]) (図の説明:元のデータセットからシャード 1 からシャード n まで分割され、それぞれ M1 から Mn のサブモデルがトレーニングされる。忘却プロセスでは、忘却したいデータ A を含むシャード 1 が更新され、M1 が再トレーニングされて忘却済み M1 となる。最終的に他のサブモデルと組み合わせて忘却済みモデルが構築される。)

4.1.1 凸関数に基づく従来のモデル

従来のモデルは通常、凸(convex)損失関数に関連しており、モデルは通常特定の単一モデル構造を持ち、凸最適化により時間消費が低減される。初期の正確な忘却アルゴリズムは、Bayesian [11, 12, 50]、ロジスティック回帰 [88]、サポートベクターマシン(SVMs)[9, 11, 12, 14, 21, 26, 52, 53, 85, 103, 104] などの単純な従来のモデルのために設計された。最初からモデルを単純かつ直接的に再トレーニングすることは正確な忘却を達成するための理想的な方法であるが、大規模データセットでは計算上不可能となる。この計算上の課題を克服するため、機械忘却の概念は Cao ら [11] によって 2015 年に最初に提案された。彼らは学習アルゴリズムを統計的クエリ学習に従う和(summation)形式に変換した。忘却リクエストを受け取った際、対応する少数の和から削除するだけでよいため、忘却オーバーヘッドが削減される。ただし、この方法は単純な学習モデル(例えば、Naive Bayes や SVMs など和形式に変換可能なもの)にのみ適しており、ディープラーニングには適合しない。2018 年、Cao ら [12] は Karma を導入した。これは機械学習システムを効果的に修復するための因果忘却(causal unlearning)手法である。ただし、Karma は SVMs および Bayesian ベースの分類器に限定される。2020 年以来、多くの正確な忘却方法が開発され、それぞれが異なるモデルに合わせて特別に設計されている。例えば、Schelter [88] は減算更新(decremental updates)に依存するロジスティック回帰のための忘却手法を提案した。Jose ら [50] は PAC-Bayesian 用の忘却アルゴリズムを設計し、情報リスク最小化を通じて効果的な忘却を達成した。さらに、Kashef [53] は減算戦略を通じて弱非線形 SVM の忘却効率を改善した。

4.1.2 非凸関数を持つ複雑なモデル

機械学習は最適化問題に翻訳できる。複雑なモデルでは非凸(non-convex)損失関数がよく使用される。ただし、非凸最適化は複数の局所最適解をもたらす可能性があり、データの追跡が困難で、凸最適化よりも多くのリソースを必要とする。例えば、ニューラルネットワークモデルは多層の複雑構造および非線形活性化により、非常に非凸な損失関数を使用する。この設定において時間消費を最小化しつつ正確な忘却を達成することは課題である。 • CNN または DNN。Ullah ら [105] は、モデルの履歴パラメータを保存することで正確な忘却を考案し、これは経験的リスク最小化(empirical risk minimization)に適用可能である。Bourtoule ら [8] は、SISA と呼ばれる注目すべき手法を導入した。トレーニングデータセットは互いに排他的なシャードに分割され、その後サブモデルがこれらのシャード上でトレーニングされる(Fig. 3 を参照)。忘却時、SISA は関連するデータシャードに対応するサブモデルのみを再トレーニングし、各サブモデルの知識を組み合わせて最終予測を行うことで、再トレーニングの計算コストを大幅に低減する。ただし、SISA は未分割のデータセット全体でトレーニングされたモデルと比較して精度が低く、トレーニングデータの全体を維持する必要がある。 • GNN。2022 年以前は、機械忘却アルゴリズムは主に画像およびテキストデータに焦点を当てていた。Chen ら [76] は SISA に基づく GraphEraser を導入し、これは GNN に対する最初の正確な忘却である。SISA のランダムデータ分割とは異なり、GraphEraser はグラフ構造情報を保持するための 2 つのバランス型分割方法を提供する。これにより、SISA を直接グラフデータに適用するとグラフ構造が深刻に損傷するという問題に対処している。ただし、GraphEraser はグラフ分割時間のコストが高く、進化中のグラフや帰納的設定(inductive setting)におけるマルチグラフでの使用を制限している。この問題を解決するため、Wang ら [107] は GUIDE を導入した。これは最初のモデル非依存の帰納的グラフ忘却アルゴリズムである。GraphEraser よりも時間効率と公平性・バランススコアの両方で優れており、グラフ分割における公平性とバランス制約を確保する。

4.2 近似忘却

正確な忘却よりも近似忘却に関する研究の方が多く行われているのは、前者が再トレーニングを必要としないためである。異なる近似忘却戦略に基づき、データを操作することに焦点を当てた戦略はデータ駆動型(data-driven)近似に分類され、元のトレーニング済みモデルを直接修正する戦略はモデル駆動型(model-driven)近似に分類される。Table 5 は、さまざまな近似忘却カテゴリーを比較・分析している。

Fig. 4. データ変更 (図の説明:元のデータセット D に含まれるデータ Xj;Yj を変更し、Xj;Y’j とする。この新しいデータセットでトレーニングを行い、元のモデルから忘却済みモデルへと変化する。)

4.2.1 データ駆動型近似化

データを操作する方法には 2 つある:データ分離(Data Isolation)とデータ変更(Data Modification)。データ分離はデータの影響力を最小限に抑えることができる一方、データ変更は に対するモデルの理解を変更する。 • データ分離。モデルプロバイダーはまず から分離し、つまりトレーニングデータセットを SISA のようにいくつかの排他的なパーティション(サブデータセット)に分割する。その後、対応するサブデータセット上でサブモデルがトレーニングされ、統合されてサービスを提供される。忘却リクエストがあった場合、対応するサブデータセットを特定して対応するサブモデルを忘却する。SISA とは異なり、サブモデルの再トレーニングは不要である。 2021 年、Neel ら [78] は勾配ベース(gradient-based)の削除アルゴリズムを提案し、対応するサブモデルを忘却するためにいくつかの勾配降下ステップを実行する。このアルゴリズムは、十分に高次元のデータに対して実行時間と精度のトレードオフを提供する。Gupta ら [45] はストリーミング忘却(streaming unlearning)を導入し、強力な証明可能な保証付きで忘却リクエストの適応シーケンスを処理できる。具体的には、SISA の変種を使用し、プライベート集約のために DP を採用した。He ら [47] は DNN に適用可能な忘却アルゴリズムを提案した。影響を受けるサブモデルは再トレーニングされる(完全な再トレーニングではない)。ここで再トレーニングの終了は残存メモリ傾向(residual memory tendency)のトレンドに基づいている。最後に、彼らは再トレーニング済みモデルと影響を受けないモデルを組み合わせて忘却済みモデルを構築する。 • データ変更。Fig. 4 に示すように、データ変更とはトレーニングデータセット内のデータ情報を改変することであり(例えば、 に対応するラベルを変更 [42])、この新しいデータセット上でいくつかのイテレーションのファインチューニングを実行して忘却を達成するものである。 Graves ら [42] はアムネジアック忘却(amnesiac unlearning)を提案し、トレーニング中に に関するパラメータ更新を保存する。忘却リクエストを受け取った際、 はランダムなラベルで再ラベリングされ、対応する更新がモデルパラメータから減算される。その後、数エポックにわたってモデルをファインチューニングすることで忘却が完了する。ただし、このプロセスにはパラメータ更新を保存するために大きなストレージ容量が必要であり、モデルのパフォーマンスも低下させる可能性がある。Felps ら [31] は DNN モデルのライフサイクル維持プロセスを導入し、特定のデータ削除リクエストをどのように処理するかを確立した。[42] と同様に、忘却は増分モデル更新内で のラベルにポイズニング(poisoning)することによって実装される。Tarun ら [99] はノイズ行列と 内のサンプルを組み合わせて 1 エポックモデルをトレーニングし、忘却を実行した。最終的なモデルは標的データクラスの忘却において優れたパフォーマンスを示す。[106] が元のトレーニングデータが利用できない設定に [99] を拡張した点に注意されたい。Chen ら [18] は境界忘却(boundary unlearning)を導入し、これは元のトレーニング済みモデルの決定境界を変更して再トレーニングモデルの決定行動を模倣するものである。彼らは特定のクラスを忘却するための 2 つの境界シフト方法を提供した:境界縮小(boundary shrink)と境界拡大(boundary expanding)。前者は忘却クラスの機能を他のクラスに割り当てることで忘却クラスの決定境界を乱し、後者は に追加クラスを再マッピングすることで忘却クラスの活性化を分散させる。

4.2.2 モデル駆動型近似化

モデルパラメータを直接操作することにより、忘却済みモデルはパラメータ空間において再トレーニング済みモデルと区別不可能になることができる。これは、影響力関数(Influence Function)[38, 55]、フィッシャー情報行列(Fisher Information Matrices: FIM)[73]、知識蒸留(Knowledge Distillation)、および確率的勾配降下法(Stochastic Gradient Descent: SGD)などの技術に主に依存するさまざまな手法を通じて達成される。 • 影響力関数ベース。影響力関数 [38, 55] は、 がトレーニング済みモデルのパラメータに与える影響を評価するために使用される。その後、この影響を相殺するようにモデルを更新する:

(2)

ここで 上の損失関数の二次導関数であり、 上の損失関数の導関数である。 がモデルに与える影響である。 Guo ら [43] はニュートン法を使用して のパラメータへの影響を推定し、この影響の排除を最大化した。ただし、この方法は線形モデルにのみ適用可能である。同様に、Izzo ら [49] は凸(convex)損失関数上の影響力関数を採用した。彼らの方法は [43] の実行時間効率を改善するが、非凸(non-convex)モデルへの適合は困難である。対照的に、Warnecke ら [111] は忘却リクエストの対象をサンプルから特徴およびラベルへシフトさせた。彼らはデータの効果をモデルパラメータの閉形式更新(closed-form updates)に変換する。ここで閉形式とは、指定された変数に対する直接解を提供する数学的式を指す。これらの更新は反復なしで直接計算でき、モデル内で学習された特徴およびラベルの修正に寄与する。ただし、影響を受ける特徴およびラベルの数が増加すると忘却の有効性は低下する。

Table 4. 正確な忘却と近似忘却の比較 (表の内容:カテゴリー、基本目標、利点、欠点を示す。正確な忘却は忘却済みモデルと再トレーニング済みモデル間の分布が区別不可能であること、よりクリーンで効果的な忘却、しかし時間および計算オーバーヘッドが高く、複雑なモデルでの実装が困難、正確な忘却アルゴリズムの設計が困難。近似忘却は忘却済みモデルと再トレーニング済みモデル間のパラメータが区別不可能であること、より複雑なモデルに適用可能、最小限の時間投資で済む、正確な忘却よりも達成しやすい、しかしパラメータ内に機密情報を保持する。)

Table 5. 近似忘却アプローチの比較 (表の内容:カテゴリー、利点、欠点を示す。データ駆動型近似化にはデータ分離とデータ変更があり、リソースコスト、モデル有用性、適用範囲、モデル複雑度などが比較されている。モデル駆動型近似化には影響力関数ベース、フィッシャー情報行列ベース、知識蒸留ベース、勾配ベースなどがある。)

Table 3. 指標の要約 (表の内容:検証指標と評価指標を分類し、侵入型・非侵入型、データ再構築、暗号ベース、メンバーシップ推論などの各指標の利点と欠点を示す。評価指標には有効性、効率性、有用性の各指標が含まれる。)

4.2 機械忘却の分類学(続き)

従来の影響力関数は、グラフ内の本質的なデータ依存関係のために GNN に直接適用する際に課題に直面します [58, 86, 114, 115]。この問題に対処するため、Wu ら [115] は証明可能なエッジ忘却を提案し、モデルからのエッジの削除を可能にしました。[111] と同様に、彼らはデータ間の依存関係を慎重に調査し、影響力関数を使用して更新を効果的に計算することで、パラメータに対する忘却を閉形式更新を見つけることとして再定義しました。さらに、Wu ら [114] は [115] をグラフノード忘却、エッジ忘却、特徴忘却のタスクに拡張しました。このアプローチの中核は、従来の影響力関数に加えて影響を受けた近隣のための損失項を組み込むことにあり、これによりデータセット内のわずかな摂動に対するパラメータの応答を効率的かつ正確に評価することが可能になります。 • FIM ベース。ニュートン法を使用して最適値を取得する際、ヘッシアン行列の計算は非常に大規模になる可能性があります。忘却効率を向上させるため、 上で FIM [73] を使用してヘッシアン行列を近似できます。同時に、最適なノイズが注入されて の忘却が行われます。忘却されたモデルは以下のように与えられます:

(3)

ここで、 上の FIM、 上の損失関数に関する勾配、 は修正ニュートンステップに対応し、 は追加された最適なノイズに対応します [108]。

Golatkar ら [41] は、ノイジーニュートン更新に基づく堅牢な忘却アルゴリズムを提案しました。これは特定のクラスに関する情報を消去でき、効率を向上させるためにヘッシアン行列を FIM に置き換えます。[3] は [41] を異なる目的関数に一般化しました。しかし、[3, 41] のスケーラビリティはトレーニングデータセットのサイズ増加とともに低下します。これは忘却ステップの計算がデータセットサイズに対して二次的に成長するためです。Golatkar ら [40] はこの問題を解決し、混合プライバシーシナリオのための効果的な忘却手法を導入しました。この手法では、トレーニングデータをコアデータとユーザーデータに分割します。コアデータは事前トレーニングに使用される一般的な情報であり、保持することが重要です。ユーザーデータには通常、ユーザーが削除したい情報が含まれます。コア重みは非凸アルゴリズムを使用して学習され、一方、ユーザー重みは強凸二次最適化を通じて取得されます。単にユーザー重みをゼロに設定することで、そのデータの影響力を除去できます。ただし、事前トレーニングフェーズ中にデータセットが静的である必要があるため、多くの実用的アプリケーションには適さない可能性があります。 • 知識蒸留ベース。知識蒸留により、学生モデルのトレーニングが可能になり、より大きな教師モデルの知識を選択的に模倣することができ、 に関する機密情報をフィルタリングしながら学生モデルの有用性を維持できます。 Chundawat ら [106] は、教師から学生モデルへの機密情報の流れをブロックするためにバンドパスフィルターを採用しました。しかし、この手法は大規模モデルには適さない可能性があります。後続の研究 [23] で、彼らは [106] を修正し、(有能/無能な)教師のペアを使用して学生を管理しました。無能な教師からの に関する誤情報は学生に転送され、サンプルの忘却を助けます。この手法は非常に効率的ですが、モデルの有用性を損なう可能性があります [56]。Kurmanji ら [56] は、教師-学生定式化に基づくアプリケーション依存型忘却手法を導入しました。これは多様なアプリケーションに適応可能です。具体的には、元のモデルが教師として指定され、忘却されたモデルは学生として機能します。学生モデルは全知の教師に対して選択的に不服従し、 に関連しない知識のみを継承します。 • 勾配ベース。勾配ベースの忘却は、SGD ステップを修正することで再トレーニング済みモデルを近似します。Wu ら [42] は、勾配降下法を利用してデータの由来を追跡・活用し、迅速な増分モデル更新を実現しました。しかし、この手法は回帰モデルにのみ適用可能です。さらに、彼らは DeltaGrad [117] を提案し、キャッシュされた中間パラメータに基づいて に関連する勾配を準ニュートン法を使用して除去します。ただし、大量のデータを忘却するには適していません。

4.3 近似忘却に関する議論

最近、一部の研究者は、パラメータ空間において再トレーニング済みモデルと区別できない忘却済みモデルを生成することを近似忘却として定義することは考慮が不十分であると主張しています。まず、Thudi ら [101] は、重複しないデータセットのペアでのトレーニングから変更なしで同じモデルを取得できるという理論的証明を提示しました。これは、パラメータの宇宙内の特定の位置に到達することが忘却のための十分な条件ではないことを示唆し、本質的に近似忘却の定義に疑問を投げかけています。さらに、Tarun ら [99] は、再トレーニング済みモデルのパラメータを近似忘却の品質の比較基準として使用することは信頼できないと主張しました。これは、効率的な忘却が可能となる多数のパラメトリック構成が存在する可能性があるためです(再トレーニング済みモデルのパラメータはそのうちの 1 つに過ぎません)。忘却済みモデルと再トレーニング済みモデル間にパラメータの大きな違いがあったとしても、必ずしも忘却プロセスが失敗したことを意味するわけではありません [39, 56, 124]。したがって、研究者たちは区別不可能性を目指さずに近似忘却を実現しようと試みています。Wang ら [109] は、モデルパラメータを特定の分布に適合させることを強制することを避けました。代わりに、忘却済みモデルと再トレーニング済みモデル間の分布の違いを維持し、それによってより多くのアプリケーション(例えば、自然言語処理)に適応可能にしました。Lin ら [60] は、知識の観点から機械忘却を定義しようと試み、知識転送に基づく知識レベルの機械忘却手法を提案しました。

まとめ: Table 6 は主要な機械忘却アルゴリズムを要約しています。正確な忘却は包括的な忘却を保証し、敵対者が忘却済みモデルから貴重な情報を抽出しようとするあらゆる試みを防ぐのに効果的であることが証明されています。ただし、その実装は時間または計算において比較的集中しており、特に DL モデルでは顕著です。さらに、忘却リクエストは一度きりの発生ではなく反復的に発生するため、リソース消費がさらに悪化します。したがって、実行時間と計算を素朴な最初からの再トレーニングよりもはるかに短いレベルに削減することを目的として、効率的な正確な忘却アルゴリズムの開発に向けた多大な努力が払われています。近似忘却の普及は、より計算効率の高い忘却によって動機付けられていますが、忘却の程度とモデル内の機密情報の残留とのトレードオフを伴います。近似忘却の主な目標は、完全な忘却を保証するアルゴリズムを開発することです。

5 分散忘却

ビッグデータと複雑なモデルという二重の圧力の下、集中型機械学習(CML)における大規模 ML トレーニングは、計算能力とストレージ容量の両面で重大な課題に直面しています。これらの課題に対処するため、分散型機械学習(DML)は複数の計算ノードを並列利用して ML モデルをトレーニングします。特に、DML はユーザーのローカルデータのプライバシー情報漏洩を大幅に軽減でき、これらのデータは他の人によってアクセスできないためです。FL、Split Learning、Peer-to-peer、および Private Aggregation of Teacher Ensembles (PATE) を含む異なる DML スキームが存在します。

DML には依然としてプライバシー漏洩リスクが存在します。例えば、FL は Preference Profiling Attacks (PPA) [140] によるユーザーの嗜好の露出に対して脆弱です。さらに、多くの文脈では、データがポイズニングされている場合や無効な場合など、ローカルでデータを削除しながら、そのデータがグローバルモデルに与える影響を忘却する必要があります。したがって、DML 設定において機械忘却を展開することが必要であり、これを分散忘却(DU)と呼びます。

5.1 チャレンジ

しかしながら、既存の MU アルゴリズムのほとんどは CML の下で設計されており、主にデータから情報を取得する方法が異なるため DML に適用できません。現在の DU アルゴリズムは FL 設定に焦点を当てているため、FL を例として DML が直面する課題を分析します。 • データ可用性の観点。データ可用性の観点からは、3 つの主要な問題が生じます。まず、プライバシー懸念によりデータ提供者(クライアント)がデータを共有しないため、サーバーはローカルトレーニングデータセットにアクセスできません(例えば FL)。したがって、サーバー側の再トレーニングは事実上不可能であり、近似忘却のみをサーバーで実行できます。第二に、頻繁に接続・切断するクライアントは、サーバーが以前のクライアントを呼び出して忘却操作を行う際に大きな課題となります。最初から再トレーニングすることはなおさらです [135]。第三に、エッジデバイスなどのクライアントは、ストレージ容量の制限によりローカルトレーニング後にデータを破棄する可能性があるため、クライアントはトレーニングフェーズで使用したデータセットを保持していない可能性があります [113]。 • モデルパラメータの観点。モデルパラメータの観点からは、いくつかの問題を考慮する必要があります。まず、DML におけるトレーニングは対話的です。例えば、クライアントはグローバルモデルを通じて、ローカルトレーニングデータセットから学習した知識を他のクライアントと継続的に共有します [66]。第二に、17 • リソースオーバーヘッドの観点。リソースオーバーヘッドの観点からは、サーバーがクライアントと情報(例えばローカルまたはグローバルモデルパラメータ)を交換する必要があるため、DML は通常 CML に比べて高い通信および時間オーバーヘッドを持ちます。したがって、理想的な機械忘却は DML に追加の高価な通信および時間消費をもたらすべきではありません。

効率性と有効性の両方を達成するために、DU は CML の MU が直面する障害だけでなく、上記の 3 つの固有の課題 [110] も克服する必要があります。したがって、分散学習における忘却は集中型学習よりもはるかに研究が不足しています [66]。

5.2 フェデレーテッド忘却

分散忘却は主に FL に焦点を当てており、Split Learning [128] にはほとんど注意が向けられておらず、ピアツーピアなどの他の分散スキームはまだ探索されていません。したがって、私たちはフェデレーテッド学習設定における分散忘却に焦点を当てます。

フェデレーテッド学習 [33, 139] は、ユーザープライバシーを保護するための方法論として考案されました。モデルトレーニングプロセス中、クライアントはローカルモデルパラメータのみをアップロードし、機密なローカル生トレーニングデータをサーバーと共有する必要がなくなります。FL は直接クライアントのトレーニングデータを使用しないものの、アップロードされたローカルパラメータを通じてローカルで生成されたデータの分析に間接的に関与します。FL 内での機械忘却の展開は、フェデレーテッド忘却(FU)と呼ばれることが多く、機密データを忘却することでモデルのセキュリティと堅牢性を大幅に向上させることができます [110]。

現在の FU アルゴリズムは、主にどのエンティティが忘却を実行するかによって 2 つのカテゴリーに分類されます:サーバーサイドフェデレーテッド忘却とローカルサイドフェデレーテッド忘却。

5.2.1 サーバーサイドフェデレーテッド忘却。ローカルクライアントは共同トレーニング中にサーバーと生トレーニングデータを共有しないため、サーバーで忘却を実行する唯一の方法はグローバルモデル上で近似忘却を使用することです。したがって、クライアントからの計算および通信アクションは必要ありません。Fig. 5a はサーバーサイドフェデレーテッド忘却の概要を示しています。

Liu ら [63] は、クライアントレベルの忘却の研究を先駆的に行い、FedEraser を提案してグローバルモデル上のクライアントの貢献を排除しました。具体的には、サーバーは各 FL ラウンドで各クライアントの履歴更新のすべての記録を維持します。これらの記録は、忘却されたクライアントなしでの数ラウンドのキャリブレーショントレーニングプロセスによって洗練され、忘却プロセスが加速されます。しかしながら、この手法は最初から再トレーニングと比較して限定的な改善しか提供しません。これは主に、クライアントが履歴更新を修正するためにローカルモデルをトレーニングする必要があるためであり、これによりクライアントとサーバー間の追加の通信ラウンドが必要となるためです。FedEraser の問題について、Wu ら [113] は、特に DNN において通信によって消費される大量の時間とエネルギーのために、サーバーとクライアント間の相互作用の回数を減少させる必要性を強調しました。この前提に基づき、彼らは連合グローバルモデルパラメータから蓄積された履歴更新を直接減算し、知識蒸留を使用してモデルのパフォーマンスを維持する解決策を提案しました。これにより、クライアントの貢献を効果的に排除します。ただし、この手法ではサーバーが追加の外部ラベルなしデータを所有している必要があり、これは特定の高度なプライバシーアプリケーション(例えば医療システム)では実現不可能である可能性があります。Zhang ら [135] は DP を FU に適用し、クライアントの履歴提出を活用してグローバルモデルからの勾配残差の加重和を排除しました。さらに、彼らはガウスノイズを構造化することで、忘却済みモデルと再トレーニング済みモデルが統計的に区別できないようにし、個々のクライアントの影響をグローバルモデルから効果的に除去しました。

[113, 135] および FedEraser は、トレーニングデータのサブセットのみ(例えば特定のクラス)を消去する必要がある場合に実用的な使用が制限されるため、 considerable な限界を持っています。また、履歴更新の保存が必要であり、これは特に最先端の大規模モデルにおいて大きなメモリオーバーヘッドを生み出します。これらの問題に対処するため、Wang ら [108] は CNN チャンネルプルーニング手法を活用してカテゴリレベルの FU をガイドしました。彼らは Term Frequency Inverse Document Frequency (TF-IDF) [81] を使用してチャンネルとカテゴリ間の相関を定量化しました。高い TF-IDF スコアを持つチャンネルは、忘却されたカテゴリを区別する上でより重要な役割を果たすため、グローバルモデルへの貢献を消去するためにプルーニングする必要があります。忘却済みモデルのパフォーマンスは、残りのデータセットに基づく微調整によって回復されます。より広範な忘却リクエストニーズに対応するため、より一般的な忘却アルゴリズムが提案されました。Wu ら [116] は、クラス忘却、クライアント忘却、サンプル忘却の 3 つの一般的な FU リクエストを処理できる包括的なパイプラインについて初めて調査を行いました。彼らはトレーニングデータがグローバルモデルパフォーマンスにどのように影響するかを再考し、逆確率的勾配アセントと弾性重み集約の統合を通じて忘却を実現しました。

5.2.2 ローカルサイドフェデレーテッド忘却。サーバー側で近似忘却のみを実行できるため、 に関連する残留機密情報がグローバルモデルに保持されることになります。したがって、一部の研究では、FL における最善の忘却メカニズムはクライアント間で再トレーニングを行うことであると提案されています [15, 66, 110]。この場合、忘却操作はローカル側で実行する必要があります。ただし、エッジデバイスの計算リソースは通常制限されているため、現在の主な関心事項は、グローバルモデルの有用性を維持しつつ低コストで高速な忘却手法をローカル側に設計することです。Fig. 5b はローカルサイドフェデレーテッド忘却の概要を示しています。

Liu ら [66] は、トレーニング済みグローバルモデルからデータポイントを完全に消去するための迅速な再トレーニング手法を開発しました。この手法は対角経験 FIM を使用してニュートン近似を行い、準ニュートン最適化を実現し、モメンタム技術を通じて低コストでモデルの有用性を維持します。ただし、この手法は凸損失関数を持つモデルにのみ適用可能です。Wang ら [110] は、変分ベイズ推論に基づくパラメータ自己共有アルゴリズムを提案し、特定のデータポイントを忘却しました。これにより、忘却によって引き起こされる精度の低下を緩和し、忘却の有効性とモデルの有用性とのトレードオフをバランスさせます。Che ら [15] は、集中型学習における以前の研究 [138] を基に、FL 内でトレーニングと忘却プロセスを同時に実装するための最初の手法を導入しました。[138] を利用することで、各ローカルクライアントでローカル忘却済みモデルがトレーニングされます。その後、非線形関数解析の理論を活用して Nemytskii オペレータの出力関数としてローカル忘却済みモデルを洗練し、グローバル忘却済みモデルが各ローカル忘却済みモデルのパフォーマンスに密接に平行することを保証し、忘却を大幅に高速化します。Zhu ら [141] は、認知神経科学に基づくユニークな異種知識グラフ埋め込み忘却を提供しました。後方干渉と受動的減衰を組み合わせることで、特定の知識をローカルクライアントから消去し、知識蒸留を通じてグローバルモデルに伝播します。

まとめ: Table 7 に示すように、サーバー側で実行される FU は、クライアントへの追加通信を伴わずに比較的迅速に忘却リクエストを完了できます。ただし、顕著な欠点があります。まず、忘却は完全ではなく、機密情報がグローバルモデルに残存しています [15, 66, 110]。第二に、現在の多くの手法はトレーニングフェーズ中にサーバーに保存された情報(例えば履歴更新)に基づいています [63, 113]。これは特に複雑なモデルにおいて大きな追加ストレージ負担を生み出します。

ローカル側で実行されるフェデレーテッド忘却は、サーバー側が直面する欠点を解決できます。再トレーニングを通じてより完全な忘却を可能にし、サーバー(モデルプロバイダー)の不正による悪影響を防ぎます。これは忘却プロセスがローカルで発生するためです。ただし、欠点もあります。一つはエッジデバイスの計算能力が不十分であること、特に大規模データセットや複雑なモデルに直面した場合です。もう一つは、効果的な迅速再トレーニングアルゴリズムを達成することが依然として困難であることです。

6 機械忘却の応用

機械忘却は主に、法的および個人的要件に従ってユーザーデータのプライバシーを保護するために使用されます。近年、Table 8 に示すように、その適用範囲は他のアプリケーションに拡大しています。まず、悪意のある、古びた、または敵対的なデータによって引き起こされる潜在的な害を軽減しモデルを最適化するために活用できます。これは特に Recommendation Systems (RES) [16]、Internet of Things (IoT) [30]、および Large Language Models (LLMs) [126] などの分野で関連性が高いです。さらに、モデルの堅牢性を向上させるための効果的な防御メカニズムとして機能します。データポイズニング攻撃やバックドア攻撃からのダメージを軽減するための受動的防御として使用でき、メンバーシップ推論攻撃、プロパティ推論攻撃、モデル逆引き攻撃などのさまざまなプライバシー攻撃を無力化するための能動的防御としても使用できます。

6.1 モデルの最適化

機械忘却は、現実世界の多様なシナリオでモデルを最適化し、プライバシー漏洩のリスクと有害データの影響を排除することで、モデルの堅牢性を向上させることができます。現在、3 つの主要なアプリケーションシナリオがあります:LLMs、RES、および IoT。

6.1.1 大規模言語モデルのための忘却。最先端の LLMs は、幅広い世界知識を取得するために膨大なインターネットコーパスでトレーニングされています [126]。代表例として ChatGPT は翻訳や質問応答などのタスクを処理できます [29, 97]。ただし、トレーニングプロセスにより LLMs が機密または有害データを記憶・再生産する可能性があります。これにより、人種差別、性差別、宗教的バイアスに関連する望ましくない問題が現れ、法的および倫理的懸念を引き起こします。この文脈では、機械忘却は特定のデータを忘却することで LLMs のセキュリティを確保し、倫理基準に準拠し、バイアスを排除するのに役立ちます。

課題。従来の機械忘却手法は 2 つの主な理由により LLMs には適さない可能性があります。まず、LLMs のパラメータ空間は非常に大規模であり、データポイントの影響を追跡することが困難であるためです。また、モデル再トレーニング計算も非常に大規模です。第二に、従来の忘却手法は主に分類タスクのために設計されていますが、LLMs は知識集約型であり生成タスクに使用されます [94]。

手法。Yao ら [126] は初めて LLMs 忘却の設定、目標、評価を定式化しました。Eldan ら [28] は、LLM からトレーニングデータのサブセットを削除するための忘却手法を提案しました。まず、強化モデルを使用して忘却ターゲットと最も関連するトークンを識別します。第二に、彼らはモデルの

INTRODUCTION(続き)

token ごとに代替ラベルを構築する予測を行う。第三に、モデルはこれらの代替ラベル上でファインチューニングされ、結果として元のテキストがモデルのメモリーから効果的に忘却された。Chen ら [17] は、忘却すべき知識を特定できる選択的教師-学生目的関数で学習した追加の忘却層をトランスフォーマーに導入した。異なる訓練済み忘却層のオフライン融合を通じて一連の忘却操作を処理できる。Maini ら [71] は、unlearning の理解を深めるためのベンチマークとして、架空の忘却タスクである tofu を提案した。また、既存の忘却アルゴリズム(例:勾配差分 [61])からの一連のベースライン結果も提供している。機械忘却技術の適用は、大規模言語モデル(LLMs)の倫理的感度とプライバシーを大幅に向上させた。

6.1.2 リコメンデーションシステムのための忘却

リコメンデーションシステムは、収集したデータからユーザーの嗜好を分析し、最も関連性の高いアイテムを推薦するパーソナライズされた情報フィルタである。トレーニングフェーズを通じて、リコメンデーションモデルのパラメータはユーザー行動を記憶することができ、これがプライバシー漏洩のリスクをもたらす。これにより、モデル内の特定のデータや個人の嗜好を忘却することを可能にするリコメンデーション忘却が開発された [64]。

課題。分類タスクに従事する汎用的な機械学習モデル向けに設計された忘却方法は、リコメンデーションシステムには直接適用できない。その理由は、ほとんどのリコメンデーションシステムの基本原理が協調フィルタリングであるのに対し、既存の MU 手法はユーザーとアイテム間の協調情報を無視しているためである [58, 59]。

手法。Chen ら [16] は、データの類似性を利用してトレーニングデータをバランスの取れたグループに分割し、データ内の協調情報を保持しつつモデルの有用性、セキュリティ、適用性を向上させるリコメンデーションシステム向けに特別に設計された忘却アルゴリズムを提案した。Yuan ら [129] はフェデレーテッドリコメンデーションシステムに関心を寄せ、トランザクションのログベースのロールバックメカニズムに触発され、ユーザーのリコメンデーショントレーニングプロセスへの貢献を効率的に撤回できる方法を考案し、モデルの堅牢性を向上させ、悪意のあるクライアントからの潜在的な攻撃に対する耐性を強化した。さらに、[57] は、検証可能性、効率性、正確性に焦点を当てたリコメンデーション忘却の評価のための包括的なフレームワークを開発した。2023 年以降、影響力関数 [136]、行列補完 [121]、相互作用およびマッピング行列の修正 [64]、さらには敵対的トレーニング [34] に基づく多様な技術に基づくリコメンデーション忘却手法を設計する研究が増加している。機械忘却は、よりプライバシー保護され、安全で、信頼性があり、有用で、責任あるリコメンデーションシステムの発展を促進する。

6.1.3 インターネット・オブ・シングス(IoT)のための忘却

インターネット・オブ・シングス(Internet of Things, IoT)は、インターネット上でデータを収集および交換できる相互接続された物理デバイスやオブジェクトのネットワークであり、さまざまなアプリケーションの遠隔監視と制御を可能にする。IoT サービスプロバイダーは、ラベル付けミス、デバイスのファームウェアアップグレード、またはサービス提供中のデータ汚染などの問題により、交通異常検出のためのディープラーニング(DL)ベースの検出モデルを更新する課題に頻繁に直面している。これは機械忘却を適用する緊急性を示している。

課題。IoT は通常時間制約が厳しく、リアルタイムまたはニアリアルタイムのデータフィードバックが必要であるため、IoT 向けの忘却プロセスは迅速に対応して完了しなければならない [30]。

手法。Fan ら [30] は ViFLa と呼ばれる方法を導入し、計算された忘却確率に基づいてトレーニングデータをグループ化し、各グループを個別の仮想クライアントと見なす。ViFLa は、IoT 交通異常検出におけるモデル更新の有効性と完全性を向上できる。Zeng ら [132] は、パーソナライズされた IoT のサービス品質予測のための効果的な忘却フレームワークである CADDEraser を提案し、忘却リクエスト後のモデル有用性を向上させた。機械忘却は、IoT システム内のセキュリティ、可用性、忠実度、プライバシーの次元を大幅に強化できる。

6.2 攻撃に対する防御

図 6 に示すように、データポイズニング攻撃やバックドア攻撃に直面した場合、機械忘却はモデルへの攻撃の悪影響を除去し、モデル有用性を回復するための受動的防御として機能できる。さらに、さまざまなプライバシー攻撃に対して、機械忘却は事前に関係する機密データを忘却することで能動的な防御として機能し、敵対者がそのデータに関連するプライバシー情報を推論することを防ぐことができる。

6.2.1 受動的防御

モデルがデータポイズニングやバックドア攻撃 [37] にさらされた後、機械忘却は、悪意のある敵対者に由来する汚染されたメモリーを、汚染されたデータを忘却したり、バックドアトリガーを忘却したりすることで浄化する。 • データポイズニング攻撃に対する防御。データポイズニング攻撃とは、敵対者が戦略的に数多くの注意深く作られた汚染サンプルをモデルのトレーニングデータセットに挿入することを指す。トレーニングまたはファインチューニングプロセス中に、これらのサンプルがモデルを汚染する。その結果、テストフェーズにおいてモデルは異常な振る舞いを示す。例えば、良性サンプルが悪意あるものとして誤分類される一方で、本物の悪意のあるデータが検出を回避し、モデルの整合性と有用性が損なわれる。 [76] では、敵対者が良性サンプルに見られない特徴を注入することで、Zozzle のトレーニングデータに悪意あるサンプルを作成する。防御プロセスは以下の通りである:まず、特徴抽出が行われる。第二に、特定の特徴の chi 値が閾値を満たさない場合、その特徴が忘却プロセスの対象となり、結果としてモデルから忘却される。結果は、この防御メカニズムが極めて成功しており、まるでデータポイズニング攻撃が一度も発生しなかったかのように見えたことを示している。 • バックドア攻撃に対する防御。バックドア攻撃とは、敵対者がトレーニングプロセス中にモデルにバックドアを注入し、遠隔アクセスと制御を可能にするものを指す。このバックドアがトリガーされていない場合、攻撃されたモデルは通常のモデルと同様に振る舞う [82]。しかし、隠れたバックドアがアクティブ化されると、攻撃されたモデルは特定の行動を行うようになる [65]。 2022 年、Zeng ら [131] は、バックドアを除去するための普遍的敵対的摂動を提案した。しかし、この手法は、サンプルに埋め込まれているかどうかに関わらず、同じトリガーによってバックドアがアクティブ化されると仮定している。これは、サンプル固有または非付加的トリガーを使用したより高度な攻撃に対する防御がないことを意味する [112]。Liu ら [65] は BAERASER を提案し、まずエントロピー最大化に基づく生成モデルを使用してトリガーパターンの回復を行い、被害者モデルに感染したトリガーパターンを抽出した。その後、これらの回復されたパターンを使用してバックドア注入手順を逆転させ、特別に設計された勾配昇降法に基づく機械忘却手法を用いてモデルが汚染されたメモリーを消去するよう促し、結果としてバックドア効果が効果的に除去できることを示した。2023 年、Zhang ら [137] は、トレーニング済みビーム選択モデルからのバックドア除去問題に対処するために、ラベルスムージングとともに敵対的忘却手法を提案した。Wei ら [112] は共有敵対的忘却を提案し、その第一歩は共有敵対的例(SAEs)を生成することであり、その後 SAEs を忘却して純化されたモデルで正しく分類できるようにし、純化されたモデル内のバックドア効果を軽減する。

6.2.2 能動的防御

モデルがさまざまなプライバシー攻撃にさらされる前に、機械忘却は、ユーザーのプライベートデータに関連する機密情報をモデルから積極的に排除できる。その結果、敵対者は忘却されたデータがトレーニングデータセットの一部であったかどうかを確認できず、関連する属性情報を取得したり、データを再構築しようとしたりすることができない。 • メンバーシップ推論攻撃に対する防御。メンバーシップ推論攻撃は、特定のデータポイントがトレーニングデータセットに存在しているかどうかを決定することを目的とする。敵対者は、トレーニングデータと非トレーニングデータ上のターゲットモデルの振る舞い(出力確率または信頼度スコア)の違いを利用してメンバーシップ推論を実行する。 研究 [3, 40, 42, 106] は、異なる機械忘却アルゴリズム(セクション 4 で詳細に記載)を使用してモデル内のターゲットデータの影響を排除し、これによりこの攻撃を効果的に防止している。成功した忘却後、モデルはターゲットデータに関する機密情報を保持しないため、攻撃を防ぐ。 • プロパティ推論攻撃に対する防御。Ganju ら [35] は、機械学習モデル内の基礎となるトレーニングデータの統計的特性を抽出することを意図したプロパティ推論攻撃を導入した。具体的には、敵対者は通常、アクセス可能なデータ内のパターンと相関関係を利用して未知の機密プロパティを推論する。 Stock ら [96] は、ホワイトボックスプロパティ推論攻撃に対する効果的な防御として最初のプロパティ忘却を提案した。この手法は、ターゲットモデル内の訓練済み重みとバイアスを体系的に変更し、敵対者がプロパティを推論することを防ぐ。 • モデル逆転攻撃に対する防御。モデル逆転攻撃の敵対者は、ML モデルへのアクセスを使用してトレーニングデータに関する機密詳細を再構築する。例えば、彼らは元のトレーニングデータの特徴を再構築するためにモデルの出力を注意深く分析する可能性がある。 [42, 106] で説明されている通り(セクション 4 で詳細に記載)、機械忘却はモデル内のターゲットデータに関するプライバシー情報を排除する。したがって、忘却を完了したモデルはターゲットデータの痕跡を除去する。

まとめ: データプライバシーの向上に加えて、機械忘却はさまざまなアプリケーションで大きな可能性を有している。上記の応用以外でも、事前訓練済み生成敵対ネットワーク(GANs)において望ましくない特徴を含む出力の生成を防ぐために使用できる [102]。さらに、機械学習ベースのアクセス制御システム管理 [68] に有用であり、再トレーニングなしで概念ドリフト [5] にも適用可能である。バイアスを軽減するための医療分類において無価値ではなく、ライフタイム異常検出 [25] や因果推論 [84] においても同様である。さらに、モデル内の重要かつ貴重なデータサンプルを特定し、公平性の問題に対処するのを助ける目的に役立つ。

7 機械忘却に対する攻撃

機械忘却の動的性質がデータ提供者のプライバシーを保護する一方で、忘却されたデータの痕跡を無意識に露呈させる可能性がある。これは潜在的に敵対者に新たな攻撃経路を提供し、結果として忘却済みモデルが元のモデルよりも脆弱になる [24]。例えば、過剰な忘却はパラメータの大幅な変化をもたらす可能性があり、これは「ストライサンド効果(Streisand effect)」と呼ばれる現象である。敵対者はこれらの変化を鋭く検出し、潜在的なプライバシー侵害を引き起こす可能性がある。これは、プライバシー保護という機械忘却の基本的な設計思想に反する。セクション 2 で言及したように、忘却アルゴリズムには 4 つのプロパティがあり、忘却済みモデルに対する異なる攻撃がこれらのプロパティを危険にさらす。例えば、メンバーシップ推論攻撃はプライバシーデータを脅かし、忘却の有効性を損なう。データポイズニング攻撃は高いレイテンシと計算オーバーヘッドをもたらす可能性があり、それによって忘却効率を損なう。さらに、データポイズニング攻撃と過剰忘却攻撃の両方が、忘却済みモデルの有用性を低下させる可能性がある。

7.1 MU 固有のメンバーシップ推論攻撃

7.1.1 脅威モデル

敵対者の目標 はしばしば よりも多くの貴重な機密情報を含む傾向があるため、メンバーシップ推論攻撃の目標は、ターゲットサンプルが忘却データであるかどうかを決定することである [20]。より一般的には、図 7 に示すように、敵対者はターゲットサンプル に属するが には属さないことを推論することを目的とする [56, 69]。 • 仮定。敵対者がモデルの内部構造に関する知識を持たないが、ターゲット元のモデルと忘却済みモデルの両方にブラックボックスアクセスを持っていると仮定する [20]。さらに、敵対者はターゲットモデルの振る舞いを模倣するために使用できるローカルシャドウデータセットを所有している。シャドウモデルは攻撃用メタモデルのためのトレーニングメタデータを生成するために使用できる [56, 69]。

7.1.2 攻撃手法

2021 年、Chen ら [20] は、機械忘却によって引き起こされる意図しないプライバシー漏洩を初めて調査し、忘却前後のモデルの異なる出力(事後確率)を利用してターゲットサンプルが にあるかどうかを決定する新しいメンバーシップ推論攻撃を提案した。また、温度スケーリング、予測ラベルのみを公開すること、および微分プライバシーがこの攻撃に対して効果的に防御できることを指摘した。その後、2022 年、Lu ら [69] は、予測ラベルのみを公開する忘却済みモデルでさえも依然として脆弱であることを強調し、事後確率に依存しないメンバーシップ推論攻撃を提案した。彼らはターゲットサンプルに摂動を注入することで元のモデルと忘却済みモデル間の異なる予測を観察した。これらの異なる予測は、サンプルが の一部であったかどうかを推論するために使用できる。しかし、この攻撃の計算コストは高い。

7.2 MU 固有のデータポイズニング攻撃

7.2.1 脅威モデル

敵対者の目標。データポイズニング攻撃を通じて達成できる目的が 2 つある。第一に、敵対者は頻繁に忘却プロセスをトリガーすることで、モデルプロバイダーから約束された忘却効率の向上を減少させることを目指す [72]。第二に、忘却済みモデルがデータを誤分類し、特定のサンプルに対する予測精度を低下させることである [24]。 • 仮定。異なる目的に対して、攻撃は異なる仮定に基づいている。第一の目的の場合、敵対者がターゲットモデルへのホワイトボックスおよびグレーボックスアクセスを持っていると仮定する [72]。ホワイトボックス設定では、敵対者はモデル構造と状態、良性ユーザーのトレーニングデータにアクセスできる能力を持つ。グレーボックス設定では、敵対者はモデルアーキテクチャのみを知る [72]。第二の目的の場合、敵対者がターゲットモデルアーキテクチャと勾配にアクセスできるグレーボックスアクセスを持っていると仮定する [24]。

7.2.2 攻撃手法

Marchant ら [72] は、忘却効率を対象とした最初のデータポイズニング攻撃であるスローダウン攻撃を提案した。この攻撃は、典型的に必要なよりもはるかに多くの忘却プロセスをトリガーするために注意深いノイズ追加を通じて汚染スキームを作成し、計算および時間消費を大幅に増加させる。これは従来のサービス拒否(DoS)攻撃に似ている。Di ら [24] は、特定のサンプルに対するモデルの予測性能を低下させようとした。彼らはカモフラージュデータポイントを作成して汚染されたデータセットの悪影響をマスクし、忘却済みモデルがターゲットテストポイントを誤分類するようにし、標的化されたポイズニング攻撃を実現した。

7.3 過剰忘却攻撃(Over-unlearning Attack)

7.3.1 脅威モデル

敵対者の目標。MLaaS(機械学習としてのサービス)において、敵対者(悪意のあるユーザー)は忘却済みモデルの有用性を損なう可能性がある。彼らは、モデルプロバイダーに特別に作られたデータを忘却するよう要求し、モデルが予想される以上に多くの情報を忘却(通常の忘却リクエストより多く)するようにして、モデルの予測性能を低下させるという目標を達成する [48]。 • 仮定。敵対者はモデルへのブラックボックスアクセスのみを持ち、忘却プロセスはサーバー側で発生する [48]。

7.3.2 攻撃手法

Hu ら [48] は過剰忘却攻撃を提案した。これは、異なるタスクからの追加サンプル(作られたデータとして)を にブレンドすることを含む。モデルプロバイダーが作られたデータを排除しようとする際、モデルは他のタスクに関連する追加情報を無意識に破棄する。これにより過剰忘却が生じ、結果として忘却済みモデルの予測性能が低下する。彼らはまた、過剰忘却攻撃とデータポイズニング攻撃の間の根本的な違いを指摘した。類似しているものの、過剰忘却は、トレーニングまたは再トレーニング手順の包含を必要としないブレンドシナリオにおける近似忘却を対象としているが、これは通常データポイズニング攻撃にとって重要である。

まとめ: 機械忘却に対する攻撃はまだ比較的少ないが、忘却プロセスのセキュリティを考慮することは重要である。これらの攻撃は、機械忘却アルゴリズムの有効性を評価し、これらの脆弱性を回避するためのより良いアルゴリズムの構築をガイドする検証指標として機能できる可能性がある。表 9 は、既存の機械忘却に対する攻撃の限界を要約している。一部の攻撃は厳格な条件を必要とし、一部は適用範囲が狭く、一部は最近提案された機械忘却アルゴリズムによって緩和可能である。

8 課題と展望

ここでは、機械忘却の課題を強調し、革新的な研究のための指針となる有望な将来の方向性を提示する。

8.1 実用的で統一された検証指標

現在、忘却の品質を検証するための統一基準はなく、既存の検証指標が以下の理由により不十分であると認識している: • 検証指標はモデルに悪影響を及ぼしてはならない。しかしながら、一部の指標はモデルの予測能力を損ない、潜在的なプライバシー脅威をもたらす。例えば、ウォーターマークベースの指標はしばしばモデルにバックドアを組み込み、その予測精度を低下させる [36, 95]。 • 検証指標は一般ユーザーにとって理解しやすく導入しやすいものでなければならない。しかしながら、多くの指標はこの要件を満たしていない。例えば、暗号化ベースの指標 [27] は、非セキュリティユーザーにとって検証プロセスが理解しにくいという課題をもたらす。 したがって、安全で効果的、実装が容易、かつ理解可能な検証指標を統一基準として設計することは慎重に検討する価値がある。

8.2 汎用的機械忘却(Generalized Machine Unlearning)

従来の機械忘却は実用的なアプリケーションには適用されていない [56]。これは主に、データ間の固有の接続を考慮しておらず、モデル構造を破壊する可能性があるためである。さらに、さまざまなアプリケーションに応じて、忘却は異なる目的と優先順位を持つべきである [56]。例えば、プライバシー重視のアプリケーションでは、主な目的はプライバシー保護であり、ある程度モデルのパフォーマンスを犠牲にすることは許容される。一方、モデルが古いデータを削除する必要がある場合、主な目的はモデルのパフォーマンスを維持することであり、したがって無関係な関連情報を残すことになる [56]。さらに、既存の忘却手法の大半は分類タスクを対象としている。回帰および生成タスクに関する研究が不足しており、機械忘却のより広範な適用を妨げている。したがって、異なる実世界のアプリケーションに適用される汎用的機械忘却を求めることは極めて重要である。

8.3 効果的かつ効率的な分散忘却(Effectiveness and Efficient Distributed Unlearning)

現在、分散忘却に関する研究は限られている。第一に、分散忘却の研究は主に FL(フェデレーテッド学習)設定に焦点を当てている。しかしながら、スプリットラーニング、協調学習、ピアツーピア学習などの他の分散型機械学習設定も、「忘れられる権利」やユーザーの要求を満たし、モデルの堅牢性とプライバシーを向上させるためにデータを忘却する必要がある。第二に、現在のフェデレーテッド忘却手法は、有効性と効率性の両方を同時に満たすことができない。例えば、一部の手法ではサーバー側で忘却が実施されるが、忘却されたデータに関する機密情報は依然としてグローバルモデルに残っている [63, 113]。さらに、一部の手法では忘却プロセス中にサーバーとクライアント間の相互作用が必要であり、時間消費が過剰になる [15, 66, 110, 138, 141]。したがって、さまざまな分散学習設定で有効かつ効率的な忘却の実装を探求する価値がある。

8.4 特徴およびタスクのための忘却(Unlearning for Features and Tasks)

現在の忘却アルゴリズムはクラスベースおよびサンプルベースのリクエストに焦点を当てており、これはユーザーの要求を満たすには不十分である。第一に、プライバシー漏洩は特定の共有データセットから生じる可能性がある [111]。信用評価サービスを例にとると、バイアスを防止するために申請者の婚姻状況や宗教的信念などの特定の特徴を忘却することが不可欠である。さらに、機械学習モデルは単一のタスクだけでなく複数のタスクのために訓練される [62]。そのような設定では、特定のタスクに関連するプライバシーデータを削除する必要がある [62]。例えば、パーソナライズされた学術支援のために設計された AI チュートリアを想像せよ。学生のコース完了後、AI チュートリアルは当該学生向けに特別に設計された個別の指導戦略を忘却する必要があるかもしれない。両方の状況において、計算コストが高くモデル有用性が低下する可能性があるため、サンプルを逐次的に忘却することは推奨されない。したがって、特徴またはタスクレベルでの忘却が、多様な実世界の要件に対処するために不可欠である。

まとめ: 機械忘却は開発の初期段階にあり、対処が必要なさまざまな課題に直面している。上記の方針(図 8 に示す)は将来の研究にとって有望な可能性を有しており、前例のない進展をもたらすだろう。これらの洞察が研究者たちの継続的な探求に刺激を与えることを願っている。

9

結論

近年、多くの法的規制が出現し、サービスプロバイダーに対し、ユーザーのデータおよびそのモデルへの影響を要求に応じて迅速かつ効果的に削除することを求めている。機械忘却(MU)は、「忘れられる権利」を満たすことができる新たな技術である。本調査では、機械忘却に関する包括的な紹介を行い、関心のある学者のための基礎知識を提供した。MU の実用的な実施を確保するために、検証と評価指標を区別し、それぞれについて体系的に要約・分類した。さらに、正確な忘却(Exact Unlearning)および近似忘却(Approximate Unlearning)のカテゴリーにおいて、使用される異なる基盤戦略に基づいたより詳細な下位分類を提供した。加えて、本調査は、特に集中された連合学習(Federated Learning)に焦点を当てた、分散学習設定における MU の分析を強調している。さらに、MU 応用の顕著な可能性を指摘し、MU に対する特定の攻撃について要約した。最後に、既存の課題を強調し、探索する価値のある潜在的な将来方向について展望を示した。

参考文献

[1] 2018. カリフォルニア州消費者プライバシー法(CCPA). https://oag.ca.gov/privacy/ccpa. [2] 2018. 一般データ保護規則(GDPR). https://gdpr-info.eu/. [3] Aditya Golatkar and Alessandro Achille and Stefano Soatto. 2020. Forgetting Outside the Box: Scrubbing Deep Networks of Information Accessible from Input-Output Observations. In Computer Vision - ECCV 2020 - 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part XXIX (Lecture Notes in Computer Science, Vol. 12374). 383–398. [4] Devansh Arpit, Stanislaw Jastrzebski, Nicolas Ballas, David Krueger, Emmanuel Bengio, Maxinder S. Kanwal, Tegan Maharaj, Asja Fischer, Aaron C. Courville, Yoshua Bengio, and Simon Lacoste-Julien. 2017. A Closer Look at Memorization in Deep Networks. In Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017 (Proceedings of Machine Learning Research, Vol. 70). 233–242. [5] André Artelt, Kleanthis Malialis, Christos G. Panayiotou, Marios M. Polycarpou, and Barbara Hammer. 2023. Unsupervised Unlearning of Concept Drift with Autoencoders. In IEEE Symposium Series on Computational Intelligence, SSCI 2023, Mexico City, Mexico, December 5-8, 2023. IEEE, 703–710. [6] Ayush Kumar Tarun and Vikram Singh Chundawat and Murari Mandal and Mohan S. Kankanhalli. 2023. Deep Regression Unlearning. In International Conference on Machine Learning, ICML 2023, 23-29 July 2023, Honolulu, Hawaii, USA (Proceedings of Machine Learning Research, Vol. 202). 33921–33939. [7] Peter J. Bevan and Amir Atapour-Abarghouei. 2022. Skin Deep Unlearning: Artefact and Instrument Debiasing in the Context of Melanoma Classification. In International Conference on Machine Learning, ICML 2022, 17-23 July 2022, Baltimore, Maryland, USA (Proceedings of Machine Learning Research, Vol. 162). PMLR, 1874–1892. [8] Lucas Bourtoule, Varun Chandrasekaran, Christopher A. Choquette-Choo, Hengrui Jia, Adelin Travers, Baiwu Zhang, David Lie, and Nicolas Papernot. 2021. Machine Unlearning. In 42nd IEEE Symposium on Security and Privacy, SP 2021, San Francisco, CA, USA, 24-27 May 2021. 141–159. [9] Jonathan Brophy and Daniel Lowd. 2021. Machine Unlearning for Random Forests. In Proceedings of the 38th International Conference on Machine Learning, ICML 2021, 18-24 July 2021, Virtual Event (Proceedings of Machine Learning Research, Vol. 139). 1092–1104. [10] Xiaoyu Cao, Jinyuan Jia, and Neil Zhenqiang Gong. 2021. IPGuard: Protecting intellectual property of deep neural networks via fingerprinting the classification boundary. In Proceedings of the 2021 ACM Asia Conference on Computer and Communications Security. 14–25. [11] Yinzhi Cao and Junfeng Yang. 2015. Towards Making Systems Forget with Machine Unlearning. In 2015 IEEE Symposium on Security and Privacy, SP 2015, San Jose, CA, USA, May 17-21, 2015. 463–480. [12] Yinzhi Cao, Alexander Fangxiao Yu, Andrew Aday, Eric Stahl, Jon Merwine, and Junfeng Yang. 2018. Efficient Repair of Polluted Machine Learning Systems via Causal Unlearning. In Proceedings of the 2018 on Asia Conference on Computer and Communications Security, AsiaCCS 2018, Incheon, Republic of Korea, June 04-08, 2018. 735–747. [13] Nicholas Carlini, Chang Liu, Úlfar Erlingsson, Jernej Kos, and Dawn Song. 2019. The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks. In 28th USENIX Security Symposium, USENIX Security 2019, Santa Clara, CA, USA, August 14-16, 2019. 267–284. [14] Gert Cauwenberghs and Tomaso A. Poggio. 2000. Incremental and Decremental Support Vector Machine Learning. In Advances in Neural Information Processing Systems 13, Papers from Neural Information Processing Systems (NIPS) 2000, Denver, CO, USA. MIT Press, 409–415. [15] Tianshi Che, Yang Zhou, Zijie Zhang, Lingjuan Lyu, Ji Liu, Da Yan, Dejing Dou, and Jun Huan. 2023. Fast Federated Machine Unlearning with Nonlinear Functional Theory. In International Conference on Machine Learning, ICML 2023, 23-29 July 2023, Honolulu, Hawaii, USA (Proceedings of Machine Learning Research, Vol. 202). 4241–4268. [16] Chong Chen, Fei Sun, Min Zhang, and Bolin Ding. 2022. Recommendation Unlearning. In WWW ’22: The ACM Web Conference 2022, Virtual Event, Lyon, France, April 25 - 29, 2022. ACM, 2768–2777. [17] Jiaao Chen and Diyi Yang. 2023. Unlearn what you want to forget: Efficient unlearning for llms. arXiv preprint arXiv:2310.20150 (2023). [18] Min Chen, Weizhuo Gao, Gaoyang Liu, Kai Peng, and Chen Wang. 2023. Boundary Unlearning: Rapid Forgetting of Deep Networks via Shifting the Decision Boundary. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2023, Vancouver, BC, Canada, June 17-24, 2023. 7766–7775. [19] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374 (2021). [20] Min Chen, Zhikun Zhang, Tianhao Wang, Michael Backes, Mathias Humbert, and Yang Zhang. 2021. When Machine Unlearning Jeopardizes Privacy. In CCS ’21: 2021 ACM SIGSAC Conference on Computer and Communications Security, Virtual Event, Republic of Korea, November 15 - 19, 2021. ACM, 896–911. [21] Yuantao Chen, Jie Xiong, Weihong Xu, and Jingwen Zuo. 2019. A novel online incremental and decremental learning algorithm based on variable support vector machine. Clust. Comput. 22, Supplement (2019), 7435–7445. [22] Jun Cheng, Guido Novati, Joshua Pan, Clare Bycroft, Akvil˙e Žemgulyt˙e, Taylor Applebaum, Alexander Pritzel, Lai Hong Wong, Michal Zielinski, Tobias Sargeant, et al. 2023. Accurate proteome-wide missense variant effect prediction with AlphaMissense. Science 381, 6664 (2023), eadg7492. [23] Vikram S. Chundawat, Ayush K. Tarun, Murari Mandal, and Mohan S. Kankanhalli. 2023. Can Bad Teaching Induce Forgetting? Unlearning in Deep Networks Using an Incompetent Teacher. In Thirty-Seventh AAAI Conference on Artificial Intelligence, AAAI 2023, Thirty-Fifth Conference on Innovative Applications of Artificial Intelligence, IAAI 2023, Thirteenth Symposium on Educational Advances in Artificial Intelligence, EAAI 2023, Washington, DC, USA, February 7-14, 2023. 7210–7217. [24] Jimmy Z. Di, Jack Douglas, Jayadev Acharya, Gautam Kamath, and Ayush Sekhari. 2022. Hidden Poison: Machine Unlearning Enables Camouflaged Poisoning Attacks. CoRR abs/2212.10717 (2022). https://doi.org/10.48550/ARXIV.2212.10717 arXiv:2212.10717 [25] Min Du, Zhi Chen, Chang Liu, Rajvardhan Oak, and Dawn Song. 2019. Lifelong Anomaly Detection Through Unlearning. In Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security, CCS 2019, London, UK, November 11-15, 2019. ACM, 1283–1297. [26] Hua Duan, Hua Li, Guoping He, and Qingtian Zeng. 2007. Decremental learning algorithms for nonlinear langrangian and least squares support vector machines. In Proceedings of the First International Symposium on Optimization and Systems Biology (OSB’07). 358–366. [27] Thorsten Eisenhofer, Doreen Riepel, Varun Chandrasekaran, Esha Ghosh, Olga Ohrimenko, and Nicolas Papernot. 2022. Verifiable and Provably Secure Machine Unlearning. (Oct 2022). [28] Ronen Eldan and Mark Russinovich. 2023. Who’s Harry Potter? Approximate Unlearning in LLMs. (Oct 2023). [29] Holly Else. 2023. Abstracts written by ChatGPT fool scientists. Nature (Jan 2023), 423–423. [30] Jiamin Fan, Kui Wu, Yang Zhou, Zhengan Zhao, and Shengqiang Huang. 2023. Fast Model Update for IoT Traffic Anomaly Detection With Machine Unlearning. IEEE Internet Things J. 10, 10 (2023), 8590–8602. [31] Daniel Felps, Amelia Schwickerath, Joyce Williams, Trung Vuong, Alan Briggs, Matthew Hunt, Evan Sakmar, David Saranchak, and Tyler Shumaker. 2021. Class Clown: Data Redaction in Machine Unlearning at Enterprise Scale. In Proceedings of the 10th International Conference on Operations Research and Enterprise Systems. [32] Matt Fredrikson, Somesh Jha, and Thomas Ristenpart. 2015. Model inversion attacks that exploit confidence information and basic countermeasures. In Proceedings of the 22nd ACM SIGSAC conference on computer and communications security. 1322–1333. [33] Anmin Fu, Xianglong Zhang, Naixue Xiong, Yansong Gao, Huaqun Wang, and Jing Zhang. 2022. VFL: A Verifiable Federated Learning With Privacy-Preserving for Big Data in Industrial IoT. IEEE Trans. Ind. Informatics 18, 5 (2022), 3316–3326. https://doi.org/10.1109/TII.2020.3036166 [34] Christian Ganhör, David Penz, Navid Rekabsaz, Oleg Lesota, and Markus Schedl. 2022. Unlearning Protected User Attributes in Recommendations with Adversarial Training. In SIGIR ’22: The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, Madrid, Spain, July 11 - 15, 2022. 2142–2147. [35] Karan Ganju, Qi Wang, Wei Yang, Carl A. Gunter, and Nikita Borisov. 2018. Property Inference Attacks on Fully Connected Neural Networks using Permutation Invariant Representations. In Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security, CCS 2018, Toronto, ON, Canada, October 15-19, 2018. 619–633. [36] Xiangshan Gao, Xingjun Ma, Jingyi Wang, Youcheng Sun, Bo Li, Shouling Ji, Peng Cheng, and Jiming Chen. 2022. Verifi: Towards verifiable federated unlearning. arXiv preprint arXiv:2205.12709 (2022). [37] Yansong Gao, Bao Gia Doan, Zhi Zhang, Siqi Ma, Jiliang Zhang, Anmin Fu, Surya Nepal, and Hyoungshick Kim. 2020. Backdoor attacks and countermeasures on deep learning: A comprehensive review. arXiv preprint arXiv:2007.10760 (2020). [38] Ryan Giordano, William T. Stephenson, Runjing Liu, Michael I. Jordan, and Tamara Broderick. 2019. A Swiss Army Infinitesimal Jackknife. In The 22nd International Conference on Artificial Intelligence and Statistics, AISTATS 2019, 16-18 April 2019, Naha, Okinawa, Japan (Proceedings of Machine Learning Research, Vol. 89). 1139–1147. [39] Shashwat Goel, Ameya Prabhu, and Ponnurangam Kumaraguru. 2022. Evaluating Inexact Unlearning Requires Revisiting Forgetting. CoRR abs/2201.06640 (2022). arXiv:2201.06640 [40] Aditya Golatkar, Alessandro Achille, Avinash Ravichandran, Marzia Polito, and Stefano Soatto. 2021. Mixed-Privacy Forgetting in Deep Networks. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021, virtual, June 19-25, 2021. 792–801. [41] Aditya Golatkar, Alessandro Achille, and Stefano Soatto. 2020. Eternal Sunshine of the Spotless Net: Selective Forgetting in Deep Networks. In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020, Seattle, WA, USA, June 13-19, 2020. 9301–9309. [42] Laura Graves, Vineel Nagisetty, and Vijay Ganesh. 2021. Amnesiac Machine Learning. In Thirty-Fifth AAAI Conference on Artificial Intelligence, AAAI 2021, Thirty-Third Conference on Innovative Applications of Artificial Intelligence, IAAI 2021, The Eleventh Symposium on Educational Advances in Artificial Intelligence, EAAI 2021, Virtual Event, February 2-9, 2021. 11516–11524. [43] Chuan Guo, Tom Goldstein, Awni Y. Hannun, and Laurens van der Maaten. 2020. Certified Data Removal from Machine Learning Models. In Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 July 2020, Virtual Event (Proceedings of Machine Learning Research, Vol. 119). 3832–3842. [44] Yu Guo, Yu Zhao, Saihui Hou, Cong Wang, and Xiaohua Jia. 2024. Verifying in the Dark: Verifiable Machine Unlearning by Using Invisible Backdoor Triggers. IEEE Trans. Inf. Forensics Secur. 19 (2024), 708–721. [45] Varun Gupta, Christopher Jung, Seth Neel, Aaron Roth, Saeed Sharifi-Malvajerdi, and Chris Waites. 2021. Adaptive Machine Unlearning. Neural Information Processing Systems,Neural Information Processing Systems (Dec 2021). [46] Yingzhe He, Guozhu Meng, Kai Chen, Jinwen He, and Xingbo Hu. 2021. DeepObliviate: A Powerful Charm for Erasing Data Residual Memory in Deep Neural Networks. CoRR abs/2105.06209 (2021). arXiv:2105.06209 [47] Yingzhe He, Guozhu Meng, Kai Chen, Jun He, and Xingbo Hu. 2021. DeepObliviate: A Powerful Charm for Erasing Data Residual Memory in Deep Neural Networks. arXiv: Learning,arXiv: Learning (May 2021). [48] Hongsheng Hu, Shuo Wang, Jiamin Chang, Haonan Zhong, Ruoxi Sun, Shuang Hao, Haojin Zhu, and Minhui Xue. 2023. A Duty to Forget, a Right to be Assured? Exposing Vulnerabilities in Machine Unlearning Services. CoRR abs/2309.08230 (2023). https://doi.org/10.48550/ARXIV.2309.08230 arXiv:2309.08230 [49] Zachary Izzo, Mary Anne Smart, Kamalika Chaudhuri, and James Zou. 2021. Approximate Data Deletion from Machine Learning Models. In The 24th International Conference on Artificial Intelligence and Statistics, AISTATS 2021, April 13-15, 2021, Virtual Event (Proceedings of Machine Learning Research, Vol. 130). 2008–2016. [50] Sharu Theresa Jose and Osvaldo Simeone. 2021. A Unified PAC-Bayesian Framework for Machine Unlearning via Information Risk Minimization. In 2021 IEEE 31st International Workshop on Machine Learning for Signal Processing (MLSP), Gold Coast, Australia, October 25-28, 2021. 1–6. [51] John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, et al. 2021. Highly accurate protein structure prediction with AlphaFold. Nature 596, 7873 (2021), 583–589. [52] Masayuki Karasuyama and Ichiro Takeuchi. 2010. Multiple incremental decremental learning of support vector machines. IEEE Trans. Neural Networks 21, 7 (2010), 1048–1059. [53] Rasha Kashef. 2021. A boosted SVM classifier trained by incremental learning and decremental unlearning approach. Expert Syst. Appl. 167 (2021), 114154. [54] Junyaup Kim and Simon S. Woo. 2022. Efficient Two-stage Model Retraining for Machine Unlearning. In IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, CVPR Workshops 2022, New Orleans, LA, USA, June 19-20, 2022. 4360–4368. [55] Pang Wei Koh and Percy Liang. 2017. Understanding Black-box Predictions via Influence Functions. In Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017 (Proceedings of Machine Learning Research, Vol. 70). PMLR, 1885–1894. [56] Meghdad Kurmanji, Peter Triantafillou, and Eleni Triantafillou. 2023. Towards Unbounded Machine Unlearning. CoRR abs/2302.09880 (2023). https://doi.org/10.48550/ARXIV.2302.09880 arXiv:2302.09880 [57] Jens Leysen. 2023. Exploring Unlearning Methods to Ensure the Privacy, Security, and Usability of Recommender Systems. In Proceedings of the 17th ACM Conference on Recommender Systems, RecSys 2023, Singapore, Singapore, September 18-22, 2023. 1300–1304. [58] Yuyuan Li, Chaochao Chen, Xiaolin Zheng, Yizhao Zhang, Biao Gong, Jun Wang, and Linxun Chen. 2023. Selective and collaborative influence function for efficient recommendation unlearning. Expert Syst. Appl. 234 (2023), 121025. [59] Yuyuan Li, Xiaolin Zheng, Chaochao Chen, and Junlin Liu. 2022. Making Recommender Systems Forget: Learning and Unlearning for Erasable Recommendation. CoRR abs/2203.11491 (2022). https://doi.org/10.48550/ARXIV.2203.11491 arXiv:2203.11491 [60] Shen Lin, Xiaoyu Zhang, Chenyang Chen, Xiaofeng Chen, and Willy Susilo. 2023. ERM-KTP: Knowledge-Level Machine Unlearning via Knowledge Transfer. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2023, Vancouver, BC, Canada, June 17-24, 2023. 20147–20155. [61] Bo Liu, Qiang Liu, and Peter Stone. 2022. Continual learning and private unlearning. In Conference on Lifelong Learning Agents. PMLR, 243–254. [62] Bo Liu, Qiang Liu, and Peter Stone. 2022. Continual Learning and Private Unlearning. In Conference on Lifelong Learning Agents, CoLLAs 2022, 22-24 August 2022, McGill University, Montréal, Québec, Canada (Proceedings of Machine Learning Research, Vol. 199). PMLR, 243–254. [63] Gaoyang Liu, Xiaoqiang Ma, Yang Yang, Chen Wang, and Jiangchuan Liu. 2021. FedEraser: Enabling Efficient Client-Level Data Removal from Federated Learning Models. In 29th IEEE/ACM International Symposium on Quality of Service, IWQOS 2021, Tokyo, Japan, June 25-28, 2021. 1–10. [64] Jiahao Liu, Dongsheng Li, Hansu Gu, Tun Lu, Jiongran Wu, Peng Zhang, Li Shang, and Ning Gu. 2023. Recommendation Unlearning via Matrix Correction. CoRR abs/2307.15960 (2023). https://doi.org/10.48550/ARXIV.2307.15960 arXiv:2307.15960 [65] Yang Liu, Mingyuan Fan, Cen Chen, Ximeng Liu, Zhuo Ma, Li Wang, and Jianfeng Ma. 2022. Backdoor Defense with Machine Unlearning. In IEEE INFOCOM 2022 - IEEE Conference on Computer Communications, London, United Kingdom, May 2-5, 2022. 280–289. [66] Yi Liu, Lei Xu, Xingliang Yuan, Cong Wang, and Bo Li. 2022. The Right to be Forgotten in Federated Learning: An Efficient Realization with Rapid Retraining. In IEEE INFOCOM 2022 - IEEE Conference on Computer Communications, London, United Kingdom, May 2-5, 2022. 1749–1758. [67] Ziyao Liu, Yu Jiang, Jiyuan Shen, Minyi Peng, Kwok-Yan Lam, and Xingliang Yuan. 2023. A survey on federated unlearning: Challenges, methods, and future directions. arXiv preprint arXiv:2310.20448 (2023). [68] Javier Martínez Llamas, Davy Preuveneers, and Wouter Joosen. 2023. Effective Machine Learning-based Access Control Administration through Unlearning. In IEEE European Symposium on Security and Privacy, EuroS&P 2023 - Workshops, Delft, Netherlands, July 3-7, 2023. IEEE, 50–57. [69] Zhaobo Lu, Yilei Wang, Qingzhe Lv, Minghao Zhao, and Tiancai Liang. 2022. FP2-MIA: A Membership Inference Attack Free of Posterior Probability in Machine Unlearning. In Provable and Practical Security - 16th International Conference, ProvSec 2022, Nanjing, China, November 11-12, 2022, Proceedings (Lecture Notes in Computer Science, Vol. 13600). 167–175. [70] Zhuo Ma, Yang Liu, Ximeng Liu, Jian Liu, Jianfeng Ma, and Kui Ren. 2023. Learn to Forget: Machine Unlearning via Neuron Masking. IEEE Trans. Dependable Secur. Comput. 20, 4 (2023), 3194–3207. [71] Pratyush Maini, Zhili Feng, Avi Schwarzschild, ZacharyC. Lipton, and J.Zico Kolter. 2024. TOFU: A Task of Fictitious Unlearning for LLMs. (Jan 2024). [72] Neil G. Marchant, Benjamin I. P. Rubinstein, and Scott Alfeld. 2022. Hard to Forget: Poisoning Attacks on Certified Machine Unlearning. In Thirty-Sixth AAAI Conference on Artificial Intelligence, AAAI 2022, Thirty-Fourth Conference on Innovative Applications of Artificial Intelligence, IAAI 2022, The Twelveth Symposium on Educational Advances in Artificial Intelligence, EAAI 2022 Virtual Event, February 22 - March 1, 2022. 7691–7700. [73] James Martens. 2020. New insights and perspectives on the natural gradient method. The Journal of Machine Learning Research 21, 1 (2020), 5776–5851. [74] Ronak Mehta, Sourav Pal, Vikas Singh, and Sathya N. Ravi. 2022. Deep Unlearning via Randomized Conditionally Independent Hessians. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2022, New Orleans, LA, USA, June 18-24, 2022. 10412–10421. [75] Salvatore Mercuri, Raad Khraishi, Ramin Okhrati, Devesh Batra, Conor Hamill, Taha Ghasempour, and Andrew Nowlan. 2022. An introduction to machine unlearning. arXiv preprint arXiv:2209.00939 (2022). [76] Min Chen and Zhikun Zhang and Tianhao Wang and Michael Backes and Mathias Humbert and Yang Zhang. 2022. Graph Unlearning. In Proceedings of the 2022 ACM SIGSAC Conference on Computer and Communications Security, CCS 2022, Los Angeles, CA, USA, November 7-11, 2022. 499–513. [77] Anselme Ndikumana, Nguyen H. Tran, Do Hyeon Kim, Ki Tae Kim, and Choong Seon Hong. 2021. Deep Learning Based Caching for Self-Driving Cars in Multi-Access Edge Computing. IEEE Transactions on Intelligent Transportation Systems (May 2021), 2862–2877. [78] Seth Neel, Aaron Roth, and Saeed Sharifi-Malvajerdi. 2021. Descent-to-Delete: Gradient-Based Methods for Machine Unlearning. In Algorithmic Learning Theory, 16-19 March 2021, Virtual Conference, Worldwide (Proceedings of Machine Learning Research, Vol. 132). 931–962. [79] Thanh Tam Nguyen, Thanh Trung Huynh, Phi Le Nguyen, Alan Wee-Chung Liew, Hongzhi Yin, and Quoc Viet Hung Nguyen. 2022. A survey of machine unlearning. arXiv preprint arXiv:2209.02299 (2022). [80] Curtis G. Northcutt, Anish Athalye, and Jonas Mueller. 2021. Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks. In Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks 1, NeurIPS Datasets and Benchmarks 2021, December 2021, virtual. [81] Jiaul H. Paik. 2013. A novel TF-IDF weighting scheme for effective ranking. In The 36th International ACM SIGIR conference on research and development in Information Retrieval, SIGIR ’13, Dublin, Ireland - July 28 - August 01, 2013. ACM, 343–352. [82] Huaibing Peng, Huming Qiu, Hua Ma, Shuo Wang, Anmin Fu, Said F Al-Sarawi, Derek Abbott, and Yansong Gao. 2024. On Model Outsourcing Adaptive Attacks to Deep Learning Backdoor Defenses. IEEE Transactions on Information Forensics and Security (2024). [83] Youyang Qu, Xin Yuan, and Ming Ding. 2023. Learn to Unlearn: Insights into Machine Unlearning. (2023). [84] Vikas Ramachandra and Mohit Sethi. 2023. Machine Unlearning for Causal Inference. arXiv preprint arXiv:2308.13559 (2023). [85] Enrique Romero, Ignacio Barrio, and Lluís Belanche. 2007. Incremental and Decremental Learning for Linear Support Vector Machines. In Artificial Neural Networks - ICANN 2007, 17th International Conference, Porto, Portugal, September 9-13, 2007, Proceedings, Part I (Lecture Notes in Computer Science, Vol. 4668). 209–218. [86] Anwar Said, Tyler Derr, Mudassir Shabbir, and WaseemAbbasandXenofon Koutsoukos. 2023. Graph Unlearning: A Review. (Aug 2023). [87] Ahmed Salem, Apratim Bhattacharya, Michael Backes, Mario Fritz, and Yang Zhang. 2019. Updates-Leak: Data Set Inference and Reconstruction Attacks in Online Learning. Cornell University - arXiv,Cornell University - arXiv (Apr 2019). [88] Sebastian Schelter. 2020. “Amnesia” - Machine Learning Models That Can Forget User Data Very Fast. In 10th Conference on Innovative Data Systems Research, CIDR 2020, Amsterdam, The Netherlands, January 12-15, 2020, Online Proceedings. [89] Sebastian Schelter, Stefan Grafberger, and Ted Dunning. 2021. HedgeCut: Maintaining Randomised Trees for Low-Latency Machine Unlearning. In SIGMOD ’21: International Conference on Management of Data, Virtual Event, China, June 20-25, 2021. 1545–1557. [90] Sebastian Schelter. 2021. Towards Efficient Machine Unlearning via Incremental View Maintenance. In Workshop on Challenges in Deploying and Monitoring ML Systems at the International Conference on Machine Learning ICML, June, 2021. [91] Ayush Sekhari, Jayadev Acharya, Gautam Kamath, and Ananda Theertha Suresh. 2021. Remember What You Want to Forget: Algorithms for Machine Unlearning. In Advances in Neural Information Processing Systems 34: Annual Conference on Neural Information Processing Systems 2021, NeurIPS 2021, December 6-14, 2021, virtual. 18075–18086. [92] Thanveer Basha Shaik, Xiaohui Tao, Haoran Xie, Lin Li, Xiaofeng Zhu, and Qing Li. 2023. Exploring the landscape of machine unlearning: A comprehensive survey and taxonomy. arXiv preprint arXiv:2305.06360 (2023). [93] Reza Shokri, Marco Stronati, Congzheng Song, and Vitaly Shmatikov. 2017. Membership Inference Attacks Against Machine Learning Models. In

参考文献

[94] Nianwen Si, Hao Zhang, Heyu Chang, Wenlin Zhang, Dan Qu, and Weiqiang Zhang. 2023. LLMs 向けの知識忘却:タスク、手法、および課題。arXiv preprint arXiv:2311.15766 (2023). [95] David Marco Sommer, Liwei Song, Sameer Wagh, and Prateek Mittal. 2020. 機械忘却の確率的検証に向けて。CoRR abs/2003.04247 (2020). arXiv:2003.04247 [96] Joshua Stock, Jens Wettlaufer, Daniel Demmler, and Hannes Federrath. 2023. 教訓の共有:プロパティ推論攻撃への防御。In Proceedings of the 20th International Conference on Security and Cryptography, SECRYPT 2023, Rome, Italy, July 10-12, 2023. SCITEPRESS, 312–323. [97] Chris Stokel-Walker and Richard Van Noorden. 2023. ChatGPT および生成 AI が科学に与える意味。Nature (Feb 2023), 214–216. [98] Aman Tahiliani, Vikas Hassija, Vinay Chamola, and Mohsen Guizani. 2021. 機械忘却:その必要性と実装戦略。In 2021 Thirteenth International Conference on Contemporary Computing (IC3-2021). 241–246. [99] Ayush K. Tarun, Vikram S. Chundawat, Murari Mandal, and Mohan S. Kankanhalli. 2021. 高速かつ効果的な機械忘却。CoRR abs/2111.08947 (2021). arXiv:2111.08947 33


XX, XX, Na Li, Chunyi Zhou, Yansong Gao, Hui Chen, Anmin Fu, Zhi Zhang, and Shui Yu [100] Anvith Thudi, Gabriel Deza, Varun Chandrasekaran, and Nicolas Papernot. 2022. SGD の展開:機械忘却に影響を与える要因の理解。In 7th IEEE European Symposium on Security and Privacy, EuroS&P 2022, Genoa, Italy, June 6-10, 2022. 303–319. [101] Anvith Thudi, Hengrui Jia, Ilia Shumailov, and Nicolas Papernot. 2022. 機械忘却のための監査可能なアルゴリズム定義の必要性について。In 31st USENIX Security Symposium, USENIX Security 2022, Boston, MA, USA, August 10-12, 2022. 4007–4022. [102] Piyush Tiwary, Atri Guha, Subhodip Panda, et al. 2023. 適応後忘却:生成敵対的ネットワークにおける忘却のためのパラメータ空間セマンティクスの活用。arXiv preprint arXiv:2309.14054 (2023). [103] Cheng-Hao Tsai, Chieh-Yen Lin, and Chih-Jen Lin. 2014. 線形分類のための増分および減分トレーニング。In The 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’14, New York, NY, USA - August 24 - 27, 2014. 343–352. [104] Amund Tveit, Magnus Lie Hetland, and Håavard Engum. 2003. 減衰係数を用いた増分および減分近接サポートベクトル分類。In Data Warehousing and Knowledge Discovery, 5th International Conference, DaWaK 2003, Prague, Czech Republic, September 3-5,2003, Proceedings (Lecture Notes in Computer Science, Vol. 2737). 422–423. [105] Enayat Ullah, Tung Mai, Anup Rao, Ryan A. Rossi, and Raman Arora. 2021. アルゴリズム的安定性による機械忘却。In Conference on Learning Theory, COLT 2021, 15-19 August 2021, Boulder, Colorado, USA (Proceedings of Machine Learning Research, Vol. 134). 4126–4142. [106] Vikram S. Chundawat and Ayush K. Tarun and Murari Mandal and Mohan S. Kankanhalli. 2023. ゼロショット機械忘却。IEEE Trans. Inf. Forensics Secur. 18 (2023), 2345–2354. [107] Cheng-Long Wang, Mengdi Huai, and Di Wang. 2023. 帰納的グラフ忘却。In 32nd USENIX Security Symposium, USENIX Security 2023, Anaheim, CA, USA, August 9-11, 2023. 3205–3222. [108] Junxiao Wang, Song Guo, Xin Xie, and Heng Qi. 2022. クラス判別性プルーニングによる連合忘却。In WWW ’22: The ACM Web Conference 2022, Virtual Event, Lyon, France, April 25 - 29, 2022. 622–632. [109] Lingzhi Wang, Tong Chen, Wei Yuan, Xingshan Zeng, Kam-Fai Wong, and Hongzhi Yin. 2023. KGA: 知識ギャップ整合に基づく一般的な機械忘却フレームワーク。In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2023, Toronto, Canada, July 9-14, 2023. 13264–13276. [110] Weiqi Wang, Zhiyi Tian, Chenhan Zhang, An Liu, and Shui Yu. 2023. BFU: パラメータ自己共有によるベイズ連合忘却。In Proceedings of the 2023 ACM Asia Conference on Computer and Communications Security, ASIA CCS 2023, Melbourne, VIC, Australia, July 10-14, 2023. ACM, 567–578. [111] Alexander Warnecke, Lukas Pirch, Christian Wressnegger, and Konrad Rieck. 2023. 特徴およびラベルの機械忘却。In 30th Annual Network and Distributed System Security Symposium, NDSS 2023, San Diego, California, USA, February 27 - March 3, 2023. [112] Shaokui Wei, Mingda Zhang, Hongyuan Zha, and Baoyuan Wu. 2023. 共有敵対的忘却:共有敵対的例の忘却によるバックドア緩和。CoRR abs/2307.10562 (2023). https://doi.org/10.48550/ARXIV.2307.10562 arXiv:2307.10562 [113] Chen Wu, Sencun Zhu, and Prasenjit Mitra. 2022. 知識蒸留による連合忘却。CoRR abs/2201.09441 (2022). arXiv:2201.09441 [114] Jiancan Wu, Yi Yang, Yuchun Qian, Yongduo Sui, Xiang Wang, and Xiangnan He. 2023. GIF: 影響力関数に基づく一般的なグラフ忘却戦略。In Proceedings of the ACM Web Conference 2023, WWW 2023, Austin, TX, USA, 30 April 2023 - 4 May 2023. ACM, 651–661. [115] Kun Wu, Jie Shen, Yue Ning, Ting Wang, and Wendy Hui Wang. 2023. グラフニューラルネットワークのための証明済みエッジ忘却。In Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, KDD 2023, Long Beach, CA, USA, August 6-10, 2023. 2606–2617. [116] Leijie Wu, Song Guo, Junxiao Wang, Zicong Hong, Jie Zhang, and Yaohong Ding. 2022. 連合忘却:クライアントの忘却権利の保証。IEEE Netw. 36, 5 (2022), 129–135. [117] Yinjun Wu, Edgar Dobriban, and Susan B. Davidson. 2020. DeltaGrad: 機械学習モデルの高速再トレーニング。In Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 July 2020, Virtual Event (Proceedings of Machine Learning Research, Vol. 119). 10355–10366. [118] Yinjun Wu, Val Tannen, and Susan B. Davidson. 2020. PrIU: 回帰モデルの増分的更新のためのプロベナンスベースのアプローチ。In Proceedings of the 2020 International Conference on Management of Data, SIGMOD Conference 2020, online conference [Portland, OR, USA], June 14-19, 2020. 447–462. [119] Heng Xu, Tianqing Zhu, Lefeng Zhang, Wanlei Zhou, and Philip S. Yu. 2024. 機械忘却:調査。ACM Comput. Surv. 56, 1 (2024), 9:1–9:36. [120] Jie Xu, Zihan Wu, Cong Wang, and Xiaohua Jia. 2023. 機械忘却:解決策と課題。arXiv preprint arXiv:2308.07061 (2023). [121] Mimee Xu, Jiankai Sun, Xin Yang, Kevin Yao, and Chong Wang. 2023. Netflix と忘却:双線形推薦からの効率的かつ正確な機械忘却。CoRR abs/2302.06676 (2023). https://doi.org/10.48550/ARXIV.2302.06676 arXiv:2302.06676 [122] Haonan Yan, Xiaoguang Li, Ziyao Guo, Hui Li, Fenghua Li, and Xiaodong Lin. 2022. ARCANE: 正確な機械忘却のための効率的なアーキテクチャ。In Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence, IJCAI 2022, Vienna, Austria, 23-29 July 2022. ijcai.org, 4006–4013. [123] Jiaxi Yang and Yang Zhao. 2023. 連合忘却の調査:分類、課題および将来方向。arXiv preprint arXiv:2310.19218 (2023). [124] Li Yang and Abdallah Shami. 2020. 機械学習アルゴリズムのパラメータ最適化について:理論と実践。Neurocomputing 415 (2020), 295–316. [125] Ling Yang, Zhilong Zhang, and Shenda Hong. 2022. 拡散モデル:手法および応用の包括的調査。(Sep 2022). [126] Yuanshun Yao, Xiaojun Xu, and Yang Liu. 2023. 大規模言語モデルの忘却。arXiv preprint arXiv:2310.10683 (2023). 34


機械忘却:分類、指標、応用、課題、および展望 XX, XX, [127] Dayong Ye, Huiqiang Chen, Shuai Zhou, Tianqing Zhu, Wanlei Zhou, and Shouling Ji. 2022. 転移学習に対するモデル逆攻撃:アクセスなしでのモデルの逆変換。CoRR abs/2203.06570 (2022). [128] Guangsheng Yu, Xu Wang, Caijun Sun, and Qin Wang. 2023. スプリット忘却。CoRR abs/2308.10422 (2023). https://doi.org/10.48550/ARXIV.2308.

参考文献

[129] Wei Yuan, Hongzhi Yin, Fangzhao Wu, Shijie Zhang, Tieke He, and Hao Wang. 2023. デバイス上での推薦のための連合忘却。In Proceedings of the Sixteenth ACM International Conference on Web Search and Data Mining, WSDM 2023, Singapore, 27 February 2023 - 3 March 2023. 393–401. [130] Ekim Yurtsever, Jacob Lambert, Alexander Carballo, and Kazuya Takeda. 2020. 自律走行車に関する調査:一般的な慣行と新興技術。IEEE Access (Jan 2020), 58443–58469. [131] Yi Zeng, Si Chen, Won Park, Zhuoqing Mao, Ming Jin, and Ruoxi Jia. 2022. 暗黙的ハイパー勾配を用いたバックドアの敵対的忘却。In The Tenth International Conference on Learning Representations, ICLR 2022, Virtual Event, April 25-29, 2022. [132] Yuxiang Zeng, Jianlong Xu, Yuhui Li, Caiyi Chen, Qingcao Dai, and Zibo Du. 2023. 機械忘却による高効率かつ高精度なサービス QoS 予測に向けて。IEEE Access 11 (2023), 76242–76254. [133] Haibo Zhang, Toru Nakamura, Takamasa Isohara, and Kouichi Sakurai. 2023. 機械忘却に関するレビュー。SN Computer Science 4, 4 (2023), 337. [134] Jie Zhang, Dongdong Chen, Qidong Huang, Jing Liao, Weiming Zhang, Huamin Feng, Gang Hua, and Nenghai Yu. 2022. Poison Ink: ロバストかつ不可視なバックドア攻撃。IEEE Trans. Image Process. 31 (2022), 5691–5705. [135] Lefeng Zhang, Tianqing Zhu, Haibin Zhang, Ping Xiong, and Wanlei Zhou. 2023. FedRecovery: 連合学習フレームワークのための微分プライバシー機械忘却。IEEE Trans. Inf. Forensics Secur. 18 (2023), 4732–4746. [136] Yang Zhang, Zhiyu Hu, Yimeng Bai, Fuli Feng, Jiancan Wu, Qifan Wang, and Xiangnan He. 2023. 影響力関数に基づく推薦忘却。CoRR abs/2307.02147 (2023). https://doi.org/10.48550/ARXIV.2307.02147 arXiv:2307.02147 [137] Zhengming Zhang, Muchen Tian, Chunguo Li, Yongming Huang, and Luxi Yang. 2023. 機械忘却によるニューラルネットワークベースの mmWave ビーム選択と解毒。IEEE Trans. Commun. 71, 2 (2023), 877–892. [138] Zijie Zhang, Yang Zhou, Xin Zhao, Tianshi Che, and Lingjuan Lyu. 2022. ランダム化勾配平滑化および量子化を用いたプロンプト証明済み機械忘却。In NeurIPS. [139] Chunyi Zhou, Anmin Fu, Shui Yu, Wei Yang, Huaqun Wang, and Yuqing Zhang. 2020. フォグコンピューティングにおけるプライバシー保護連合学習。IEEE Internet Things J. 7, 11 (2020), 10782–10793. https://doi.org/10.1109/JIOT.2020.2987958 [140] Chunyi Zhou, Yansong Gao, Anmin Fu, Kai Chen, Zhiyang Dai, Zhi Zhang, Minhui Xue, and Yuqing Zhang. 2023. PPA: 連合学習に対するプロファイル推論攻撃。In 30th Annual Network and Distributed System Security Symposium, NDSS 2023, San Diego, California, USA, February 27 - March 3, 2023. The Internet Society. [141] Xiangrong Zhu, Guangyao Li, and Wei Hu. 2023. 異種連合知識グラフ埋め込み学習および忘却。In Proceedings of the ACM Web Conference 2023, WWW 2023, Austin, TX, USA, 30 April 2023 - 4 May 2023. 2444–2454.