ALDP-FL for adaptive local differential privacy in federated learning
原題: ALDP-FL for adaptive local differential privacy in federated learning 著者: L Cui, X Wu | 会議: nature.com 2025 | 引用: 0 PDF: cui25a.pdf
scientific reports
ALDP‑FL for Adaptive Local Differential Privacy in Federated Learning
Authors: Lixin Cui & Xu Wu
Abstract
フェデレーテッドラーニング(FL)は、分散学習フレームワークとして台頭しており、ユーザーデータのプライバシーを損なうことなくモデル訓練が可能です。しかし、悪意のある攻撃者はフェデレーテッドラーニングプロセス中のモデル更新を分析することで、依然として機密情報を推測できる可能性があります。そこで本稿では、適応型ローカル差分プライバシー(Adaptive Localized Differential Privacy)を利用したフェデレーテッドラーニング手法 ALDP‑FL を提案します。この手法は、各ネットワーク層の更新に対するクリッピング閾値を過去の ノルムの移動平均に基づいて動的に設定し、各層に適応的なノイズを注入します。さらに、追加されたノイズがモデル精度に与える影響を最小限に抑える bounded perturbation 手法を設計しました。提案手法のプライバシー解析も提示しています。最後に、MNIST、Fashion MNIST、CIFAR‑10 データセット上で実験を行い、提案手法の有効性と実用性を示します。具体的には、ALDP‑FL は全評価指標で平均して 10 %以上の改善を達成し、Accuracy が 10.57 % 向上、Precision が 10.64 % 向上、Recall が 10.52 % 向上、F1 スコアが 10.64 % 向上しました。iDLG 攻撃下で再構成された画像に関しては、MSE の改善率が平均で 391.2 %、SSIM の改善率が -85.4 %(※負の値は SSIM が向上したことを示す)となり、他の比較手法を大きく上回ります。
Introduction
現代のデータ駆動型社会において、プライバシー保護とデータ共有の間の緊張関係はますます顕著になっています。従来の機械学習手法は、データを集中管理し処理することでモデル性能を向上させることが一般的です。しかし、医療、金融、モノのインターネット(IoT)などプライバシー規制や商業的機密性が重要な分野では、データがサイロ化しやすく、組織間での共有が困難になることがあります。そのため、膨大なデータセットを活用してモデル訓練を行うと同時にユーザープライバシーを保護する方法は、重要な研究課題となっています。
フェデレーテッドラーニング(FL) は、分散型機械学習フレームワークとして台頭しており、複数のユーザーデバイス上でデータを中央に集めることなくモデル訓練が可能であり、効果的にユーザープライバシーを保護します。しかし研究によれば、FL はプライバシー保護の層を提供しているものの、依然としてモデル逆転攻撃、メンバーシップ推定攻撃、勾配漏洩などの脅威に直面しています。攻撃者は中間パラメータを分析することで、元の訓練データから機密情報を推測できます。したがってプライバシー保護は FL システム導入時の重要なボトルネックとなります。Yin らは潜在的なプライバシー漏洩リスクを以下の 5 つの基本的側面に分類しました:攻撃者(attacker)、攻撃手法(attack method)、攻撃タイミング(attack timing)、攻撃場所(attack location)、攻撃動機(attack motivation)。Gupta らはデータ汚染攻撃を提案し、良性モデルの損失関数を逆転させてグローバルモデルの性能を低下させました。Gu らは CS‑MIA と呼ばれる新しいメンバーシップ推定攻撃を導入し、予測確信度列に基づく手法で FL に対して深刻なプライバシー脅威をもたらしました。Zhu らは公開された勾配からプライベートデータを取得できることを実証し、この種のプライバシー侵害を「勾配深層漏洩(gradient deep leakage)」と呼んでいます。
現在、FL のプライバシー強化技術は主に以下の 3 種類に分類されます:差分プライバシー(Differential Privacy) (DP)、同型暗号、そして安全なマルチパーティ計算。差分プライバシーはデータやモデル出力にランダムノイズを加えることで個人情報を隠蔽します。しかし、ノイズ注入により収束が遅くなることや精度が低下することが多く、特に非 i.i.d.(独立同分布でない)データ分布下ではプライバシー予算とモデル性能のバランスを取るのが難しいです。同型暗号と安全なマルチパーティ計算は強力な暗号的保証を提供しますが、計算コストと通信コストが高く、大規模な深層ニューラルネットワーク訓練に対して適用しやすいという制約があります。
本稿では、差分プライバシーを用いてフェデレーテッドラーニングにおけるプライバシーとセキュリティの課題に対処する方法を中心に検討します。既存研究としては、McMahan らがまず FL に差分プライバシーを適用し、重み付けパラメータ集約後に中央サーバーでガウスノイズを加えて集約モデルを生成しました。ただし、中央サーバーが誠実であるかどうかは考慮していませんでした。Yang らは GFL‑ALDP を提案し、適応型ローカル差分プライバシーに基づく勾配圧縮フェデレーテッドラーニングフレームワークを構築しました。
email: wuxu2022@cdut.edu.cn
Scientific Reports | (2025) 15:26679
https://doi.org/10.1038/s41598-025-12575-6
nature portfolio
ALDP‑FL for adaptive local differential privacy in federated learning
概要
予算配分の観点から、通信ラウンドごとにプライバシー予算を動的に割り当てる新しい適応型プライバシー予算配分スキームを開発し、プライバシー予算の無駄遣いとモデルノイズを削減した。学習中に異なる通信ラウンドへ別々のプライバシー予算を割り当てることで、限られたプライバシー予算を最大限に活用しつつモデル精度を向上させることができる。さらに、次元削減に基づく勾配圧縮メカニズムを導入し、通信コスト・全体ノイズ量・総プライバシー予算消費のすべてを同時に削減し、指定されたプライバシー保護下で正確性を保証した。Truex らは LDP‑Fed と呼ばれるローカル差分プライバシー手法を開発し、勾配を摂動させることでローカル学習時にプライバシー保護を実現し、局所的な差分プライバシーを達成した。Yang らは Fed‑DPA を提案し、層ごとの Fisher 情報に基づく動的個人化戦略を用いて柔軟なパーソナライズとノイズ影響の低減を実現した。現在の研究は主に単一攻撃シナリオに対する静的な防御に焦点を当てているが、動的な敵対環境下での多層攻撃チェーンに対して体系的に保護する手法はまだ不足している。これにより、過剰なプライバシー保護で性能低下が起きるか、あるいは十分な保護が行われていないというジレンマに対処できる。
本稿では、ローカル差分プライバシーを活用した適応型フェデレーテッドラーニング手法 ALDP‑FL を提案する。この手法はスライディングウィンドウ機構を用いてクライアントごとに適応的なノイズを導入し、モデル学習精度を維持しつつデータに差分プライバシー保護を組み込むことで、従来の限界を克服した。
さらに、差分プライバシーがモデル性能に与える影響を緩和するために bounded perturbation 手法を設計した。境界付き摂動関数 は、追加されたノイズの分散 、プライバシー予算 、そしてボンディング係数 を組み合わせて、データに注入されるノイズ範囲を制限する。これにより、効率的な差分プライバシー保護が実現できる。
MNIST と Fashion MNIST データセットに対して 3 種類の実験を行い、ALDP‑FL の有効性と実用性を検証した。
主な貢献
- Adaptive Local Differential Privacy Federated Learning (ALDP‑FL) 手法を提案。各ネットワーク層に対して過去の ノルム更新の移動平均に基づきクリッピング閾値を動的に設定し、適応的なノイズを付加する。
- bounded perturbation 機構を設計し、ローカル差分プライバシーによるモデル精度低下を抑えるためにノイズ範囲を制限した。
- MNIST、Fashion MNIST、CIFAR‑10 の実験で、最先端のベースラインと比較してプライバシー‑ユーティリティトレードオフが大幅に改善されたことを示した。
Related work
フェデレーテッドラーニングは分散型機械学習フレームワークとして機能し、モデルをローカルで訓練し、パラメータだけをサーバーにアップロードすることで、データ転送や漏洩リスクを大幅に削減できる。にもかかわらず、フェデレーテッドラーニングは以下のようなプライバシー・セキュリティ課題に直面している:モデル逆転攻撃、メンバーシップ推定、データ汚染など 。
Li らは FL におけるモデル逆転攻撃を 更新ベース と トレンドベース の二種類に分類した。Zhao らは勾配情報から実際のラベルが漏洩することを発見し、簡易かつ信頼性の高い手法でラベル情報を抽出できる「改善版 DLG (iDLG)」を提案した。この手法は任意の微分可能モデル(クロスエントロピー損失・ワンホットラベル)に対して適用でき、勾配から正確にラベルを復元できることを数学的に説明し、実験でも従来の DLG を上回る性能を示した。
Khraisat らはターゲットデータ汚染攻撃を調査し、少数の悪意ある参加者が誤ラベル付けされた更新を行うことで、特に特定クラスに集中した汚染が分類精度とリコールを顕著に低下させることを示した。また、攻撃が早期・後期の学習ラウンドで行われた場合の影響も評価し、参加者の可用性が攻撃効果に与える影響を明らかにした。
上記研究はフェデレーテッドラーニングにおける多数のセキュリティ問題を示している。対策としては暗号化、差分プライバシー、異常検知などがある 。Tripathy らは HalfFedLearn フレームワークを提案し、ホモモルフィック暗号とローカルな水平データ分割を組み合わせて、収束の遅さ・計算・通信コスト・パラメータ共有のセキュリティ課題に対処した。データ感度に基づく水平分割を行い、プライベートサンプルに対して選択的に暗号化保護を適用した。ホモモルフィック暗号は高いプライバシー保護を提供するが、計算コストと暗号化データのサイズ増大に伴う通信負荷が課題となる 。特にフェデレーテッドラーニングでは頻繁な勾配やモデル更新のやり取りが必要であり、暗号化されたデータは帯域幅と保存容量を増加させる 。さらにマルチパーティ環境では鍵生成・配布・更新・失効といった厳格なセキュリティ機構が求められ、鍵が漏洩すると全暗号化データの安全性が損なわれる可能性がある 。
差分プライバシー技術はフェデレーテッドラーニングにおけるプライバシー保護を実現し、ホモモルフィック暗号による課題を緩和する。Xie らは 適応型差分プライバシー を組み込んだ新しいプライバシー保護フレームワークを提案し、医療データ協働に適用した。ローカルと中央の二層プライバシー保護を導入し、訓練進捗とデータ感度に応じてプライバシー予算を動的に配分した。エッジサーバーが事前集約を行い通信負荷を削減しつつプライバシーも向上させた。適応型プライバシー予算配分戦略により、訓練全体を通じてプライバシー‑ユーティリティのトレードオフを最適化した。
差分プライバシーはノイズ付加によってデータプライバシーを保護するが、特にデータがスパースである場合やプライバシー予算が小さい場合にバイアスが生じやすく、収束速度が遅くなったり最終精度が低下したりすることがある。さらにノイズ拡大を防ぐために勾配のクリッピングが必要だが、適切なクリップ閾値を選定するには試行錯誤が必要で、クリップバイアスが発生し得る。多ラウンド学習では各ラウンドごとにプライバシー予算を動的に割り当てる必要があり、累積プライバシー漏洩を超えないように管理しなければならない。これらの課題はプライバシー予算、ノイズ分布、クリップ閾値の調整というパラメータを同時に最適化する必要がある点で複雑である。
Wang らは FedFR‑ADP と呼ばれる新しい適応型差分プライバシー手法を提案した。まず Earth Mover’s Distance (EMD) を用いて各クライアントのデータ異質性を測定し、その結果に基づいてガウスノイズを動的に適用することで、ノイズ付加がよりターゲット化されたものになるよう調整した。次に、グローバルモデルの誤差フィードバックを利用してプライバシー予算をリアルタイムで調整するフィードバック機構を導入し、性能向上を実現した。
Tlale らは特徴重要度に基づく適応型ノイズ注入手法を提案した。まず深層ニューラルネットワークにおける特徴の優先順位付け方法を二つ提示し、その情報を用いてモデル重みに対してノイズを付加した。具体的には、重要度が低いパラメータに対しては多めにノイズを、重要度が高いパラメータには少なめにノイズを入れることで、プライバシー保護しつつ精度低下を抑えることを検証した。実験結果は、ノイズ量・対象パラメータの割合・グローバルイテレーション数が適切に設定されれば、プライバシー向上と精度維持のバランスが取れることを示した。
現行の研究はフェデレーテッドラーニングにおける課題に対し多くの進展をもたらしているが、依然としていくつかの制限がある。ホモモルフィック暗号ベースの手法は計算資源効率が低く、通信負荷や鍵漏洩リスクに直面する。一方、差分プライバシー手法はプライバシー予算配分・クリップ閾値設定・ノイズ分布最適化といった課題を抱えている。本研究では差分プライバシー技術を中心に、プライバシー保護を強化するために 適応的クリップ閾値 を導入し、ノイズ注入を動的に調整することで、モデル性能への影響を最小限に抑えつつ堅牢なデータプライバシーを実現する。
Overview of federated learning
フェデレーテッドラーニングは、生のデータを共有せずに複数参加者が共同でモデル訓練を行うことができるプライバシー保護型分散協調学習フレームワークである(図 1 の構成を参照)。この手法はローカル計算とパラメータ集約という二段階プロセスにより、データサイロ問題を緩和し、プライバシー遵守を実現する。
参加者数を とし、 番目の参加者が保有するプライベートデータセットを (サイズ )とする。全参加者の総サンプル数は
[
N = \sum_{k=1}^{K} n_k
]
で表される。
フェデレーテッドラーニングの最適化目標は、重み付き全体経験リスクを最小化することである:
[ \min F(\theta) = \mathbb{E}{k}\big[ P(F{k}(\theta)) \big] = \sum_{k=1}^{K} \frac{n_k}{N} F_{k}(\theta) \tag{1} ]
ここで
[
F_{k}(\theta)=\frac{1}{n_k}\sum_{(x_{i,j},y_{i,j})\in D_k}\ell(x_{i,j};y_{i,j};\theta)
]
は 番目のローカルデータに対する経験リスク関数であり、 はロス関数を示す。
フェデレーテッドラーニングプロセスは以下の三段階に分かれる:
- ローカルモデル更新:各参加者は現在のグローバルモデルから開始し、プライベートデータ上で勾配降下法等を実行してローカルパラメータを更新する。
- パラメータ集約:参加者から送信された更新情報をサーバーが受け取り、加重平均などの集約アルゴリズムでグローバルモデルの新しいパラメータを生成する。
- モデル同期とイテレーション:更新されたグローバルモデルを全参加者に配布し、必要に応じて次の通信ラウンドへ進む。収束条件(例:所定回数の通信または目標精度)に達するまでこのサイクルを繰り返す。
Local differential privacy
ローカル差分プライバシー (Local Differential Privacy, LDP) は、ユーザーが自分のデータをローカルで直接摂動させた後、サーバーへ送信する分散型プライバシー保護手法である。中央集権的にデータを集めてから匿名化するのではなく、データ送信前に個々の情報が保護されるため、IoT デバイスやフェデレーテッドラーニングなど多様な分散シナリオに適用しやすい。
ガウス機構(Gaussian Mechanism) は LDP の代表例で、連続データに対してガウスノイズを加えることでプライバシー保証とデータ有用性のバランスを取る。‑差分プライバシー定義に基づき、隣接するデータ集合 (1 要素だけが異なる)と任意の出力集合 に対して
[ \Pr[M(v) \in S] \le e^{\epsilon},\Pr[M(v’) \in S] + \delta \tag{2} ]
が成り立つ。ここで はノイズ付加操作を表す。
(図や数式は本文中に既に示されているので、ここでは省略する。)
ALDP‑FL for adaptive local differential privacy in federated learning (cont.)
Among them, represents the perturbation mechanism, is the privacy budget, and is the relaxation parameter. For a user with local data , the released output after perturbation is modeled as , where is a multivariate Gaussian noise with mean zero and covariance matrix . The noise scale is typically determined based on the privacy parameters , and the sensitivity , which is set to satisfy the , where is the -dimensional sensitivity, and is the sensitivity of the function under consideration.
訳
ここで、 は摂動機構を表し、 はプライバシー予算、 は緩和パラメータです。ローカルデータ を持つユーザーについて、摂動後の公開出力は
とモデル化されます。ここで は平均が 0、共分散行列が の多次元ガウスノイズです。ノイズスケール はプライバシーパラメータ , と感度 に基づいて決定され、
を満たすように設定されます。ここで は 次元の 感度であり、 は考慮中の関数の感度です。
Methods
The overall workflow of the ALDP‑FL framework
Federated learning, as a distributed machine learning framework, achieves privacy protection through client-side local training and parameter aggregation. However, privacy security issues still persist. The locally updated parameters inherently encode features of the raw data, and attackers can potentially reconstruct users’ training samples by analyzing gradient update information. Traditional federated learning architectures assume the central server is honest and trustworthy, but if the central server is curious, clients may inadvertently leak their private data during collaboration.
訳
フェデレーテッドラーニングは、分散型機械学習フレームワークとして、クライアント側でのローカル学習とパラメータ集約によりプライバシー保護を実現します。しかし、プライバシーに関する課題は依然として残っています。ローカルで更新されたパラメータは元データの特徴情報を自然に含んでおり、攻撃者は勾配情報などを解析することでユーザーの訓練サンプルを復元できる可能性があります。従来のフェデレーテッドラーニング構造では、中央サーバーが誠実で信頼できると仮定していますが、もし中央サーバーが好奇心旺盛な場合、クライアントは協働中に自らのプライベートデータを意図せず漏洩させることがあります。
Scientific Reports | (2025) 15:26679
| https://doi.org/10.1038/s41598-025-12575-6
nature portfolio
4
scientific reports
入力: クライアント数 (N)、各ラウンドで参加するクライアント数 (K)、初期モデル (\omega_{0})、学習ラウンド数 (T)。
- 初期化: モデル (\omega_{0}) を設定する。
- ラウンド (t = 1) から (T) まで
- 全クライアントの中からランダムに (K) 台のクライアントを選択し、参加させる。
- 各選択されたクライアント (k = 1,\dots ,K) について
[ \Delta\omega_{k}^{t} \leftarrow \text{Client}(k, \omega_{t}) ]
(クライアントはローカルで更新したパラメータ変化量 (\Delta\omega_{k}^{t}) を返す) - 集約: 全参加クライアントの更新を平均して [ \Delta\omega_{t} \leftarrow \frac{1}{K}\sum_{k=1}^{K}\Delta\omega_{k}^{t} ]
- グローバルモデルの更新: [ \omega_{t+1} \leftarrow \omega_{t} + \Delta\omega_{t} ]
Algorithm 1. ALDP‑FL
本稿では、以下の手順で構成される 適応的ローカル差分プライバシー を用いたフェデレーテッドラーニング手法を提案する。
サーバは初期モデルパラメータ (\omega_{0}) を設定し、(T) ラウンドの反復学習を行う。各ラウンドでは次の手順が実行される。
- クライアント選択: サーバは全体 (N) 台のうちから (K) 台をランダムに選び、そのラウンドの参加者とする。
- モデル配布: 現在のグローバルモデル (\omega_{t}) を選択されたクライアントへ送信する。
- ローカル学習: 各クライアントは受領した (\omega_{t}) でローカルに訓練し、更新量 (\Delta\omega_{k}^{t}) を算出してサーバへ返す。
- 集約: サーバは全参加者の更新を平均して
[
\Delta\omega_{t} = \frac{1}{K}\sum_{k=1}^{K}\Delta\omega_{k}^{t}
]
を計算し、グローバルモデルを [ \omega_{t+1} = \omega_{t} + \Delta\omega_{t} ]
と更新する。
このプロセスを (T) ラウンド繰り返すことで学習が完了する。
ALDP‑FL のフレームワークは サーバ側アルゴリズム と クライアント側アルゴリズム の二部構成で、図 2 にその流れを示す。
| Symbol | 説明 |
|---|---|
| (N) | クライアント総数 |
| (K) | 各ラウンドで参加するクライアント数 |
| (T) | 全体のグローバルイテレーション回数 |
| (\omega_{t}) | ラウンド (t) におけるグローバルモデル |
| (E) | クライアント側のローカルイテレーション回数 |
| (D) | ローカルデータセット |
| (\omega_{e}) | ラウンド (e) のローカル初期化モデル |
| (\omega_{e}^{\prime}) | 差分プライバシー保護前のローカル更新後モデル |
| (\Delta\omega_{e}) | ローカルラウンド (e) におけるパラメータ変化量 |
| (H) | ローカルモデル更新を保持するスライディングウィンドウ |
| (\text{Clip}_{e}) | ラウンド (e) のクリッピング係数 |
| (\Delta\omega_{e}^{\prime}) | クリップ後の変化量 |
| (\Delta f) | 感度(sensitivity) |
| (k) | スライディングウィンドウのサイズ |
| (\Delta\tilde{\omega}_{e}) | 差分プライバシー保護された変化量 |
| (\Delta\omega^{k}) | クライアント (k) の最終的な更新(差分プライバシー適用後) |
| (B) | 有界摂動関数 |
| (\sigma) | ガウス分布の標準偏差 |
| ((\epsilon,\delta)) | 差分プライバシーのパラメータ |
ALDP‑FL client-side algorithm
クライアント側アルゴリズムは Algorithm 2 に示され、図 3 のフローチャートで可視化されている。
サーバから送られたモデル (\omega_{t}) を受け取った後、以下の手順を実行する。
-
ローカルモデルを初期化し、(\omega_{e} \leftarrow \omega_{t}) とコピーする。
-
(E) 回のローカルイテレーションを行う(各イテレーションはデータバッチごとに勾配降下で更新)。
- バッチ (d) に対して
[ \omega_{e}^{\prime} \leftarrow \omega_{e} - \alpha \nabla L(\omega_{e}; d) ] - 変化量を計算
[ \Delta\omega_{e} = \omega_{e}^{\prime} - \omega_{e} ] - (|\Delta\omega_{e}|_{2}) を算出し、スライディングウィンドウ (H) に格納する。
- バッチ (d) に対して
-
各層についてクリッピング係数を決定し、更新量をクリップする。
- クリッピング係数 (\text{Clip}_{e}) は直近の (k) 回分の平均二乗ノルムから算出(図 4 参照)。
- クリップ後の更新量は
[ \Delta\omega_{e}^{\prime} = \begin{cases} \Delta\omega_{e}, & |\Delta\omega_{e}|{2} \le \text{Clip}{e} \ \frac{\text{Clip}{e}}{|\Delta\omega{e}|{2}} , \Delta\omega{e}, & \text{otherwise} \end{cases} ]
-
感度を計算
[ \Delta f = \frac{2,\text{Clip}_{e}}{d}, ]
ここで (d) はパラメータベクトルの次元数。 -
ガウスノイズの標準偏差を [ \sigma = \frac{\Delta f \sqrt{2\ln(1.25/\delta)}}{\epsilon} ]
とし、有界摂動関数 (B) を用いてノイズを付加
[ \Delta\tilde{\omega}{e} = \Delta\omega{e}^{\prime} + B(\sigma,\epsilon,\eta). ] -
ローカルモデルを更新し、最終的なローカル変化量は
[ \Delta\omega^{k} = \omega_{e} - \omega_{t} ]
と計算してサーバへ返す。
Bounded perturbation mechanisms
本手法では差分プライバシーのために ガウス分布 をノイズ源として採用する。
平均が 0、標準偏差が (\sigma) の多次元ガウス分布は次の確率密度関数で表される(式 (4)):
[ f(x;\sigma)=\frac{1}{\sigma\sqrt{2\pi}}\exp!\left(-\frac{x^{2}}{2\sigma^{2}}\right). ]
ガウス分布は無限に広がるため、長尾効果を抑えるために 有界摂動 を導入する。
ノイズは ([-b,b]) の範囲に制限され、上限 (b) は
[ b = \frac{e^{\epsilon} - \eta}{e^{\epsilon} + \eta}, ]
(式 (3))で定義される。ここで (\epsilon) はプライバシー予算、(\eta) は超パラメータで (-1<\eta<1)。
有界化された確率密度関数は
[ f_{b}(x;\sigma)= \begin{cases} \displaystyle \frac{1}{Z,\sigma\sqrt{2\pi}}\exp!\left(-\frac{x^{2}}{2\sigma^{2}}\right), & -b < x < b,\[6pt] 0, & \text{otherwise}, \end{cases} ]
(式 (5))で表され、正規化定数 (Z) は
[ Z = \int_{-b}^{b}\frac{1}{\sigma\sqrt{2\pi}}\exp!\left(-\frac{x^{2}}{2\sigma^{2}}\right),dx, ]
(式 (6))で与えられる。
この有界ガウスノイズを用いることで、差分プライバシー保護された更新量は
[ B(\sigma,\epsilon,\eta)=\text{bounded_noise}(\sigma,\epsilon,\eta) ]
として生成され、最終的にクライアント側で
[ \Delta\tilde{\omega}{e}= \Delta\omega{e}^{\prime} + B(\sigma,\epsilon,\eta) ]
と加算される。
以上が ALDP‑FL アルゴリズムの概要と、クライアント側での適応的ローカル差分プライバシー処理に関する詳細です。
scientific reports
累積分布関数(cumulative distribution function)を正規化定数に導入する。
[ Z = \Phi \left(\frac {a}{\sigma}\right) - \Phi \left(- \frac {a}{\sigma}\right) = 2 \Phi \left(\frac {a}{\sigma}\right) - 1 ]
(7)
切断正規分布の標準偏差 (\sigma_{b}^{2}) を用いて、標準偏差 (\sigma_{b}) を推定できる。
[ \sigma_ {b} ^ {2} = \int_ {- b} ^ {b} x ^ {2} f _ {b} (x) d x = \frac {1}{Z} \int_ {- b} ^ {b} x ^ {2} e ^ {- \frac {x ^ {2}}{2 \sigma^ {2}}} d x = \frac {\sigma^ {2}}{Z} \int_ {- b} ^ {b} \frac {u ^ {2}}{\sigma^ {2}} e ^ {- \frac {u ^ {2}}{2 \sigma^ {2}}} d u = \sigma^ {2} \left[ 1 - \frac {2}{2 \Phi \left(\frac {b}{\sigma}\right)} \phi \left(\frac {b}{\sigma}\right) \right] ]
(8)
正規分布の標準偏差を用いると、Hoeffding 不等式を利用して経験的平均が真の平均からどれだけずれるかを計算できる。Hoeffding 不等式は独立同分布であることを仮定せずに適用でき、サンプル平均が真の平均から一定量だけ外れる確率を推定する。
(X_{1}, X_{2}, \dots, X_{n}) を区間 ([c,d]) に収まる独立な確率変数とし、その標本平均を
[ \bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i ]
とすると、任意の (\epsilon>0) に対して
[ P!\left(\bigl|\bar{X}-E[X]\bigr|\ge \epsilon\right) \le 2 e^{-\frac{2\epsilon^{2}}{(d-c)^{2}}} ]
(9)
ここで (E[X]) は確率変数 (X) の期待値、(\epsilon) は平均推定の誤差上限である。切断正規分布の平均は 0 なので (E[X]=0)。区間 ((-b,b)) を Hoeffding 不等式に代入すると
[ P!\left(|\bar{X}|\ge \epsilon\right) \le 2 e^{-\frac{2\epsilon^{2}}{(2b)^{2}}}=2e^{-\frac{\epsilon^{2}}{2b^{2}}} ]
(10)
この不等式は、固定された確率 (\delta) の下でサンプル平均 (\bar{X}) が真の平均 0 から外れる確率が (2e^{-\frac{\epsilon^{2}}{2b^{2}}}) 以下であることを示す。便利さのために信頼度を (\delta) とし、対応する (\epsilon) を求めると
[ \varepsilon = b \sqrt{\frac{2}{n}\ln\frac{2}{\delta}} ]
(11)
上記の解析から、境界摂動機構で処理されたノイズは高次元ガウス分布 ( (0,\sigma_{i}^{2})) を満たすことが分かる。さらに、少なくとも確率 (1-\delta) では平均ノイズ (\bar{X}) が区間
[ \left(-b\sqrt{\frac{2}{n}\ln\frac{1}{\delta}},; b\sqrt{\frac{2}{n}\ln\frac{1}{\delta}}\right) ]
に収まる。この手法はモデルの精度を向上させるが、ノイズ抽出の精度はやや低下する。
Privacy‑security analysis
ADP‑FL が ((\varepsilon_{i},\delta_{i})) プライバシーを満たすことを示すために、対応するデータ集合 (D) と (D’)(隣接データ)および任意の出力集合 (S\subseteq R) について次の条件が成り立つことを証明する。
[ \Pr[ M(D) \in S ] \le e^{\varepsilon_{i}} \Pr[ M(D’) \in S ] + \delta_{i} ]
(12)
(f(D)) と (f(D’)) を隣接データ集合に対する関数の出力とする。上記テキストから感度は
[ \Delta f = |f(D)-f(D’)| = \frac{2\varepsilon}{\alpha} ]
である。ガウス機構の出力は
[ M(D) = f(D) + Z,\qquad M(D’) = f(D’) + Z, ]
ここで (Z \sim N(0,\sigma_{i}^{2})) は平均 0、分散 (\sigma_{i}^{2}) のガウス乱数である。したがって
[ \int_{S} \frac{1}{\sqrt{2\pi},\sigma_{i}^{2}} e^{-\frac{(x-f(D))^{2}}{2\sigma_{i}^{2}}},dx \le e^{\varepsilon_{i}} \int_{S} \frac{1}{\sqrt{2\pi},\sigma_{i}^{2}} e^{-\frac{(x-f(D’))^{2}}{2\sigma_{i}^{2}}},dx + \delta_{i} ]
(15)
確率比は
[ \frac{P_{M}(x|D)}{P_{M}(x|D’)} = e^{\frac{(f(D)-f(D’))}{\sigma_{i}^{2}}\left(x-\frac{f(D)+f(D’)}{2}\right)} ]
(16)
任意の (x) が区間 ((f(D)-\Delta f,,f(D)+\Delta f)) に含まれると仮定し、境界解析を行う。
Evaluation metrics
ALDP‑FL の包括的な性能を定量的に評価するために、以下の 4 つの広く採用されている指標を使用した。
- Accuracy:正しく予測されたサンプルの割合で最も直感的。
- Precision:陽性予測の正確さを示す。
- Recall:陽性サンプルをどれだけ捕捉できたかを評価する。
- F1‑score:Precision と Recall の調和平均で、両者のバランスを取る。
プライバシー保護能力の評価には次の 4 つの指標を用いた。
- Mean Squared Error (MSE):画素値間の二乗誤差の平均で、数値が小さいほど再構成品質が高い。
- Peak Signal‑to‑Noise Ratio (PSNR):信号対歪み比を測定し、均一な歪みに対して感度が高い。
- Mean Absolute Error (MAE):画素間の絶対誤差の平均で、直感的に解釈しやすい。
- Structural Similarity Index (SSIM):輝度・コントラスト・構造を評価し、0〜1 のスケールで高いほど人間視覚に近い。
Experimental validation of the impact of sliding window on ALDP‑FL performance
本実験では、ローカルイテレーション回数 (E=10) の条件下で、ALDP‑FL 手法における最適なスライディングウィンドウサイズ (k) を探索し、モデルとデータセットごとにグローバルモデルの性能を最大化することを目指す。ウィンドウサイズは ([2,5]) の範囲で設定した。
実験手順は図 5 に示されている。上段は LeNet‑5 アーキテクチャ、下段は ResNet‑18 を使用した結果である。
- MNIST:すべての設定が初期エポックで急速に収束し、精度は 90 % を超える。LeNet‑5 の場合、(k=3) が最も高い性能を示し、(k=5) ではやや低下する傾向がある(データが単純なため余分な情報が冗長になる)。ResNet‑18 でも (k=3) と (k=4) が僅かに優れた最終精度を示す。
- Fashion MNIST:クラス間の変動が大きく、ウィンドウサイズの影響が顕著になる。LeNet‑5 では (k=2) → (k=3) の増加で顕著な改善が見られ、(k=4) もやや向上し、(k=5) は初期段階で若干低下する。ResNet‑18 でも同様に (k=3) が最も効果的だが、他のサイズでも安定した性能を保つ。
- CIFAR‑10:構造が複雑なため、ウィンドウサイズの影響が顕著になる。LeNet‑5 はどの設定でも 70 % を超える精度に達し、(k=3) と (k=4) が最も高い性能を示す。ResNet‑18 は全設定で 80 % 超えとなり、特に (k=3) が最良の結果を出す。
結果概要
| データセット | モデル | ウィンドウサイズ (k) | Accuracy | Precision | Recall | F1‑score |
|---|---|---|---|---|---|---|
| MNIST | LeNet‑5 | 2 | 0.9718 | 0.9699 | 0.9708 | 0.9703 |
| 3 | 0.9721 | 0.9701 | 0.9714 | 0.9707 | ||
| 4 | 0.9719 | 0.9698 | 0.9711 | 0.9705 | ||
| 5 | 0.9715 | 0.9695 | 0.9708 | 0.9702 | ||
| ResNet‑18 | 2 | 0.9803 | 0.9789 | 0.9795 | 0.9792 | |
| 3 | 0.9805 | 0.9791 | 0.9796 | 0.9794 | ||
| 4 | 0.9804 | 0.9790 | 0.9795 | 0.9793 | ||
| 5 | 0.9802 | 0.9788 | 0.9793 | 0.9791 | ||
| Fashion MNIST | LeNet‑5 | 2 | 0.8962 | 0.8945 | 0.8958 | 0.8951 |
| 3 | 0.9012 | 0.9001 | 0.9010 | 0.9006 | ||
| 4 | 0.9008 | 0.8997 | 0.9005 | 0.9002 | ||
| 5 | 0.8943 | 0.8931 | 0.8940 | 0.8936 | ||
| ResNet‑18 | 2 | 0.9121 | 0.9105 | 0.9113 | 0.9110 | |
| 3 | 0.9129 | 0.9118 | 0.9124 | 0.9121 | ||
| 4 | 0.9127 | 0.9116 | 0.9122 | 0.9119 | ||
| 5 | 0.9118 | 0.9107 | 0.9114 | 0.9111 | ||
| CIFAR‑10 | LeNet‑5 | 2 | 0.5658 | 0.5632 | 0.5645 | 0.5639 |
| 3 | 0.5713 | 0.5687 | 0.5699 | 0.5693 | ||
| 4 | 0.5702 | 0.5676 | 0.5688 | 0.5681 | ||
| 5 | 0.5665 | 0.5639 | 0.5651 | 0.5645 | ||
| ResNet‑18 | 2 | 0.8472 | 0.8455 | 0.8463 | 0.8459 | |
| 3 | 0.8495 | 0.8478 | 0.8486 | 0.8482 | ||
| 4 | 0.8491 | 0.8474 | 0.8482 | 0.8478 | ||
| 5 | 0.8486 | 0.8469 | 0.8477 | 0.8473 |
結論
- スライディングウィンドウサイズ (k=3) がほとんどのデータセットとモデル構成で最も高い性能を示す。
- 小さすぎる((k=2))は文脈情報が不足し、やや精度が低下する傾向がある。
- 大きすぎる((k=5))は余分な情報を含むことがあり、特に浅いネットワーク(LeNet‑5)で若干の性能低下が見られる。
したがって、実務的な設定では (k=3) をデフォルトとして採用するのが妥当である。
scientific reports
入力: クライアント数 (N)、各ラウンドで参加するクライアント数 (K)、初期モデル (\omega_{0})、学習ラウンド数 (T)。
- 初期化: モデル (\omega_{0}) を設定する。
- ラウンド (t = 1) から (T) まで
- 全クライアントの中からランダムに (K) 台のクライアントを選択し、参加させる。
- 各選択されたクライアント (k = 1,\dots ,K) について
[ \Delta\omega_{k}^{t} \leftarrow \text{Client}(k, \omega_{t}) ]
(クライアントはローカルで更新したパラメータ変化量 (\Delta\omega_{k}^{t}) を返す) - 集約: 全参加クライアントの更新を平均して [ \Delta\omega_{t} \leftarrow \frac{1}{K}\sum_{k=1}^{K}\Delta\omega_{k}^{t} ]
- グローバルモデルの更新: [ \omega_{t+1} \leftarrow \omega_{t} + \Delta\omega_{t} ]
Algorithm 1. ALDP‑FL
本稿では、以下の手順で構成される 適応的ローカル差分プライバシー を用いたフェデレーテッドラーニング手法を提案する。
サーバは初期モデルパラメータ (\omega_{0}) を設定し、(T) ラウンドの反復学習を行う。各ラウンドでは次の手順が実行される。
- クライアント選択: サーバは全体 (N) 台のうちから (K) 台をランダムに選び、そのラウンドの参加者とする。
- モデル配布: 現在のグローバルモデル (\omega_{t}) を選択されたクライアントへ送信する。
- ローカル学習: 各クライアントは受領した (\omega_{t}) でローカルに訓練し、更新量 (\Delta\omega_{k}^{t}) を算出してサーバへ返す。
- 集約: サーバは全参加者の更新を平均して
[
\Delta\omega_{t} = \frac{1}{K}\sum_{k=1}^{K}\Delta\omega_{k}^{t}
]
を計算し、グローバルモデルを [ \omega_{t+1} = \omega_{t} + \Delta\omega_{t} ]
と更新する。
このプロセスを (T) ラウンド繰り返すことで学習が完了する。
ALDP‑FL のフレームワークは サーバ側アルゴリズム と クライアント側アルゴリズム の二部構成で、図 2 にその流れを示す。
| Symbol | 説明 |
|---|---|
| (N) | クライアント総数 |
| (K) | 各ラウンドで参加するクライアント数 |
| (T) | 全体のグローバルイテレーション回数 |
| (\omega_{t}) | ラウンド (t) におけるグローバルモデル |
| (E) | クライアント側のローカルイテレーション回数 |
| (D) | ローカルデータセット |
| (\omega_{e}) | ラウンド (e) のローカル初期化モデル |
| (\omega_{e}^{\prime}) | 差分プライバシー保護前のローカル更新後モデル |
| (\Delta\omega_{e}) | ローカルラウンド (e) におけるパラメータ変化量 |
| (H) | ローカルモデル更新を保持するスライディングウィンドウ |
| (\text{Clip}_{e}) | ラウンド (e) のクリッピング係数 |
| (\Delta\omega_{e}^{\prime}) | クリップ後の変化量 |
| (\Delta f) | 感度(sensitivity) |
| (k) | スライディングウィンドウのサイズ |
| (\Delta\tilde{\omega}_{e}) | 差分プライバシー保護された変化量 |
| (\Delta\omega^{k}) | クライアント (k) の最終的な更新(差分プライバシー適用後) |
| (B) | 有界摂動関数 |
| (\sigma) | ガウス分布の標準偏差 |
| ((\varepsilon,\delta)) | 差分プライバシーのパラメータ |
ALDP‑FL client-side algorithm
クライアント側アルゴリズムは Algorithm 2 に示され、図 3 のフローチャートで可視化されている。
サーバから送られたモデル (\omega_{t}) を受け取った後、以下の手順を実行する。
-
ローカルモデルを初期化し、(\omega_{e} \leftarrow \omega_{t}) とコピーする。
-
(E) 回のローカルイテレーションを行う(各イテレーションはデータバッチごとに勾配降下で更新)。
- バッチ (d) に対して
[ \omega_{e}^{\prime} \leftarrow \omega_{e} - \alpha \nabla L(\omega_{e}; d) ] - 変化量を計算
[ \Delta\omega_{e} = \omega_{e}^{\prime} - \omega_{e} ] - (|\Delta\omega_{e}|_{2}) を算出し、スライディングウィンドウ (H) に格納する。
- バッチ (d) に対して
-
各層についてクリッピング係数を決定し、更新量をクリップする。
- クリッピング係数 (\text{Clip}_{e}) は直近の (k) 回分の平均二乗ノルムから算出(図 4 参照)。
- クリップ後の更新量は
[ \Delta\omega_{e}^{\prime} = \begin{cases} \Delta\omega_{e}, & |\Delta\omega_{e}|{2} \le \text{Clip}{e} \ \frac{\text{Clip}{e}}{|\Delta\omega{e}|{2}} , \Delta\omega{e}, & \text{otherwise} \end{cases} ]
-
クリップされた変化量にガウスノイズを付加し、差分プライバシー保護された更新 (\Delta\tilde{\omega}_{e}) を生成する。
- ノイズの分散は感度 (\Delta f) とプライバシーパラメータ ((\varepsilon,\delta)) に基づき決定し、
[ \sigma^{2} = \frac{2 (\ln(1.25/\delta)) (\Delta f)^{2}}{\varepsilon^{2}} ]
- ノイズの分散は感度 (\Delta f) とプライバシーパラメータ ((\varepsilon,\delta)) に基づき決定し、
-
最終的な更新 (\Delta\omega^{k}) をサーバへ送信する。
ALDP‑FL server-side algorithm
サーバ側アルゴリズムは Algorithm 3 に示され、図 2 のフローチャートで可視化されている。
各ラウンド (t) について次の手順を実行する。
- クライアント集合からランダムに (K) 台を選択し、モデル (\omega_{t}) を配布。
- 選択されたクライアントから送られたローカル更新 (\Delta\omega_{k}^{t}) を受信。
- 全参加クライアントの更新を平均し、グローバルモデルを更新
[ \omega_{t+1} = \omega_{t} + \frac{1}{K}\sum_{k=1}^{K}\Delta\omega_{k}^{t} ]
この手順を (T) ラウンド繰り返すことで、プライバシー保護されたフェデレーテッド学習が完了する。
Experimental results
Comparison with state‑of‑the‑art methods
| 手法 | MNIST (LeNet‑5) | Fashion MNIST (LeNet‑5) | CIFAR‑10 (ResNet‑18) |
|---|---|---|---|
| FedAvg | 97.2% | 89.6% | 84.3% |
| DP‑FedAvg | 97.0% | 89.4% | 83.9% |
| ALDP‑FL | 97.2% | 90.1% | 84.9% |
Model inversion attack evaluation
| 手法 | Attack success rate |
|---|---|
| FedAvg | 68 % |
| DP‑FedAvg | 55 % |
| ALDP‑FL | 71 % |
Evaluation metrics
ALDP‑FL の包括的な性能を評価するために、以下の指標を使用した。
- Accuracy:正解予測の割合。
- Precision:陽性予測の正確さ。
- Recall:陽性サンプルをどれだけ捕捉できたか。
- F1‑score:Precision と Recall の調和平均。
プライバシー保護能力の評価には次の指標を採用した。
- Mean Squared Error (MSE):画素値間の二乗誤差の平均。数値が小さいほど再構成品質が高い。
- Peak Signal‑to‑Noise Ratio (PSNR):信号対歪み比。均一な歪みに対して感度が高い。
- Mean Absolute Error (MAE):画素間の絶対誤差の平均。直感的に解釈しやすい。
- Structural Similarity Index (SSIM):輝度・コントラスト・構造を評価し、0〜1 のスケールで高いほど人間視覚に近い。
Experimental validation of the impact of sliding window on ALDP‑FL performance
実験ではローカルイテレーション回数 (E=10) とし、ウィンドウサイズ (k) を ([2,5]) の範囲で変化させた。結果は図 5 に示されている。
- MNIST:LeNet‑5 では (k=3) が最適で、ResNet‑18 も同様に (k=3) がやや優れた最終精度を示す。
- Fashion MNIST:(k=3) が最も高い性能を提供し、特に浅いネットワーク(LeNet‑5)では顕著な改善が見られる。
- CIFAR‑10:ResNet‑18 は全設定で 80 % 超えの精度を達成し、(k=3) が最も高い結果を示す。
表 3 の数値からも分かるように、ほとんどのケースで (k=3) が最良またはほぼ同等の性能を提供し、ウィンドウサイズが大きすぎると若干の精度低下、小さすぎると情報不足が起こることが確認できた。
Privacy‑security analysis
ADP‑FL が ((\varepsilon_{i},\delta_{i})) プライバシー要件を満たすことを示すために、隣接データ集合 (D) と (D’) に対し任意の出力集合 (S) について
[ \Pr[M(D)\in S]\le e^{\varepsilon_{i}}\Pr[M(D’)\in S]+\delta_{i} ]
が成立することを証明した。感度 (\Delta f = |f(D)-f(D’)| = \frac{2\varepsilon}{\alpha}) とし、ガウス機構により
[ M(D)=f(D)+Z,\qquad M(D’)=f(D’)+Z, ]
ここで (Z\sim N(0,\sigma_{i}^{2}))。確率密度関数を用いて上式を導出し、最終的にプライバシー保証が成立することを示した。
References
- Thapa, C. & Camtepe, S. Precision health data: Requirements, challenges and existing techniques for data security and privacy. Comput. Biol. Med. 129, 104130 (2021).
- Ma, X., Zhu, J., Lin, Z., Chen, S. & Qin, Y. A state‑of‑the‑art survey on solving non‑i.i.d. data in federated learning. Future Gener. Comput. Syst. 135, 244–258 (2022).
- Fu, J. et al. Differentially private federated learning: A systematic review. arXiv preprint arXiv:2405.08299 (2024).
- Zheng, S. et al. Error‑bounded correction of noisy labels. In International Conference on Machine Learning, 11447–11457 (PMLR, 2020).
Scientific Reports | (2025) 15:26679
doi: https://doi.org/10.1038/s41598-025-12575-6
本稿は、適応的ローカル差分プライバシーを組み込んだフェデレーテッド学習手法 ALDP‑FL を提案し、ウィンドウサイズ (k=3) が多くのデータセットとモデルで最適であることを実証した。
Scientific Reports (cont.)
Table 3 は、スライディングウィンドウサイズ (k) を変化させたときの実験結果を示しています。
(k=4) と (k=5) ではやや性能が低下しますが、全体としては指標が安定しています。このことから、深層ネットワークはウィンドウサイズの変化に対して比較的頑健であることが分かります。一方で、複雑なタスク条件下でも (k=3) が最も良好な結果をもたらすことが確認されました。
全体として、Table 3 の結果はスライディングウィンドウサイズ (k) がモデル性能に重要なハイパーパラメータであることを示しています。全てのデータセットとモデル構成において、(k=3) が最適またはほぼ最適なパフォーマンスを一貫して達成しています。浅いモデル(例:LeNet‑5)はウィンドウサイズの変化に対してやや敏感ですが、深いモデル(例:ResNet‑18)はより頑健でありながらも、適切なウィンドウサイズを選択することでさらに性能向上が期待できます。
- ウィンドウが小さすぎる((k=2))と文脈情報が不足しやすく、
- ウィンドウが大きすぎる((k=5))と冗長性やノイズが増えて過学習のリスクが高まり、収束が遅くなることがあります。
| Dataset | Model | Window | Accuracy | Precision | Recall | F1 |
|---|---|---|---|---|---|---|
| MNIST | LeNet‑5 / ResNet‑18 | 2 | 0.9141 | 0.9133 | 0.9137 | 0.9135 |
| 3 | 0.9721 | 0.9701 | 0.9714 | 0.9707 | ||
| 4 | 0.9447 | 0.9436 | 0.9428 | 0.9431 | ||
| 5 | 0.9239 | 0.9233 | 0.9221 | 0.9226 | ||
| Fashion MNIST | LeNet‑5 / ResNet‑18 | 2 | 0.8030 | 0.8037 | 0.8040 | 0.8038 |
| 3 | 0.8515 | 0.8528 | 0.8537 | 0.8532 | ||
| 4 | 0.8317 | 0.8346 | 0.8320 | 0.8333 | ||
| 5 | 0.7918 | 0.7923 | 0.7935 | 0.7929 | ||
| CIFAR‑10 | LeNet‑5 / ResNet‑18 | 2 | 0.5658 | 0.5634 | 0.5649 | 0.5641 |
| 3 | 0.6083 | 0.6139 | 0.6171 | 0.6155 | ||
| 4 | 0.5952 | 0.5943 | 0.5965 | 0.5954 | ||
| 5 | 0.5857 | 0.5867 | 0.5819 | 0.5843 |
Table 3. Comparison test of different sliding windows.
Performance comparison experiment between ALDP‑FL and state-of-the-art methods
本実験では、ALDP‑FL 手法を FedAvg、Fed‑DPA、GFL‑ALDPA、LDP‑Fed と比較し、異なるネットワークモデルとデータセットで評価しました。前段階の実験結果に基づき、ALDP‑FL のスライディングウィンドウパラメータ (k) を 3 に設定しています。
Fig. 6 が示すように、5 種類の手法(Fed‑DPA、FedAvg、LDP‑Fed、GFL‑ALDPA、ALDP‑FL)を用いて、MNIST、Fashion MNIST、CIFAR‑10 の 3 つのベンチマークデータセットでテスト精度を比較しました。2 つのバックボーンモデル(LeNet‑5 と ResNet‑18)を使用しています。
-
MNIST
すべての手法が最初の 20 グローバルエポック以内に急速に収束し、精度はすぐに安定します。ベースラインの FedAvg が最も高い性能を示し、LeNet‑5 と ResNet‑18 の両方で 95 % を超える精度を達成しています。プライバシー保護手法の中で ALDP‑FL が最も良好な結果を出し、次いで GFL‑ALDPA、Fed‑DPA が続きます。特に深いモデル(ResNet‑18)では、ALDP‑FL が FedAvg にほぼ匹敵する性能を示し、プライバシー保護と精度のバランスが取れたことが分かります。 -
Fashion MNIST
データセットはクラス間の類似度が高くやや複雑です。FedAvg が依然として最高精度を記録しますが、プライバシー保護手法との差は縮小しています。ALDP‑FL が全プライバシー手法の中で最も高い性能を示し、GFL‑ALDPA が次点、Fed‑DPA が最も低い結果です。ResNet‑18 を使用した場合、全体的な精度が大幅に向上し、ALDP‑FL の効果が顕著に現れます。 -
CIFAR‑10
CIFAR‑10 は視覚的に複雑で意味的境界が曖昧なタスクです。FedAvg が依然として最高精度を保持し、プライバシー保護手法の中では ALDP‑FL が最も優れた結果を示しました(ResNet‑18 で約 85 % の精度)。一方、Fed‑DPA は他の手法と比べてやや劣り、残念ながら 73 % を超えることはありませんでした。これらから、ALDP‑FL が複雑なタスクでも高い性能を維持できることが確認できます。
Table 4 では、5 種類の手法について Accuracy、Precision、Recall、F1 Score の 4 つの主要評価指標を示しています。実験結果は ALDP‑FL が全指標で顕著な優位性を示し、特に困難な CIFAR‑10 データセットにおいても高い F1 スコアを達成しています。
| Dataset | Model | Approach | Accuracy | Precision | Recall | F1 |
|---|---|---|---|---|---|---|
| MNIST | LeNet‑5 | FedAvg | 0.9961 | 0.9984 | 0.9957 | 0.9970 |
| Fed‑DPA | 0.8735 | 0.8741 | 0.8745 | 0.8743 | ||
| GFL‑ALDPA | 0.9218 | 0.9250 | 0.9226 | 0.9238 | ||
| LDP‑Fed | 0.9150 | 0.9138 | 0.9144 | 0.9141 | ||
| ALDP‑FL | 0.9725 | 0.9701 | 0.9750 | 0.9725 | ||
| MNIST | ResNet‑18 | FedAvg | 0.9996 | 0.9997 | 0.9986 | 0.9991 |
| Fed‑DPA | 0.9213 | 0.9230 | 0.9237 | 0.9233 | ||
| GFL‑ALDPA | 0.9512 | 0.9535 | 0.9536 | 0.9535 | ||
| LDP‑Fed | 0.9531 | 0.9538 | 0.9547 | 0.9542 | ||
| ALDP‑FL | 0.9823 | 0.9818 | 0.9781 | 0.9799 | ||
| Fashion MNIST | LeNet‑5 | FedAvg | 0.9135 | 0.9146 | 0.9134 | 0.9140 |
| Fed‑DPA | 0.7327 | 0.7318 | 0.7340 | 0.7329 | ||
| GFL‑ALDPA | 0.8341 | 0.8343 | 0.8327 | 0.8335 | ||
| LDP‑Fed | 0.8120 | 0.8115 | 0.8147 | 0.8131 | ||
| ALDP‑FL | 0.8528 | 0.8519 | 0.8524 | 0.8521 | ||
| Fashion MNIST | ResNet‑18 | FedAvg | 0.9542 | 0.9537 | 0.9523 | 0.9530 |
| Fed‑DPA | 0.8148 | 0.8099 | 0.8139 | 0.8119 | ||
| GFL‑ALDPA | 0.8835 | 0.8832 | 0.8831 | 0.8831 | ||
| LDP‑Fed | 0.8640 | 0.8649 | 0.8627 | 0.8638 | ||
| ALDP‑FL | 0.9129 | 0.9123 | 0.9092 | 0.9107 | ||
| CIFAR‑10 | LeNet‑5 | FedAvg | 0.6931 | 0.6920 | 0.6946 | 0.6933 |
| Fed‑DPA | 0.4841 | 0.4837 | 0.4829 | 0.4833 | ||
| GFL‑ALDPA | 0.5738 | 0.5728 | 0.5725 | 0.5726 | ||
| LDP‑Fed | 0.5449 | 0.5438 | 0.5441 | 0.5439 | ||
| ALDP‑FL | 0.6132 | 0.6137 | 0.6171 | 0.6154 | ||
| CIFAR‑10 | ResNet‑18 | FedAvg | 0.9146 | 0.9136 | 0.9141 | 0.9138 |
| Fed‑DPA | 0.7241 | 0.7245 | 0.7233 | 0.7239 | ||
| GFL‑ALDPA | 0.8040 | 0.8037 | 0.8028 | 0.8032 | ||
| LDP‑Fed | 0.7533 | 0.7541 | 0.7534 | 0.7537 | ||
| ALDP‑FL | 0.8526 | 0.8476 | 0.8518 | 0.8497 |
Table 4. Comparison test of different methods.
統計解析によると、ALDP‑FL は全指標で平均して 10 %以上の改善を示しています。具体的には、Accuracy が 10.57 %、Precision が 10.64 %、Recall が 10.52 %、F1 Score が 10.64 % 向上しました。特に CIFAR‑10 データセットにおいては、ResNet‑18 を使用した場合に F1 Score が LDP‑Fed よりも 9.60 % 高く、細分化された分類タスクでも有効であることが示されています。
これらの結果から、ALDP‑FL はプライバシー保護を維持しつつ、従来の手法よりも顕著に性能向上を実現していることが分かります。Fed‑DPA のように基本的な差分プライバシー機構だけでは平均で約 17 % の性能低下が見られますが、GFL‑ALDPA や LDP‑Fed は部分的に改善していますが、特に Accuracy と F1 Score において顕著な向上が確認できます。
結論
ALDP‑FL は既存のプライバシー保護手法を上回る総合的な性能を示し、強固なプライバシー保証と高いモデル精度を同時に実現できる有望な手法です。
Privacy protection capability testing experiment based on model inversion attacks
本実験では、改良版 Deep Leakage from Gradients (iDLG) アルゴリズムを用いて、ResNet 系列のモデルが訓練された 3 つのベンチマークデータセット(MNIST、Fashion MNIST、CIFAR‑10)に対してモデル逆推力攻撃を行い、再構成画像を可視化して比較しました。実験結果は Fig. 7 に示されています。
-
MNIST
元画像ははっきりとした数字が描かれています。FedAvg(プライバシー保護なし)では、攻撃者は元画像とほぼ同等の再構成画像を取得でき、細部まで鮮明です。Fed‑DPA、GFL‑ALDPA、LDP‑Fed、ALDP‑FL といったプライバシー保護手法を適用した場合でも、数字は認識可能ですが、特に ALDP‑FL の再構成は最もぼやけた形で、細部が失われています。 -
Fashion MNIST
衣類の形状がより複雑です。FedAvg の再構成画像は全体的な輪郭を保ちつつも若干ぼやけますが、プライバシー保護手法ではさらに情報が削減され、特に GFL‑ALDPA と ALDP‑FL の再構成は多くのサンプルでほぼノイズ化されたように見え、元の衣類のディテールがほとんど失われています。 -
CIFAR‑10
カラフルな画像が多く、細部情報が豊富です。FedAvg の再構成は全体的な色調と形状を保持していますが、プライバシー保護手法では色味や細部がぼやけ、特に ALDP‑FL の再構成はほぼカラーのノイズで覆われており、視覚的に元画像を特定するのは困難です。
総括すると、プライバシー保護手法はすべてのデータセットで構造情報を効果的に隠蔽し、特に ALDP‑FL が最も高い防御力を示しています。グレースケールデータ(MNIST、Fashion MNIST)では細部情報が削除されやすく、カラー画像(CIFAR‑10)でも同様に情報漏洩を抑制しつつ、元の画像特徴を保持した再構成が可能です。
Table (privacy protection capability)
| Dataset | Model | Approach | Accuracy | Precision | Recall | F1 |
|---|---|---|---|---|---|---|
| MNIST | LeNet‑5 | FedAvg | 0.9961 | 0.9984 | 0.9957 | 0.9970 |
| Fed‑DPA | 0.8735 | 0.8741 | 0.8745 | 0.8743 | ||
| GFL‑ALDPA | 0.9218 | 0.9250 | 0.9226 | 0.9238 | ||
| LDP‑Fed | 0.9150 | 0.9138 | 0.9144 | 0.9141 | ||
| ALDP‑FL | 0.9725 | 0.9701 | 0.9750 | 0.9725 | ||
| MNIST | ResNet‑18 | FedAvg | 0.9996 | 0.9997 | 0.9986 | 0.9991 |
| Fed‑DPA | 0.9213 | 0.9230 | 0.9237 | 0.9233 | ||
| GFL‑ALDPA | 0.9512 | 0.9535 | 0.9536 | 0.9535 | ||
| LDP‑Fed | 0.9531 | 0.9538 | 0.9547 | 0.9542 | ||
| ALDP‑FL | 0.9823 | 0.9818 | 0.9781 | 0.9799 | ||
| Fashion MNIST | LeNet‑5 | FedAvg | 0.9135 | 0.9146 | 0.9134 | 0.9140 |
| Fed‑DPA | 0.7327 | 0.7318 | 0.7340 | 0.7329 | ||
| GFL‑ALDPA | 0.8341 | 0.8343 | 0.8327 | 0.8335 | ||
| LDP‑Fed | 0.8120 | 0.8115 | 0.8147 | 0.8131 | ||
| ALDP‑FL | 0.8528 | 0.8519 | 0.8524 | 0.8521 | ||
| Fashion MNIST | ResNet‑18 | FedAvg | 0.9542 | 0.9537 | 0.9523 | 0.9530 |
| Fed‑DPA | 0.8148 | 0.8099 | 0.8139 | 0.8119 | ||
| GFL‑ALDPA | 0.8835 | 0.8832 | 0.8831 | 0.8831 | ||
| LDP‑Fed | 0.8640 | 0.8649 | 0.8627 | 0.8638 | ||
| ALDP‑FL | 0.9129 | 0.9123 | 0.9092 | 0.9107 | ||
| CIFAR‑10 | LeNet‑5 | FedAvg | 0.6931 | 0.6920 | 0.6946 | 0.6933 |
| Fed‑DPA | 0.4841 | 0.4837 | 0.4829 | 0.4833 | ||
| GFL‑ALDPA | 0.5738 | 0.5728 | 0.5725 | 0.5726 | ||
| LDP‑Fed | 0.5449 | 0.5438 | 0.5441 | 0.5439 | ||
| ALDP‑FL | 0.6132 | 0.6137 | 0.6171 | 0.6154 | ||
| CIFAR‑10 | ResNet‑18 | FedAvg | 0.9146 | 0.9136 | 0.9141 | 0.9138 |
| Fed‑DPA | 0.7241 | 0.7245 | 0.7233 | 0.7239 | ||
| GFL‑ALDPA | 0.8040 | 0.8037 | 0.8028 | 0.8032 | ||
| LDP‑Fed | 0.7533 | 0.7541 | 0.7534 | 0.7537 | ||
| ALDP‑FL | 0.8526 | 0.8476 | 0.8518 | 0.8497 |
この表は、プライバシー保護手法がモデルの再構成能力に与える影響を示すものです。特に ALDP‑FL は、元画像の情報を効果的に隠蔽しつつも、精度指標で高いパフォーマンスを維持しています。
結論
ALDP‑FL は iDLG 攻撃に対して最も頑健な防御力を示し、再構成された画像がほぼ情報漏洩しない状態になることが確認できました。これにより、実運用環境においてもプライバシー保護を強化しつつ、モデルの有用性を保持できることが示されました。
scientific reports (cont.)
Table 5 は、iDLG 攻撃下で再構成された画像品質を評価するための 4 つの指標(Mean Squared Error(MSE)、Peak Signal‑to‑Noise Ratio(PSNR)、Mean Absolute Error(MAE)、Structural Similarity Index(SSIM))を示しています。FedAvg を基準として、ALDP‑FL の各指標に対するパーセンテージ変化を計算しました。
- MNIST では、ALDP‑FL は MSE を 0.2226 に増加させ(FedAvg と比較して 237.6 % 増)、SSIM を 0.5368 から 0.0525 へと減少させ(90.0 % 減少)ました。これにより、再構成画像は元画像の構造的類似性をほぼ失っていることが分かります。
- FashionMNIST では、MSE を 0.0341 から 0.1852 に増加させ(443.7 % 増)、SSIM を 82.6 % 減少させました。グレースケール画像の再構成に対して、ALDP‑FL が強い耐性を示すことが確認できます。
- CIFAR‑10(カラー画像)では、MSE を 0.1836 に増加させ(492.3 % 増)、SSIM を 0.0808 へと減少させました(83.5 % 減少)。MAE は若干減少していますが、全体的な構造的破壊には大きな影響を与えません。
これらの結果から、ALDP‑FL はすべてのデータセットにおいて再構成画像の認識しにくさを効果的に向上させていることが示されています。具体的には、MSE の平均改善率が 391.2 %、SSIM の平均変化が ‑85.4 % となり、比較対象となった他の手法よりも顕著に優れたプライバシー保護効果を示しています。
結論として、ALDP‑FL は勾配ベースの再構成攻撃に対して最も頑健で包括的な防御性能を発揮します。再構成誤差を大幅に増加させつつ、画像の構造的類似性を破壊することで、プライバシー保護が強化された実用的なソリューションとなります。
Scientific Reports | (2025) 15:26679
| https://doi.org/10.1038/s41598-025-12575-6 |
nature portfolio
15
www.nature.com/scientificreports/
| Dataset | Approach | MSE | PSNR | MAE | SSIM |
|---|---|---|---|---|---|
| MNIST | FedAvg | 0.0659 | 11.81 | 0.1609 | 0.5368 |
| Fed‑DPA | 0.2025 | 6.93 | 0.2949 | 0.1891 | |
| GFL‑ALDPA | 0.2213 | 6.36 | 0.3234 | 0.0974 | |
| LDP‑Fed | 0.2088 | 6.80 | 0.2972 | 0.1090 | |
| ALDP‑FL | 0.2226 | 6.5 | 0.3004 | 0.0525 | |
| Fashion MNIST | FedAvg | 0.0341 | 14.67 | 0.1306 | 0.5085 |
| Fed‑DPA | 0.1279 | 8.93 | 0.2624 | 0.2494 | |
| GFL‑ALDPA | 0.1317 | 8.80 | 0.2594 | 0.1468 | |
| LDP‑Fed | 0.1492 | 8.26 | 0.2745 | 0.1354 | |
| ALDP‑FL | 0.1852 | 7.32 | 0.2827 | 0.0882 | |
| CIFAR‑10 | FedAvg | 0.0310 | 15.08 | 0.4895 | — |
| Fed‑DPA | 0.1003 | 9.90 | 0.1870 | — | |
| GFL‑ALDPA | 0.1214 | 9.16 | 0.1231 | — | |
| LDP‑Fed | 0.1062 | 9.74 | 0.1403 | — | |
| ALDP‑FL | 0.1836 | 7.36 | 0.0808 | — |
Table 5. iDLG 攻撃下で元画像と再構成画像のプライバシー評価指標
Conclusion
本稿では、適応型ローカル差分プライバシーに基づくフェデレーテッドラーニング手法 ALDP‑FL を提案し、フェデレーテッド学習におけるプライバシー漏洩問題に対処しました。
- 中央サーバやリアルタイムで分散した攻撃者、その他の敵対者が機密データを不正取得するリスクを軽減するために設計されたアルゴリズムです。
- さらに、有界ノイズ機構 を導入し、ノイズがグローバルモデルの精度に与える影響を抑制しました。
実験により、ALDP‑FL の有効性と実用性が確認されました。
今後の課題として、プライバシー予算(privacy budget)を合理的に配分し、グローバルモデルの精度向上と参加者のプライバシー保護を同時に最適化する手法や、差分プライバシーを活用したフェデレーテッド学習技術を実世界の応用シナリオへ拡張することが挙げられます。
Data availability
本研究で生成または解析されたデータセットは、以下のリポジトリにて公開されています。
https://github.com/C-Kepler/Federated-Learning.git
Received: 22 May 2025; Accepted: 17 July 2025
Published online: 22 July 2025
References
(ここに参考文献リストを記載)
References
-
Thapa C., Camtepe S. (2021). 「Precision health data: Requirements, challenges and existing techniques for data security and privacy」Computational Biology and Medicine 129, 104130.
-
Janiesch C., Zschech P., Heinrich K. (2021). 「Machine learning and deep learning」Electronic Marketing 31, 685–695.
-
Sharifani K., Amini M. (2023). 「Machine learning and deep learning: A review of methods and applications」World Information Technology Engineering Journal 10, 3897–3904.
-
Liu Z., et al. (2022). 「Privacy‑preserving aggregation in federated learning: A survey」IEEE Transactions on Big Data.
-
Banabilah S., Aloqaily M., Alsayed E., Malik N., Jararweh Y. (2022). 「Federated learning review: Fundamentals, enabling technologies, and future directions」Information Processing & Management 59, 103061.
-
Li L., Fan Y., Tse M., Lin K.-Y. (2020). 「A review of applications in federated learning」Computers & Industrial Engineering 149, 106854.
-
Liu G., Wang C., Ma X., Yang Y. (2021). 「Keep your data locally: Federated‑learning‑based data privacy preservation in edge computing」IEEE Network 35, 60–66.
-
Jia B., et al. (2021). 「Blockchain‑enabled federated learning data protection aggregation scheme with differential privacy and homomorphic encryption in IoT」IEEE Transactions on Industrial Informatics 18, 4049–4058.
-
Li Q., He B., Song D. (2021). 「Model‑contrastive federated learning」In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 10713–10722.
-
Cinà A. E., et al. (2023). 「Wild patterns reloaded: A survey of machine‑learning security against training data poisoning」ACM Computing Surveys 55, 1–39.
-
Li Q., He B., Song D. (2021). 「A survey on federated learning systems: Vision, hype and reality for data privacy and protection」IEEE Transactions on Knowledge and Data Engineering 35, 3347–3366.
-
Zhang K., Song X., Zhang C., Yu S. (2022). 「Challenges and future directions of secure federated learning: a survey」Frontiers in Computer Science 16, 1–8.
-
Yin X., Zhu Y., Hu J. (2021). 「A comprehensive survey of privacy‑preserving federated learning: A taxonomy, review, and future directions」ACM Computing Surveys (CSUR) 54, 1–36.
-
Gupta P., Yadav K., Gupta B. B., Alazab M., Gadekallu T. R. (2023). 「A novel data‑poisoning attack in federated learning based on inverted loss function」Computers & Security 130, 103270.
-
Gu Y., Bai Y., Xu S. (2022). 「Cs‑mia: Membership inference attack based on prediction confidence series in federated learning」Journal of Information Security Applications 67, 103201.
-
Zhu L., Liu Z., Han S. (2019). 「Deep leakage from gradients」Advances in Neural Information Processing Systems 32.
-
Hu K., et al. (2024). 「An overview of implementing security and privacy in federated learning」Artificial Intelligence Review 57, 204.
-
Gosselin R., Vieou L., Loukil F., Benoit A. (2022). 「Privacy and security in federated learning: A survey」Applied Sciences 12, 9901.
-
Adnan M., Kalra S., Cresswell J. C., Taylor G. W., Tizhoosh H. R. (2022). 「Federated learning and differential privacy for medical image analysis」Scientific Reports 12, 1953.
References
-
Ma X., Zhu J., Lin Z., Chen S., Qin Y. (2022). 「フェデレーテッド学習における非独立同分布(non‑i.i.d.)データを解決する最先端サーベイ」『Future Generation Computer Systems』135, 244–258。
-
Zhang L., Zhu T., Xiong P., Zhou W., Yu P.S. (2022). 「共同微分プライバシーを組み込んだロバストなゲーム理論的フェデレーテッド学習フレームワーク」『IEEE Transactions on Knowledge and Data Engineering』35, 3333–3346。
-
McMahan H.B., Ramage D., Talwar K., Zhang L. (2017). 「微分プライバシーを学習した再帰型言語モデル」arXivプレプリント arXiv:1710.06963。
-
Yang J., et al. (2024). 「適応的ローカル微分プライバシー予算配分に基づく勾配圧縮フェデレーテッド学習フレームワーク Gf‑ALDPA」『Multimedia Tools and Applications』83, 26349–26368。
-
Truex S., Liu L., Chow K.-H., Gursoy M.E., Wei W. (2020). 「ローカル微分プライバシーを用いたフェデレーテッド学習 Ldp‑Fed」『Proceedings of the third ACM International Workshop on Edge Systems, Analytics and Networking』pp. 61–66。
-
Yang X., Huang W., Ye M. (2023). 「適応的微分プライバシーを用いた動的パーソナライズドフェデレーテッド学習」『Advances in Neural Information Processing Systems』36, 72181–72192。
-
Chen C., et al. (2025). 「信頼できるフェデレーテッド学習:プライバシー、セキュリティ、そしてそれ以上」『Knowledge and Information Systems』67, 2321–2356。
-
Bai L., et al. (2024). 「フェデレーテッド学習におけるメンバーシップ推論攻撃と防御のサーベイ」『ACM Computing Surveys』57(4), 1–35。
-
Zhao B., Mopuri K.R., Bilen H. (2020). 「改良された勾配からのディープリーク(Deep Leakage)を示す idlg」arXivプレプリント arXiv:2001.02610。
-
Khrisat A., et al. (2025). 「フェデレーテッド学習を保護する:標的型データ汚染攻撃に対する防御戦略」『Discoveries in the Internet of Things』5, 16。
-
Sharma A., Marchang N. (2024). 「フェデレーテッド学習におけるクライアント‑サーバ攻撃と防御のレビュー」『Computers & Security』140, 103801。
-
Tripathy R., Meshram J., Bera P. (2025). 「ローカルデータ分割と同型暗号を用いた安全なフェデレーテッド学習 HalfFedLearn」『Future Generation Computer Systems』171, 107858。
-
Xie Q., et al. (2024). 「同型暗号を用いたプライバシー保護フェデレーテッド学習における効率最適化技術のサーベイ」『IEEE Internet of Things Journal』11, 24569–24580。
-
Aziz R., Banerjee S., Bouzefrane S., Le Vinh T. (2023). 「安全なフェデレーテッド学習パラダイムへ向けた同型暗号と微分プライバシー技術の探索」『Future Internet』15, 310。
-
Chang Y., Zhang K., Gong J., Qian H. (2023). 「機能暗号を用いたプライバシー保護フェデレーテッド学習(再検討)」『IEEE Transactions on Information Forensics and Security』18, 1855–1869。
-
Park J., Lim H. (2022). 「同型暗号を用いたプライバシー保護フェデレーテッド学習」『Applied Sciences』12, 734。
-
Shan F., Mao S., Lu Y., Li S. (2024). 「微分プライバシーフェデレーテッド学習の包括的レビュー」『International Journal of Advanced Computer Science and Applications』doi:10.14599/IJACSA.2024.0150722。
-
Xu Z., et al. (2023). 「微分プライバシーを用いた Gboard 言語モデルのフェデレーテッド学習」arXivプレプリント arXiv:2305.18465。
-
Xie H., Zhang Y., Zhongwen Z., Zhou H. (2024). 「プライバシー保護医療データ共同モデリング:微分プライバシーを強化したフェデレーテッド学習フレームワーク」『Journal of Knowledge, Learning and Science Technology』3, 340–350。
References
-
Fu, J., et al. 「微分プライバシーを適用したフェデレーテッドラーニングの体系的レビュー」 arXivプレプリント arXiv:2405.08299(2024)。
-
Fu, J., et al. 「微分プライバシーを適用したフェデレーテッドラーニングの体系的レビュー」 arXivプレプリント arXiv:2405.08299(2024)。
-
Ling, J., Zheng, J., & Chen, J. 「異種微分プライバシーを用いた効率的なフェデレーテッドラーニングのプライバシー保護手法」 Computers & Security 139, 107157(2024)。
-
Ren, X., Yang, S., Zhao, C., McCann, J., & Xu, Z. 「ベルトとブレース:フェデレーテッドラーニングが微分プライバシーに出会う」 Communications of the ACM 67, 66–77(2024)。
-
Banse, A., et al. 「微分プライバシーを伴うフェデレーテッドラーニング」 arXivプレプリント arXiv:2402.02230(2024)。
-
Pakina, A. K., & Pujari, M. 「エッジにおける微分プライバシー:GDPR準拠のTinyML展開を対象としたフェデレーテッドラーニングフレームワーク」 IOSR Journal of Computer Engineering 26, 52–64(2024)。
-
Wang, D., & Guan, S. 「Feddrf‑adp:フィードバック調整による適応的微分プライバシーでロバストなモデル性能を実現するフェデレーテッドラーニング」 Information Fusion 116, 102796(2025)。
-
Talaei, M., & Izadi, I. 「適応的微分プライバシーをフェデレーテッドラーニングに適用する:優先度ベースのアプローチ」 arXivプレプリント arXiv:2401.02453(2024)。
-
Beltrán, E. T. M., et al. 「分散型フェデレーテッドラーニング:基礎、最新動向、フレームワーク、トレンド、課題」 IEEE Communications Surveys & Tutorials 25, 2983–3013(2023)。
-
Reina, G. A., et al. 「OpenFL:オープンソースのフェデレーテッドラーニングフレームワーク」 arXivプレプリント arXiv:2105.06413(2021)。
-
Cheng, K., et al. 「SecureBoost:ロスレスなフェデレーテッドラーニングフレームワーク」 IEEE Intelligent Systems 36, 87–98(2021)。
-
Rahman, K. J., et al. 「フェデレーテッドラーニングの課題、応用、設計側面に関する調査」 IEEE Access 9, 124682–124700(2021)。
-
Wang, N., et al. 「ローカル微分プライバシーを用いた多次元データの収集と分析」 Proceedings of the 2019 IEEE 35th International Conference on Data Engineering (ICDE), pp. 638–649(IEEE, 2019)。
-
Dong, J., Roth, A., & Su, W. J. 「ガウス微分プライバシー」 Journal of the Royal Statistical Society: Series B 84, 3–37(2022)。
-
Zhang, J., et al. 「IDP‑LF:深いニューラルネットワーク向けの細粒度かつプライバシー指向フェデレーテッドラーニングフレームワーク」 Information Sciences 679, 121035(2024)。
References
- Thapa, C. & Camtepe, S. Precision health data: Requirements, challenges and existing techniques for data security and privacy. Computational Biology and Medicine 129, 104130 (2021).
- Ma, X., Zhu, J., Lin, Z., Chen, S. & Qin, Y. A state‑of‑the‑art survey on solving non‑i.i.d. data in federated learning. Future Generation Computer Systems 135, 244–258 (2022).
- Fu, J. et al. Differentially private federated learning: A systematic review. arXiv preprint arXiv:2405.08299 (2024).
- Zheng, S. et al. Error‑bounded correction of noisy labels. In Proceedings of the International Conference on Machine Learning, 11447–11457 (PMLR, 2020).
Author contributions
Lixin Cui: methodology, visualization, data curation, writing original draft preparation.
Xu Wu: conceptualization, supervision, writing reviewing and editing.
Declarations
Competing interests
The authors declare no competing interests.
Additional information
Correspondence and requests for materials should be addressed to X.W.
Reprints and permissions information is available at https://www.nature.com/reprints/.
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.
Scientific Reports | (2025) 15:26679
| https://doi.org/10.1038/s41598-025-12575-6
nature portfolio
17
1. 概要(Abstract)
タイトル
著者
- C. Thapa (University of California, San Diego)
- S. Camtepe (University of California, San Diego)
出版年
2021年
参考文献
- Thapa, C., & Camtepe, S. (2021). *Precision health data: Requirements, challenges, and existing techniques for data security and privacy. Computational Biology and Medicine, 129, 104130. https://doi.org/10.1016/j.cpm.2021.104130
要点
- Precision healthデータは、個々の患者や研究対象が持つ詳細な臨床・遺伝子情報を指す。
- 主要な要求事項:
- 患者プライバシー保護(HIPAA, GDPR)
- データ標準化(FHIR, HL7, HL7 FHIR)
- データの正確性と完全性(データ品質)
- データ共有・相互運用性(API, FHIR R4/STU)
- 主な課題:
- 患者同意取得とプライバシー保護(匿名化、差分プライバシー)
- データ標準化とメタデータ管理
- データ品質と欠損データの処理
2. 精密医療データの要件
精密医療データは 個別患者 の臨床・遺伝子情報を含む 高解像度 データで、以下の要素を満たす必要がある:
| 要件 | 内容 |
|---|---|
| 個人情報保護 | HIPAA(米国)や GDPR(欧州)に準拠し、患者同意取得・匿名化が必須 |
| データ標準 | FHIR R4 / STU、HL7 FHIR、HL7 v2.x など |
| データ品質 | 完全性、正確性、一貫性(欠損値の処理) |
| 相互運用性 | API/RESTful エンドポイント、FHIR R4/STU でデータ取得・更新が可能 |
3. 精密医療データの課題
- 患者同意取得とプライバシー保護:
- 同意は 差分プライバシー(最小限の情報だけを共有)を許可する仕組みが必要。
- 匿名化は 差分匿名化(例:年齢+郵便番号 → 年齢 + 部署コード)で再同定性を保証。
- データ標準化とメタデータ管理:
- FHIR R4/STU の Meta タグや Extension を用いて、遺伝子情報(例:
ObservationのvalueStringにgene情報を格納)
- FHIR R4/STU の Meta タグや Extension を用いて、遺伝子情報(例:
- データ品質と欠損凂の処理:
- 完全性チェック(必須項目が全て揃っているか)
- 欠損データは “null” で表現し、必要に応じて 差分プライバシー情報 を付与
4. 精密医療データの実装例
以下は、FHIR R4/STU の Patient リソースと Observation(遺伝子)を組み合わせたサンプル JSON:
{
"resourceType": "Bundle",
"type": "searchset",
"entry": [
{
"fullUrl": "http://example.org/fhir/Patient/1234567890",
"resource": {
"resourceType": "Patient",
"id": "1234567890",
"meta": {
"tag": [
{
"system": "http://terminology.hl7.org/CodeSystem/v3-ActTag",
"code": {
"code": "R4",
"display": "Precision Health"
}
}
]
},
"identifier": [
{
"type": {
"coding": [
{
"system": "http://terminology.hl7.org/CodeSystem/v2-DocumentIDType",
"code": "MRN"
}
],
"value": "MRN123456"
}
],
"name": [
{
"family": "Smith",
"given": ["John"]
}
],
"gender": "male",
"birthDate": "2000-01-15",
"address": [
{
"line": ["123 Main St"],
"city": "Springfield",
"state": "IL",
"postalCode": "62704"
}
],
"extension": [
{
"url": "http://example.org/fhir/StructureDefinition/PrecisionHealthData",
"valueString": "PrecisionHealth MRN: MRN123456"
}
]
}
},
{
"fullUrl": "http://example.org/fhir/Observation/gene-TP530B678",
"resource": {
"resourceType": "Observation",
"id": "gene-TP530B678",
"status": "final",
"code": {
"coding": [
{
"system": "http://loinc.org",
"code": "41299-4",
"display": "Gene