A reliable and privacy-preserved federated learning framework for real-time smoking prediction in healthcare
原題: A reliable and privacy-preserved federated learning framework for real-time smoking prediction in healthcare 著者: S Fuladi, D Ruby, N Manikandan, A Verma… | 会議: frontiersin.org 2025 | 引用: 0 PDF: fuladi25a.pdf
TYPE Original Research PUBLISHED 22 January 2025 DOI 10.3389/fcomp.2024.1494174 OPEN ACCESS EDITED BY Thomas Win, University of Gloucestershire, United Kingdom REVIEWED BY Chengxi Zang, Cornell University, United States Praveen Kumar Balachandran, Universiti Kebangsaan Malaysia, Malaysia CORRESPONDENCE Ibrahim A. Hameed ibib@ntnu.no V. P. Meena vmeena1@ee.iitr.ac.in M. K. Nallakaruppan nallakaruppan.k@bimmpune.edu RECEIVED 10 September 2024 ACCEPTED 16 December 2024 PUBLISHED 22 January 2025 CITATION Fuladi S, Ruby D, Manikandan N, Verma A, Nallakaruppan MK, Selvarajan S, Meena P, Meena VP and Hameed IA (2025) A reliable and privacy-preserved federated learning framework for real-time smoking prediction in healthcare. Front. Comput. Sci. 6:1494174. doi: 10.3389/fcomp.2024.1494174 COPYRIGHT © 2025 Fuladi, Ruby, Manikandan, Verma, Nallakaruppan, Selvarajan, Meena, Meena and Hameed. This is an open-access article distributed under the terms of the Creative Commons Attribution License (CC BY). The use, distribution or reproduction in other forums is permitted, provided the original author(s) and the copyright owner(s) are credited and that the original publication in this journal is cited, in accordance with accepted academic practice. No use, distribution or reproduction is permitted which does not comply with these terms. A reliable and privacy-preserved federated learning framework for real-time smoking prediction in healthcare Siddhesh Fuladi1, D. Ruby1, N. Manikandan1, Animesh Verma1, M. K. Nallakaruppan2, Shitharth Selvarajan3,4,5, Preeti Meena6, V. P. Meena7* and Ibrahim A. Hameed8* 1School of Computer Science and Engineering, Vellore Institute of Technology, Vellore, India, 2Balaji Institute of Modern Management, Sri Balaji University, Pune, India, 3School of Built Environment, Engineering and Computing, Leeds Beckett University, Leeds, United Kingdom, 4Department of Computer Science and Engineering, Chennai Institute of Technology, Chennai, India, 5Centre for Research Impact & Outcome, Chitkara University, Rajpura, Punjab, 6Department of Electrical Engineering, Indian Institute of Technology Jodhpur, Jodhpur, Rajasthan, India, 7Department of Electrical Engineering, National Institute of Technology Jamshedpur, Jamshedpur, Jharkhand, India, 8Department of ICT and Natural Sciences, Norwegian University of Science and Technology, Trondheim, Norway The ever-evolving domain of machine learning has witnessed significant advancements with the advent of federated learning, a paradigm revered for its capacity to facilitate model training on decentralized data sources while upholding data confidentiality. This research introduces a federated learning- based framework designed to address gaps in existing smoking prediction models, which often compromise privacy and lack data generalizability. By utilizing a distributed approach, the framework ensures secure, privacy- preserved model training on decentralized devices, enabling the capture of diverse smoking behavior patterns. The proposed framework incorporates careful data preprocessing, rational model architecture selection, and optimal parameter tuning to predict smoking with high precision. The
results demonstrate the efficacy of the model, achieving an accuracy rate of 97.65%, complemented by an F1-score of 97.41%, precision of 97.31%, and recall rate of 97.36%, significantly outperforming traditional approaches. This research also discusses the benefits of federated learning, including efficient time management, parallel processing, secure model updates, and enhanced data privacy, while addressing limitations such as computational overhead. These findings underscore the transformative potential of federated learning in healthcare, paving the way for future advancements in privacy-preserved predictive modeling. KEYWORDS federated learning, machine learning, privacy preservation, decentralized data, enhanced data security, data preprocessing Frontiers in Computer Science 01 frontiersin.org
Fuladi et al. 10.3389/fcomp.2024.1494174
1 Introduction 1.1 Background information on federated learning Federated Learning (FL) is a recently presented technology (Liang et al., 2020) that has piqued the curiosity of many scholars curious to learn more about its potential and utility (Zhuo et al., 2019; Yu et al., 2020). FL is an innovative machine learning paradigm that allows for collaborative model training without the need to share raw data. In traditional machine learning approaches, data is centralized, which raises concerns about data privacy and security. It has gained significant attention due to its potential to address privacy concerns associated with centralized data processing (Nag et al., 2024). Federated learning addresses these concerns by enabling model training on decentralized data sources while preserving data confidentiality. Traditional machine learning methods often require aggregating sensitive data on a central server, raising issues related to data privacy and security (Kairouz et al., 2021). Instead of sending data to a central server, federated learning allows the model to be trained locally on individual devices or servers, and only the model updates are shared (Li et al., 2019; Swapno et al., 2024). Federated learning overcomes these challenges by allowing model training on decentralized data sources, such as individual devices or local servers, without exposing raw data to a central authority (Yang et al., 2019; Larson et al., 2020). This distributed learning approach offers significant advantages, including improved privacy, reduced communication overhead, and the ability to work with sensitive or large-scale datasets. Despite FL’s promising future, certain of its technical aspects, including its software and hardware, are still poorly understood (Shao et al., 2019; Alexander et al., 2020; Nallakaruppan et al., 2024). Numerous studies have been conducted on FL’s uses, with the healthcare industry serving as one of them (Stoian et al., 2008; Kumar et al., 2023; Mohammadi et al., 2024). 1.2 Research objective and significance of the study • Implementation of federated learning on smoking dataset for predictive model development. • Ensure robust and accurate model training while prioritizing data privacy and security. • Contribute to public health by identifying smoking behavior patterns and designing targeted interventions. • Advance federated learning research through the use of established and objective evaluation metrics. 1.3 Limitations of existing works Current studies on smoking behavior prediction and federated learning in healthcare face several limitations. Traditional models often use centralized data, raising privacy concerns and risking data security. Many models lack data diversity, being trained on narrow demographic groups, which limits their generalizability. Additionally, there is an absence of standardized evaluation metrics, making it difficult to compare and benchmark federated learning models effectively. Computational overheads and scalability issues also hinder the deployment of both centralized and federated approaches in resource-constrained settings. Furthermore, data imbalance across nodes can lead to biased outcomes, especially in federated models that rely on heterogeneous data sources. This research addresses these limitations by implementing a federated learning framework that enhances privacy, scalability, and model reliability for real-time smoking prediction. The rest of the paper is structured as follows: Section 2 reviews related works in federated learning and smoking analysis, addressing limitations and highlighting contributions. Section 3 outlines system modeling methods, including dataset features, tailored machine learning and federated learning approaches, and implementation techniques. Section 4 focuses on practical implementation, covering data preprocessing, training, parameter settings, and both machine learning and federated learning models. Section 5 presents results and analysis derived from experimental findings, along with an assessment of the federated learning model’s performance on the smoking dataset. Section 6 engages in a comprehensive discussion of potential areas for improvement and future research, critically examining the findings and suggesting avenues for further investigation. Section 7 concludes the paper, summarizing the key findings, emphasizing the significance of federated learning in smoking analysis, and providing insights into the implications of the research.
2 関連する研究 2 関連する研究 Antunes et al. (2022) の著者らは、体系的レビューを通じて医療における federated learning(連合学習)の包括的な探索を行い、アーキテクチャを提案した。彼らは既存文献に深く入り込み、医療現場における federated learning の応用を検証している。彼らは様々な研究で特定された主要な知見と課題を強調している。さらに、この論文は、この分野内の特定の要件や懸念に対処することを目的として、federated learning を統合した医療向けに特別に設計されたアーキテクチャを提案することで貢献している。提案されたアーキテクチャは、体系的レビューから集められた洞察の著者らの合成と、連合学習の文脈における医療の独自の要件への配慮を反映している。 Thummisetti and Atluri (2024) の著者らは、医療情報学における federated learning(連合学習)の応用に焦点を当てた。徹底的な探索を通じて、彼らは医療分野における federated learning 技術の利用を検証した。この研究は関連文献をレビューし、医療情報学への federated learning(連合学習)統合における傾向、課題、機会を特定している。さらに、論文では、federated learning(連合学習)が決定的な役割を果たす可能性のある特定のユースケースやシナリオについて議論し、医療分野でのその潜在的な利点に光を当てている。全体として、Xu et al. の研究は、医療情報学の領域における federated learning(連合学習)の含意と応用に関する理解に貴重な洞察を提供している。 Nguyen et al. (2022) の著者らは、スマートヘルスケアにおける federated learning(連合学習)の応用について包括的な調査を実施した。この論文は、既存文献を体系的にレビューし、スマートヘルスケアシステムの文脈における federated learning(連合学習)統合の現状と進展に関する詳細な概要を提供するものである。この調査は、方法論、課題、潜在的な解決策を含む幅広い側面をカバーしており、風景に対する包括的な理解を提供している。さらに、論文では、federated learning(連合学習)がスマートヘルスケアで採用されている様々な応用やユースケースを探求している。Nguyen et al. の研究は、federated learning(連合学習)とスマートヘルスケアの交差点に関心を持つ研究者、実務家、ステークホルダーにとって貴重なリソースとして機能し、このダイナミックな分野における進化中の傾向と将来の方向性に関する洞察を提供している。 Coughlin et al. (2020) の著者らは、禁煙治療の結果を予測するために機械学習アプローチを採用した。著者らは、禁煙介入に関連するデータを分析およびモデル化するために高度な計算手法を利用している。機械学習技術を適用することで、本研究は個人に対する禁煙治療の成功を予測することを目的としている。この研究は、禁煙結果に影響を与える要因の複雑さに深く入り込み、効果的な治療戦略を調整するための貴重な洞察を提供している。論文は、特に禁煙に対処することにより、医療分野における機械学習の使用という成長中の分野に貢献し、この文脈での治療の有効性を予測するデータ駆動型視点を提供している。 Sinha and Ghosh (2024) の著者らは、Computer Methods and Programs in Biomedicine に発表された研究で、機械学習技術を用いた喫煙衝動の分類を探求した。本研究は、計算手法を活用して喫煙衝動をカテゴリ化し理解することに焦点を当てている。機械学習アルゴリズムを採用することで、著者らは異なるレベルまたはタイプの喫煙衝動を区別するパターンや特徴を特定することを目的としている。この研究は、データ駆動型アプローチを通じて喫煙衝動の分類および潜在的な予測を提供することにより、より広範なデジタルヘルスおよび行動科学分野に貢献し、介入や禁煙への個別化アプローチに情報を提供できる洞察を提供している。 Rajendran et al. (2021) の著者らは、医療センター間でクラウドベースの federated learning(連合学習)実装を提示し、その応用が禁煙の文脈にあることに焦点を当てた。この研究は、分散した医療環境、特に複数の医療センターにわたる federated learning(連合学習)の実行可能性と有効性を探索している。クラウドベースインフラストラクチャを利用することで、著者らはデータプライバシーおよびセキュリティに関連する課題に対処しつつ、喫煙関連の問題に関する共同研究を促進している。論文は、異なる医療センター間で喫煙関連データを分析するために特別に設計された federated learning(連合学習)システムの設計、実装、結果について議論している可能性がある。この研究は、共同かつプライバシー保護型データ分析を通じて喫煙関連課題に対処することに特に重点を置きながら、医療における federated learning(連合学習)方法論の進展に貢献している。 Kugic et al. (2024) の著者らは、深層学習によって決定された喫煙状態ががん患者の死亡率に与える影響を検討した。本研究は、深層学習技術を通じて特定された患者の喫煙習慣と全体的な死亡率との間の関係を探求している。この研究は、予後目的のために深層学習を通じた喫煙状態の決定の重要性を強調しながら、がん患者のデータセットを分析するために高度な計算手法を採用している可能性がある。知見は、がん治療の過程の後期であっても禁煙が患者の結果にどのように影響し得るかという理解に貴重な洞察を提供している。 Huang et al. (2024) の著者らは、スマートウォッチデータからの喫煙活動認識のための効率的な ResNetSE アーキテクチャを提案した。本研究は、深層学習モデル、具体的には ResNet アーキテクチャの一種である ResNetSE を活用して、スマートウォッチのセンサーデータに基づいて喫煙活動を正確に特定することに焦点を当てている。この研究は、提案されたアーキテクチャの設計および実装の詳細について議論している可能性があり、喫煙活動認識のための関連特徴を捉えるその効率性を強調している。この研究は、スマートウォッチ技術を使用して喫煙活動を認識するための専門的なソリューションを提供することにより、インテリジェント自動化およびソフトコンピューティング分野に貢献し、健康モニタリングや行動追跡における潜在的な応用がある。 Hu L. et al. (2020) の著者らは、機械学習技術を適用して、喫煙に関する提供者-患者間の議論に影響を与える主要要因を特定および理解した。この研究は Preventive Medicine Reports に発表され、医療提供者と患者間の喫煙に関する議論に関連するデータから洞察を分析および抽出するために計算手法の応用を含む可能性がある。論文は、特定された要因およびそれらが禁煙に関する会話を促進または阻害する影響について議論している可能性がある。この研究は、パターンおよび決定要因を発見するために機械学習を利用することにより、予防医学分野に貢献している。 喫煙予測モデルおよび医療における federated learning(連合学習)応用に関する既存の文献は、データプライバシーを維持しながら機械学習が予測分析を進展させる可能性を強調している。様々な研究は、データ機密性を保護する方法として federated learning(連合学習)を探求しており、活動認識から禁煙支援まで幅広い応用がある。しかし、これらの研究のほとんどはアルゴリズム開発に重点を置いており、リアルタイムアプリケーション、モデルのスケーラビリティ、および多様な集団全体での federated モデルの適応を見落とす傾向がある。Federated learning(連合学習)がプライバシー保護環境で有望な結果を示している一方で、モデルは評価指標、データ多様性、および不均質な医療環境における有効性において著しく異なる。 Table 1 は、個人の喫煙パターンを予測するための先行研究の取り組みに関する概要を提供する。これは、様々な研究からの主要な知見と貢献を要約している。連合学習分野における先行研究は特定の限界に直面しており、本論文はそのような限界に対処し克服することを目的としている。
- 限界 1:トレーニングデータの多様性の欠如:最初の限界は、federated learning(連合学習)モデルのトレーニングに使用されるデータセット内の多様性の欠如である。この限界を克服するために、本論文は包括的なアプローチを採用し、多様な喫煙データセットを利用する。これにより、より代表的で堅牢なモデルが可能となり、より幅広い喫煙行動パターンを捉え、結果の一般化可能性が向上する。
- 限界 2:標準化された評価指標の欠如:2 つ目の限界は、federated learning(連合学習)モデルのための標準化された評価指標およびベンチマークの欠如である。これにより、異なるモデルのパフォーマンスを比較することが困難になる
3 提案された方法論 3.1 データセットの説明 本分析で使用される喫煙データセットは Kaggle から入手したものである。このデータセットには、個人の身体的属性、血圧、血糖値、コレステロールレベル、肝機能、ヘモグロビンレベル、尿タンパク質、口腔健康、および喫煙行動など、個人に関連する一連の特徴や健康指標が捕捉されている。これらの特徴は、喫煙習慣とさまざまな健康パラメータとの関係を分析するための貴重な洞察を提供し、禁煙および関連する健康介入の分野の研究に貢献している。55,693 行、27 カラムという大規模なサイズにより、包括的な分析と有意義な洞察のための堅牢な基盤が提供される。 以下の表は喫煙データセットの最初の 5 行の値を示す。 データセットにおいて、値 1 は陽性の応答(例:「はい」)を、値 0 は陰性の応答(例:「いいえ」)を示す。データの事前処理ステップには、データタイプに適した代入法を用いた欠損値の処理、モデルの堅牢性を高めるための統計的閾値による外れ値への対応、および喫煙関連クラス間でバランスの取れた学習を確保するためのリサンプリングやクラス重み付けなどの手法を用いたクラス不均衡の管理が含まれる。 表 2–4 は、喫煙データセットから抽出した詳細な数値データを提示する。これらの表は、喫煙という主題に関連するデータセット内の特定の値、測定値、または属性について包括的な内訳を提供する。
3.2 喫煙データセットのための機械学習アプローチ 本研究では、喫煙情報を分析し、喫煙行動のための予測モデルを作成するために機械学習アプローチが使用された。データの事前処理、モデルの選択、およびモデルの評価は、機械学習プロセスにおけるいくつかの重要なプロセスであった。 • データ前処理:これは、データを準備して実験により利用可能にするために使用される重要なプロセスである(Al-Mudimig et al., 2009)。喫煙データセットは、モデルをトレーニングするために使用される前に広範なデータ準備を受けた。これには、欠損値の処理、外れ値の特定と処置、特徴のスケーリング、およびデータの正規化が含まれる(Zelaya, 2019)。選択された機械学習アルゴリズムとの互換性を確保するため、カテゴリカル変数はラベルエンコーディングなどの手法を用いてエンコードされた(Mottini and Acuna-Agost, 2016)。 式 1 は、さまざまな前処理ステップを示す。 X_preprocessed = P(X), X ∈ R^{a×b} (1)
ここで、a はサンプルの数であり、b は特徴の数を表す。 関数 P(·) には、欠損値の処理、特徴のスケーリング、特徴選択など、さまざまな前処理ステップが含まれる。 • モデル選択:喫煙データセットに最適なモデルを選択するために、さまざまな機械学習アルゴリズムの徹底的な分析が行われた。これらの手法には、K 近傍法(K-nearest neighbor)、ロジスティック回帰、サポートベクターマシン(SVM)、ランダムフォレスト、および決定木が含まれる。選択基準は、モデルのパフォーマンス、解釈可能性、スケーラビリティ、およびデータセットの特徴を処理する能力などの要素を考慮した(Raschka, 2018; Kopper et al., 2020)。慎重な検討の結果、喫煙データセットに最適なモデルはランダムフォレストアプローチであると決定された。ランダムフォレストモデルからは特徴の重要性に関する洞察を得ることができ、カテゴリカルおよび数値データを処理でき、過学習を起こしにくい(Breiman, 2001)。 • モデルトレーニングと評価:事前処理された喫煙データセットを使用して、指定されたランダムフォレストモデルをトレーニングした。モデルの有効性を評価するために、データセットを分割した。トレーニングデータはデータセットの 70% を占め、テストデータはデータセットの 30% を占めた。モデルは入力特徴と目的変数間のパターンと関連性を見つけた。予測誤差を減らすために、ハイパーパラメータ調整—ランダム化検索(RandomizedSearchCv)と呼ばれる最適化手法が実施された。トレーニング完了後、テストデータセットを使用してモデルのパフォーマンスを評価した。モデルの予測能力と一般化可能性は、精度(accuracy)、適合率(precision)、再現率(recall)、および F1 スコアなどの指標を用いて評価された(Reich and Barai, 1999)。 式 2–4 は、モデルのトレーニング、評価、および選択がどのように行われるかを示す。 モデルトレーニング: model_trained_j = train(M_j, X_train) (2)
モデル評価: model_performance_j = evaluate(model_trained_j, X_val) (3)
モデル選択: model_select_best = M_j, where j = arg_max(model_performance_j) (4)
ここで、 model_trained_j はトレーニングデータセット上でトレーニングされたモデル Mi を表す。 model_performance_j は検証データセット上でモデル M_i によって得られたパフォーマンス指標値を表す。 arg_max は最も高いパフォーマンス値を持つモデルのインデックスを返す。 モデルは検証セットで最良のパフォーマンスを示すものを選択する。
3.3 喫煙データセットのための連合学習アプローチ 集中型データ分析に関連するプライバシー懸念に対処するため、喫煙データセットに対して連合学習(federated learning)アプローチが採用された。連合学習により、生データを共有したり個人のプライバシーを侵害したりすることなく、分散したデータソース上で直接モデルをトレーニングすることが可能になる(Fallah et al., 2020)。
- 喫煙予測のためのグローバルモデルを中央サーバーで初期化した。
- グローバルモデルをローカルデバイスおよびノードに送信した。
- ローカルデバイスは、データセット上でグローバルモデルを独立してトレーニングした。
- トレーニングは、データを中央サーバーや他のデバイスと共有することなく、ローカルデータを使用して実施された。
- ローカルトレーニング後、各デバイスはローカルデータから得られた知識を反映するモデル更新を生成した。
- ローカルモデルの更新は中央サーバーに送信された。
- 中央サーバーはこれらの更新を集約してグローバルモデルを強化した。
- このプロセスは 10 ラウンド反復された。
- 反復的な改善を通じて最終的なグローバルモデルを達成した。 喫煙データセット上で連合学習を実装することにより、本研究はプライバシー保護を保ちながら、喫煙行動のための予測モデルを効果的にトレーニングすることを保証する。連合学習の分散型かつ協調的な性質は、個人のプライバシーやデータのセキュリティを損なうことなく、多様なデータソースを利用することを可能にする。このアプローチは、データのプライバシーとセキュリティを保証しつつ、協力的なモデルトレーニングを可能にする(Yang et al., 2023)。
3.4 連合学習実装に使用されたアルゴリズムおよび技術の検討 喫煙データセット上の連合学習実装には、いくつかのアルゴリズムおよび技術が採用された:
- 連合平均(Federated Averaging):連合平均アルゴリズムは、ローカルモデル更新の加重平均を計算することにより、複数のデバイス/サーバーからのモデル更新を集約するために使用された(Wang et al., 2023)。連合平均(FedAvg)は、多数のクライアントを持つ分散トレーニングのための技術であり、通信効率的である。プライバシーを保護するため、FedAvg のクライアントはデータをローカルに保存する。クライアントは中央パラメータサーバーを介して互いに接続される(Sun et al., 2022)。
- セキュア集約および微分プライバシー:連合学習フレームワーク内でのプライバシーを維持するために、セキュア集約(secure aggregation)および微分プライバシー(differential privacy)を組み込んだ。セキュア集約は、中央サーバーが個々のモデル更新にアクセスすることを防止し、代わりに集約された情報(平均または合計)のみを学習するように実装され、生データの露出からのプライバシー侵害のリスクを低減する。このアプローチは通信コストをわずかに増加させるが、モデル精度に大きな影響を与えずに高いデータ整合性を維持する。微分プライバシーもまた、モデル更新に制御されたノイズを導入することによって適用され、プライバシー保護とデータ有用性のバランスを取った。この技術は個々のデータポイントの再構築を不可能にすることで堅牢なプライバシー保証を提供するが、追加されるノイズレベルに応じて小さな精度のトレードオフをもたらす可能性がある。トレードオフ分析では、最小限のノイズを追加してもモデルパフォーマンス(精度 97.65%)を維持しつつプライバシーを強化できることが示されたが、高いノイズレベルは予測精度に影響を与える可能性がある。今後の研究では、プライバシーとパフォーマンスのトレードオフをさらに最小化するために最適なノイズキャリブレーションおよび適応型集約技術を探求する予定である(Fereidooni et al., 2021; Li et al., 2021; Wei et al., 2020; El Ouadrhiri and Abdelhadi, 2022; Hu R. et al., 2020; Ranbaduge and Ding, 2022)。
- データセット分割:55,690 の値(行)が 27 カラムにわたる喫煙データセットは、トレーニングセットとテストセットに分割された。これは 70% のトレーニングセットと 30% のテストセットとして分割される。これにより、モデルをトレーニングするための十分な量のデータが確保されながら、モデルのパフォーマンスの独立した評価が可能になる。
3.5 連合学習アーキテクチャ FL アーキテクチャの開発に取り組んでいる多くの組織がある(Bonawitz, 2019; Cheng et al., 2021)。 図 1 は、データ分布に依存する FL に使用したアーキテクチャを示す。メインサーバーは連合学習アーキテクチャにおいて中心的な役割を果たす。参加デバイスへの初期モデルの配布およびそれらからのモデル更新の収集を通じて、全体のトレーニングプロセスを調整する。メインサーバーはまた、デバイスから受信したモデル更新を組み合わせて改善されたグローバルモデルを作成することを保証するために集約を実行する。モデルトレーニング層には、連合学習プロセスに参加するデバイスまたはクライアントが含まれる。これらのデバイスは、生データをメインサーバーや他のデバイスと共有することなく、独自のデータを使用してモデルをローカルにトレーニングする。ローカルデータに基づいてモデルの変更を計算し、それらを安全に主要サーバーへ集約のために通信する。データサーバー層は、ローカルモデルのトレーニングに使用されるデータを保持するデバイスを表す。スマートフォンや IoT デバイスなどのこれらのデバイスは、ローカルでモデルをトレーニングするために使用されるデータを所有している。データはデバイス上に留まり、メインサーバーや他のデバイスへ送信されないため、プライバシーとデータのセキュリティが確保される。これらすべてのコンポーネントが連合学習アーキテクチャを形成し、分散したデバイス間で協力的かつプライバシー保護型の機械学習を可能にしながら、データのプライバシーとセキュリティを維持する。 喫煙データセットの簡単な概要:本研究では、韓国政府ポータルからデータを収集した。このデータセットには、喫煙している人々から記録された広範な身体信号および関連データが含まれる。データセットは、喫煙とさまざまな医療状態との関係の分析および探索を可能にするように構造化されている。データセット内の各カラムは、喫煙に関連する重要な健康指標および要因を表す。この情報を利用することで、ユーザーは喫煙の可能性のある危険性および健康影響についてより多くを学び、エビデンスに基づく意思決定プロセスおよび効果的な禁煙戦略の開発をサポートする。データセットファイルには 55,693 人の患者の記録が含まれる。 図 2 は、機械学習手法においてモデルトレーニングのためにデータがどのように収集され集中化されるかを示す。しかしながら、連合学習では、データはさまざまなクライアントまたはデバイスに分散されている。この図は、煙検出用に特別に設計された機械学習モデルから連合学習モデルが導出される様子を視覚的に表している。 表 5 は、連合学習モデルで使用されたハイパーパラメータを要約し、それぞれの値およびマッピングされたパフォーマンス指標を示す。
3.6 ML および FL アルゴリズムのための数式モデル 適切なモデルの選択は、異なるモデルが根本的なデータをモデル化するために異なるアルゴリズムおよび数学的技術を採用するため、あらゆる研究の取り組みの成功において重要な役割を果たす。このサブセクションでは、本研究で使用された機械学習モデルの概要を提示する。これには、ロジスティック回帰(Logistic Regression)、決定木(Decision Tree)、ランダムフォレスト(Random Forests)、サポートベクターマシン(SVM)、および K 近傍法(KNN)が含まれる。各モデルの数式と構造について議論し、それらが動作する数学的基盤を明らかにすることで、本研究の文脈における実装に関する包括的な理解を可能にする。これは式 5–9 に示されている。
- ロジスティック回帰 P(Y = 1) = 1 / (1 + e^{-(β0+β1X1+…+βnXn)}) (5) • ロジスティック回帰は、ロジスティック関数を使用して 1 つ以上の予測変数に基づいて結果の確率を予測する二値分類に使用される。 • P(Y = 1) は陽性クラスの確率である • β0 は切片(intercept)である • β1, … , βn は係数(coefficients)である
- 決定木 F(x) = Σ_{m=1}^{M} cm I(x ∈ R_m) (6) • 決定木は、特徴値に基づいてデータを分割して予測を行う。各分割でジニ不純度またはエントロピーが最小化される • F(x) は最終的な予測である • M はリーフノードの数である • cm はリーフノード m の予測クラスである • I(x ∈ R_m) はインジケーター関数である
- ランダムフォレスト F(x) = (1/M) Σ_{i=1}^{M} ci I(x ∈ R_i) (7) • ランダムフォレストは決定木のアンサンブルであり、各木はデータのランダムなサブセットおよび特徴上でトレーニングされる。最終的な予測は平均または投票スキームである。 • M はツリーの数である • ci はツリー i の予測クラスである • I(x ∈ R_i) はインジケーター関数である
- サポートベクターマシン(SVM) PREDICTION = sign(w^T · c + e) (8) ここで:PREDICTION は予測されたクラスのラベルである。 w は重みベクトルである。 c は入力特徴である。 e はバイアス項である。 • 符号関数は、線形結合の符号に基づいてクラスラベルを割り当てる。 • サポートベクターマシンは、2 つのクラス間のマージンを最大化する超平面を見つけることを目的とした二値分類器である。
- KNeighborsClassifier P(Y = j | X = x) = (1/k) Σ_{i ∈ N_k(x)} I(y_i = j) (9) • KNN は、k 個の最近傍の多数派クラスに基づいてインスタンスを分類する。予測は多数決によって決定される。 • N_k(x) は x の k 個の最近傍の集合である • P(Y = j | X = x) は x がクラス j に属する確率である • I(y_i = j) はインジケーター関数である
- 連合学習(Federated Learning) w = Σ_{k=1}^{K} (|D_k| / Σ_{j=1}^{K} |D_j|) w_k (10) • 各クライアント k はローカルデータセット D_k を持ち、独自のデータを使用してローカルモデル w_k をトレーニングする。各ローカルトレーニングラウンド後、クライアントはモデル更新を中央サーバーに送信する。 • サーバーは、クライアントのモデルパラメータの加重平均を計算することにより、これらの更新を集約してグローバルモデル w を作成する。 • K は参加しているクライアントの総数である。 • |D_k| はクライアント k でのデータサンプルの数である。 • w_k はローカルトレーニング後のクライアント k のモデルパラメータである。
3.7 喫煙データセット上の連合学習モデルのパフォーマンスの検討 喫煙データセットにおける連合学習モデルの高い精度は、いくつかの要因に帰因できる。まず第一に、連合学習戦略により、さまざまな人口、人口統計、および地域から収集された多様な喫煙データ上でトレーニングが可能になる。この多様性のおかげで、モデルはより一般化しやすくなり、喫煙行動における本質的な変動を捉えることができる。 第二に、連合学習のプライバシー保護機能により、個人情報にアクセスされることが防止されるため、潜在的なプライバシー侵害を防ぐことができる。その結果、より多くの人々が参加してデータを提供するため、モデルのトレーニングのためのより大規模で代表的なデータセットが得られる。 さらに、連合学習の並列処理能力は、巨大なデータセット上での効果的なトレーニングを可能にする。複数のデバイスまたはサーバーの計算リソースを利用することで、トレーニングプロセスが高速化されスケーラビリティが高まり、モデルパフォーマンスが向上する。
4 結果 4.1 実験設定:データ前処理ステップ 喫煙データセットにおけるデータ前処理ステップには、いくつかの重要なプロセスが含まれる。喫煙セッション中に収集された生センサーデータは、ノイズやアーティファクトを除去するために前処理が行われた。これには、中央値フィルタリングやウェーブレットデノイジング(Fan et al., 2019)のようなフィルタリング手法の使用が含まれた。その後、特徴抽出技術を用いて、前処理されたデータから必要な特徴が復元された。これは、時間領域分析、周波数領域分析、ウェーブレット変換、および統計的特性(Patil et al., 2013)を使用して達成された。モデルトレーニングのために特徴を一貫してスケーリングするために、StandardScaler のようなデータ正規化およびスケーリング手法も適用された(Aguileta et al., 2019; McMahan et al., 2017)。
4.1.1 トレーニングプロセスとパラメータ設定 喫煙データセットにおける連合学習のトレーニング手順は、データセットをトレーニングセットとテストセットに分割し、その後、連合学習およびプライバシー保護の原則に従うようにトレーニングデータをサブセットに細分化することからなる。連合学習実装のパラメータ値は、プライバシーとセキュリティを維持しながらモデルパフォーマンスを最大化するように選択された。
4.1.2 連合学習サブセット作成 次に、連合学習アプローチの分散型特性を模倣するために、トレーニングデータを多数のサブセットまたは「クライアント」に分割して連合学習を実装した。この場合、トレーニングデータは 4 つのサブグループに分割され、それぞれが連合学習プロセスに参加する異なるクライアントを表す。これらのサブセットは、個々のデータのプライバシーとセキュリティを尊重しながらトレーニング手順を行いながら、協力的なモデルトレーニングを促進するために開発された。
4.1.3 プライバシー保護技術 プライバシー保護技術:プライバシーの維持は連合学習の重要な構成要素である。特定データの機密性を維持するために、サブセットまたはクライアントはプライバシー保護戦略でトレーニングされる。連合平均手順中に生データが露出するのを防ぐために、暗号化された形式でモデル更新または勾配を集約するセキュア集約アルゴリズムが適用される。機密情報を保護するため、モデル更新に制御されたノイズや摂動を追加することによって、微分プライバシーなどのさらなる戦略も使用される。
4.1.4 トレーニングと集約 連合学習アプローチを用いて、各サブセットまたはクライアントは割り当てられたトレーニングデータ上でローカルモデルをトレーニングする。確率的勾配降下(SGD)や Adam のような選択された最適化技術を使用して、トレーニングフェーズ中の反復(エポックとも呼ばれる)中にモデルパラメータが変更される。学習率、バッチサイズ、およびエポック数を含むトレーニングのためのハイパーパラメータは、異なる検証セットでのテストと検証を通じて確立される。
ローカルトレーニング後、各サブセットまたはクライアントのモデル更新(重みまたは勾配)は、安全にコーディネーターまたは中央サーバーへ集約のために送信される。モデル更新の加重平均は、連合平均のような集約手法によって決定され、各サブグループのサイズまたは重要性を考慮する。各サブセットまたはクライアントは、集約されたモデルのコピーを受け取り、これはさらにトレーニングおよび集約サイクルに使用される。
4.1.5 モデル評価 以前に用意されたテストセットを使用して、トレーニング済み連合学習モデルが評価される。喫煙に関連する活動を分類する際のモデルのパフォーマンスは、精度(accuracy)、適合率(precision)、再現率(recall)、F1 スコアなどの評価基準を用いて測定される。連合学習ソリューションは、トレーニングデータを異なるサブセットに分割しプライバシー保護アプローチを使用することにより、データプライバシーとセキュリティを尊重しながらモデルが共同でトレーニングされることを保証する。
4.1.6 連合平均アルゴリズムの実装 使用されているデータは水平パーティションされており、コンポーネントごとのパラメータ平均の適用が必要である。各参加クライアントが提供したデータポイントの割合に応じて加重される必要がある平均操作は、式 10 で必要とされる。
連合平均方程式は式 10 に記載されている。 f(a) = Σ_{m=1}^{m} (nm/n) Fm(a) ここで、 Fm(a) = (1/nm) Σ_{i∈Pm} fi(a) (11)
アルゴリズム 1–3 は、それぞれ連合平均、精度の計算、適合率・再現率・F1 スコアの計算を表示する。
4.2 実験結果の提示
4 結果 連合学習の喫煙データセットにおける実装は、モデルのパフォーマンスと精度において有望な結果をもたらした。以下の各節では、実験結果の詳細な分析を提供する。
Accuracy = (総正解数 / 総サンプル数) × 100 (12) Precision = (真陽性) / (真陽性 + 偽陽性) (13) Recall = (真陽性) / (真陽性 + 偽陰性) (14) F1-Score = 2 × Precision × Recall / (Precision + Recall) (15)
Algorithm 1. Accuracy のためのアルゴリズム。 初期化 total_correct ← 0 total_samples ← 0 各クライアント client in test_data_clients do client_test_data ← client.test_data client_ground_truth_labels ← client.ground_truth_labels for i = 1 to len(test_data_clients) do sample ← client_test_data[i] ground_truth_label ← client_ground_truth_labels[i] データポイント sample の予測ラベルを計算 predicted_label ← federated_model.predict(sample) if predicted_label == ground_truth_label then total_correct ← total_correct + 1 total_samples ← total_samples + 1 end end end モデルの Accuracy を計算 accuracy ← total_correct / total_samples * 100% 連合モデルの最終 accuracy を出力
4.2.1 パフォーマンス指標 トレーニング済みの連合学習モデルは、テストセットにおいて分類精度 97.65% を達成した。これは、モデルがトレーニングデータからパターンや特徴を効果的に学習し、未見の事例に対してよく一般化されたことを示している。異なる喫煙活動におけるモデルのパフォーマンスを評価するために、各クラス(例:喫煙、非喫煙)について適合率 (precision)、再現率 (recall)、F1 スコアが計算された。適合率は正しく予測された陽性インスタンスの割合を測定し、再現率は真陽性を識別するモデルの能力を評価し、F1 スコアは適合率と再現率のバランスを提供する。結果は、喫煙関連活動において高い適合率、再現率、および F1 スコア値を示しており、モデルが喫煙行動を検出する効果を示している。
Table 6 は各パフォーマンス指標の値を示す。Figures 3–6 はそれぞれ精度 (accuracy)、F1 スコア、適合率 (precision)、再現率 (recall) の観点から各モデルのパフォーマンスを要約している。頑健性を確保し過学習を防ぐために、モデルはトレーニングデータにおけるクロスバリデーションを用いて検証され、最終評価のために別々のテストセットが保持された。モデルはテストデータにおいて高いパフォーマンスを示したが、将来の作業では多様な環境や集団全体でのモデルの一般化可能性を確認するために実世界でのテストを含むべきである。
4.3 連合学習が従来の機械学習よりも優れている理由 第一に、連合学習は複数の分散型データソースの集合的知識を活用する。多様なデバイスやサーバーからのデータでモデルをトレーニングすることにより、連合学習はより広範な喫煙行動パターンを捉え、パフォーマンスの向上をもたらす。第二に、連合学習は並列処理とモデル共有を促進する。これにより、様々なデバイスやサーバーからの計算能力と洞察の統合利用が可能となり、モデルの精度と頑健性が強化される。さらに、連合学習はデータプライバシーを優先する。トレーニングプロセスは個々のデバイスまたはサーバー上でローカルで行われるため、個人情報などの機密データが安全かつプライベートに保たれる。このアプローチにより、プライバシーを維持しながらより多くのデータを含めることが可能となり、より正確なモデルを実現する。対照的に、従来の機械学習アプローチではデータを中央集権化する必要があり、これはプライバシーの犠牲や特定のデータセットへのアクセス制限をもたらす可能性がある。中央集権型モデルはまた、分散型およびプライバシーに敏感なデータを扱う際、データ転送、バイアス、およびスケーラビリティに関連する課題に直面する。したがって、連合学習の協力的性質、並列処理能力、モデル共有、およびプライバシー保護の側面が、従来の機械学習アプローチと比較して高い精度に寄与している。
4.3.1 比較分析 4 つの評価指標(精度 (accuracy)、適合率 (precision)、再現率 (recall)、F1 スコア)を分析することは、パフォーマンスモデルに関する貴重な洞察を提供する。これらの指標は分類タスクにおけるモデルのパフォーマンスの包括的な視点を提供し、その全体的な予測能力の評価を容易にする。精度は正しく分類されたサンプルと総サンプル数の比率を表し、予測の全体的な正確性を評価する。適合率はすべての陽性予測中の真陽性の割合に焦点を当て、偽陽性を減らすモデルの能力を示す。再現率は実際の陽性サンプル数に対する真陽性の比率を検証し、陽性インスタンスを認識するモデルの能力を示す。F1 スコアは適合率と再現率の調和平均を提供し、両者のバランスを取る。
Figure 7 はコレステロール値とヘモグロビンレベルの関係を示す棒グラフを表示している。このチャートはこれら 2 つの分布を視覚的に表現し、その値の比較ビューを提供する。棒グラフにより、異なるコレステロールカテゴリにわたるヘモグロビンレベルの分布を視覚的に比較することが可能となる。この可視化は、コレステロールとヘモグロビンの間の潜在的な相関関係やパターンを特定するのに役立つ。
Figure 8 は尿タンパク質値と喫煙状態の関係を示す棒グラフを提示している。このチャートは、個人が喫煙者か非喫煙者かに基づいてグループ間で尿タンパク質値がどのように変動するかを視覚的に表現する。この可視化は、データセットにおける喫煙と尿タンパク質レベルの関連性を評価するのに役立つ。
Figure 9 はコレステロール値と喫煙行動の関係を示す棒グラフを描いている。このチャートは、個人が喫煙者か非喫煙者かに基づいてグループ間でコレステロールレベルの分布を視覚的に提示する。2 つのグループを表す棒の高さを比較することで、喫煙者と非喫煙者の間のコレステロールレベルの分布における違いを観察できる。この可視化は、喫煙がコレステロールレベルに及ぼす潜在的な影響を理解するのに役立つ。
Figure 10 はヘモグロビンレベルと喫煙行動の関係を示す棒グラフを提示している。このチャートは、個人が喫煙者か非喫煙者かに基づいてグループ間でヘモグロビンレベルの分布を視覚的に表現する。2 つのグループを表す棒の高さを比較することで、喫煙者と非喫煙者の間のヘモグロビンレベルの変動を評価できる。この可視化は、喫煙とヘモグロビンレベルの潜在的な関連性を理解するのに役立つ。
4.4 他の既存のアプローチとの結果の比較 連合学習アプローチは、現在使用されている他のアプローチと比較して、パフォーマンスと精度において優れている。喫煙行動分析は従来、SVM やランダムフォレストなどの従来の機械学習技術を用いて行われてきた。分散型データソースにわたる協力的トレーニングを利用することにより、連合学習モデルはこれらのアプローチを上回った。
連合学習アプローチの改善された精度は、多様なソースからのデータを含め分散トレーニングを実行する能力の結果である。この発見は、標準的な中央集権的学習技術よりも喫煙情報をより効果的かつ頑健に分析するための連合学習の可能性を強調している。
連合学習アプローチは、プライバシーとセキュリティを維持しながら新たなおよび発展中のデータソースに適応できるため、喫煙行動分析の分野における実世界でのアプリケーションのための有望な選択肢である。
5 考察 5.1 本研究の利点、欠点および課題 提案された喫煙予測のための連合学習フレームワークは、中央集権的なデータストレージを回避することによるプライバシー保護や、多様な集団全体におけるモデルの一般化可能性の向上など、顕著な利点を有する。分散型アプローチにより、喫煙行動の微妙なニュアンスが捉えられ、ローカルデバイス上で高い精度と効率的な並列処理が可能となる。しかしながら、課題としては、頻繁なモデル更新による通信オーバーヘッド、多様なデータ分布からの潜在的な不整合性(モデルドリフト)、およびリソース制約のあるデバイスを圧迫する可能性のある計算上の要求が挙げられる。さらに、システムはモデルポイズニングなどのセキュリティリスク、継続的な集約の必要性によるスケーラビリティの複雑さ、およびリアルタイムでの適用可能性に影響を与える可能性がある潜在的な遅延に直面している。これらの制限にもかかわらず、このフレームワークのプライバシー保護特性と精度は、健康モニタリングにおける有望なアプローチである。
5.2 連合学習と機械学習の時計算量の比較 連合学習 (FL) と従来の機械学習 (ML) は、時計算量において異なる点がある。FL では、学習プロセスの分散型性質により時計算量が影響を受ける。トレーニングは複数のデバイスまたはサーバー上で行われるため、トレーニングに要する全体の時間は、ネットワークレイテンシ、通信オーバーヘッド、および参加デバイスの数などの要因に依存する。分散したエンティティ間の調整と同期を考慮すると、FL の時計算量は従来の ML と比較して高くなる可能性がある。しかしながら、最適化技術の進展、効率的な通信プロトコル、および並列処理能力により、FL における時計算量の課題が緩和されている。
一方、従来の機械学習の時計算量は、主にデータセットの規模および学習アルゴリズムの難易度によって影響を受ける。中央集権的なデータセット上でモデルをトレーニングすることは、通常、すべてのデータを一度に処理することを伴うため、大規模なデータセットでは時間がかかる可能性がある。処理要件、特徴量の量、およびデータポイントの数に関する分析は、ロジスティック回帰、決定木、サポートベクターマシン (SVM) などの ML 技術の時計算量を決定するために使用される。
5.3 改善または将来の研究のための領域の議論 連合学習を喫煙データセットに適用することは、教育および研究分野におけるさらなる調査と改善の潜在的な領域を浮き彫りにする。これらの領域は、喫煙行動研究の文脈において、連合学習アプローチのパフォーマンス、スケーラビリティ、および応用を向上させるのに役立つ可能性がある。以下の点を考慮されたい。
• アルゴリズムの改善:喫煙行動分析のために特別にカスタマイズされた独自の連合学習アルゴリズムを調査・作成する。収束速度とモデルパフォーマンスを高めるために、洗練された最適化技術、適応的な学習率スキーム、およびより効率的な集約方法を検討できる。 • 特徴量エンジニアリング:環境条件、社会的相互作用、または心理的状態などの新しい文脈的特徴の探索により、喫煙行動識別モデルの精度と解釈可能性を高める。 • プライバシー保護技術:モデルパフォーマンスを維持しながらより高いプライバシー保証を提供する新規なプライバシー保護戦略を調査・開発する。高度な暗号化アプローチ、差分プライバシーを備えた連合学習、または安全なマルチパーティ計算技術の探索が含まれる可能性がある。 • モデルのパーソナライゼーション:プライバシーを維持しつつ、個人ユーザーのために連合学習モデルをパーソナライズする方法を検討する。ユーザー固有の喫煙パターンや行動に適応するためのアプローチを調査することで、個別化された禁煙プログラムの実現につながる可能性がある。 • データセット拡張:連合学習モデルの一般化能力を強化するために、追加例、異なる集団、および喫煙関連のシナリオを含むように喫煙データセットを拡張することを検討する。これにより、集団間や環境状況における喫煙行動の違いに対処するモデルの能力が向上する。 • リアルタイムモニタリング:喫煙行動の継続的な監視と分析を可能にするリアルタイム連合学習システムを探索する。これには、リアルタイム推論とフィードバックを可能にするための効率的な通信プロトコルと軽量なモデルアーキテクチャの作成が含まれる可能性がある。 • ベンチマークと標準化:喫煙行動分析のための連合学習モデルの公平な比較と再現性を可能にするベンチマークと標準化された評価手法を確立する。これにより、研究者間の協力促進と分野における進展の加速が期待される。
これらの改善領域に対処し、さらなる研究を行うことで、喫煙データセットにおける連合学習の応用は継続的に進化し、喫煙行動を理解し対処するためのより正確で、プライバシーを保護し、堅牢なモデルへと導かれる。
6 結論 6 結論 本論文は、喫煙データセットにおける連合学習の包括的な実装を提示した。本研究の結果は、連合学習戦略がいかに喫煙関連活動の分析と分類に有効であったかを示している。モデルは精度 97.65%、適合率 97.31%、再現率 97.36%、F1 スコア 97.41% を達成し、同じデータセットに適用された従来の機械学習アルゴリズムを上回った。連合学習アプローチは、プライバシーの保護、データの多様性、並列処理、モデル共有性など、いくつかの利点を示した。これらの利点を活用することで、モデルは喫煙行動に関連するパターンや特徴を効果的に捉え、精度とパフォーマンスの向上につながった。本研究の結果は、喫煙行動分析の分野に重要な示唆を与え、機密性の高い医療データを分析するための堅牢でプライバシー保護的なアプローチとしての連合学習の可能性を浮き彫りにしている。今後の研究では、リアルタイムでの適用可能性を高めるための適応的学習メカニズムの統合や、高度な集約手法を通じたスケーラビリティの強化に焦点を当てるべきである。また、このフレームワークのアプリケーションをより大規模で多様なデータセットに拡張することで、その有効性をさらに強化できる可能性がある。全体的に、喫煙データセットにおける連合学習の成功した実装は、医療分析、個別化された介入、および禁煙・予防に関する公衆衛生イニシアチブにおける進展への道を開くものである。
データ利用可能性声明 提案された研究で使用されたデータセットは対応著者により提供可能であり、要求に応じて入手できる。これらのデータセットへのアクセスを希望する場合は、nallakaruppan.k@bimmpune.edu まで連絡のこと。
著者貢献 SF: 形式分析、オリジナル原稿の執筆。DR: 形式分析、オリジナル原稿の執筆。NM: 調査、可視化、オリジナル原稿の執筆。AV: 形式分析、レビューおよび編集。MN: ソフトウェア、レビューおよび編集。SS: リソース、検証、レビューおよび編集。PM: プロジェクト管理、レビューおよび編集。VM: プロジェクト管理、レビューおよび編集。IH: データキュレーション、資金獲得、レビューおよび編集。
資金援助 著者らは、本研究、著述、および/または本論文の出版に対して財政的支援を受けたことを宣言する。本研究はノルウェー科学技術大学 (Norwegian University of Science and Technology, Norway) によって資金提供された。
Frontiers in Computer Science 15 frontiersin.org
Fuladi et al. 10.3389/fcomp.2024.1494174
競合利益声明 本論文の著者である SS は、提案された研究の一部を担っているが、同時にこのジャーナルの編集委員の一人でもある。 残りの著者らは、潜在的な競合利益と見なされる可能性のある商業的または金銭的な関係がない中で研究が行われたことを宣言している。 著者らは、投稿時に Frontiers の編集委員会メンバーであったことを宣言したが、これは査読プロセスおよび最終決定には影響を与えなかった。
出版者の注記 本論文に記載されたすべての主張は著者のものであり、必ずしも所属機関や出版社、編集者、査読者の見解を代表するものではない。本論文で評価される可能性のある製品や、その製造業者が主張するものは、出版社によって保証または推奨されるものではない。
参考文献 Aguileta, A. A., Brena, R. F., Mayora, O., Molino-Minero-Re, E., and Trejo, L. A. (2019). Multi-sensor fusion for activity recognition-a survey. Sensors 19:3808. doi: 10.3390/s19173808 Alexander, A., Jiang, A., Ferreira, C., and Zurkiya, D. (2020). An intelligent future for medical imaging: a market outlook on artificial intelligence for medical imaging. J. Am. Coll. Radiol. 17, 165–170. doi: 10.1016/j.jacr.2019.07.019 Al-Mudimig, A., Saleem, F., and Ullah, Z. (2009). A framework of an automated data mining systems using ERP model. Int. J. Comput. Electr. Eng. 1:101. doi: 10.7763/IJCEE.2009.V1.101 Antunes, R. S., André da Costa, C., Küderle, A., Yari, I. A., and Eskofier, B. (2022). Federated learning for healthcare: systematic review and architecture proposal. ACM Trans. Intell. Syst. Technol. 13, 1–23. doi: 10.1145/3501813 Bonawitz, K. (2019). Towards federated learning at scale: system design. arXiv preprint arXiv:1902.01046. doi: 10.48550/arXiv.1902.01046 Breiman, L. (2001). Random forests. Machine Learn. 45, 5–32. doi: 10.1023/A:1010933404324 Cheng, K., Fan, T., Jin, Y., Liu, Y., Chen, T., Papadopoulos, D., et al. (2021). Secureboost: a lossless federated learning framework. IEEE Intell. Syst. 36, 87–98. doi: 10.1109/MIS.2021.3082561 Coughlin, L. N., Tegge, A. N., Sheffer, C. E., and Bickel, W. K. (2020). A machine-learning approach to predicting smoking cessation treatment outcomes. Nicot. Tobacco Res. 22, 415–422. doi: 10.1093/ntr/nty259 El Ouadrhiri, A., and Abdelhadi, A. (2022). Differential privacy for deep and federated learning: a survey. IEEE Access 10, 22359–22380. doi: 10.1109/ACCESS.2022.3151670 Fallah, A., Mokhtari, A., and Ozdaglar, A. (2020). Personalized federated learning: a meta-learning approach. arXiv preprint arXiv:2002.07948. doi: 10.48550/arXiv.2002.07948 Fan, L., Zhang, F., Fan, H., and Zhang, C. (2019). Brief review of image denoising techniques. Vis. Comput. Industr. Biomed. Art 2:7. doi: 10.1186/s42492-019-0016-7 Fereidooni, H., Marchal, S., Miettinen, M., Mirhoseini, A., Möllering, H., Nguyen, T. D., et al. (2021). “SAFELearn: Secure aggregation for private federated learning,” in
2021 IEEE セキュリティ・プライバシーワークショップ (SPW) (IEEE)、56–62 ページ。 Hu, L., Li, L., and Ji, J. (2020). 医療提供者と患者の喫煙に関する議論における主要な要因を特定し理解するための機械学習。Prev. Med. Rep. 20:101238. doi: 10.1016/j.pmedr.2020.101238 Hu, R., Guo, Y., Li, H., Pei, Q., and Gong, Y. (2020). 差分プライバシーを備えたパーソナライズド連合学習。IEEE Internet Things J. 7、9530–9539 ページ。doi: 10.1109/JIOT.2020.2991416 Huang, Y., Zhou, Y., Zhao, H., Riedel, T., and Beigl, M. (2024). 「ウェアラブル人間活動認識に関する調査:研究と実践を強化するための革新的なパイプライン開発」、in 2024 国際ニューラルネットワーク合同会議 (IJCNN) (IEEE)、1–10 ページ。 Kairouz, P., McMahan, H. B., Avent, B., Bellet, A., Bennis, M., Bhagoji, A. N., et al. (2021). 連合学習の進展と未解決問題。Found. Trends Machine Learn. 14、1–210 ページ。doi: 10.1561/2200000083 Kopper, A., Karkare, R., Paffenroth, R. C., and Apelian, D. (2020). 機械学習のためのモデル選択と評価:材料加工における深層学習。Integr. Mater. Manufact. Innov. 9、287–300 ページ。doi: 10.1007/s40192-020-00185-1 Kugic, A., Abdulnazar, A., Knezovic, A., Schulz, S., and Kreuzthaler, M. (2024). 「喫煙状態の分類:臨床実世界データを用いた機械学習手法の比較分析」、in 国際医療人工知能会議(ベルリン:Springer)、182–191 ページ。 Kumar, V., Sinha, N., Yadav, A., Singh, A., Meena, V., and Mathur, A. (2023). 「異なる機械学習モデルを用いたパーキンソン病の認識」、in 2023 国際通信・自動化・管理・セキュリティ新フロンティア会議 (ICCAMS)、Vol. 1 (IEEE)、1–6 ページ。 Larson, D. B., Magnus, D. C., Lungren, M. P., Shah, N. H., and Langlotz, C. P. (2020). 人工知能のための臨床画像データの活用と共有の倫理:提案された枠組み。Radiology 295、675–682 ページ。doi: 10.1148/radiol.2020192536 Li, K. H., de Gusmão, P. P. B., Beutel, D. J., and Lane, N. D. (2021). 「Flower における連合学習のための安全な集約」、in 第 2 回 ACM 国際分散機械学習ワークショップ、8–14 ページ。 Li, T., Sanjabi, M., Beirami, A., and Smith, V. (2019). 連合学習における公平なリソース割り当て。arXiv preprint arXiv:1905.10497. doi: 10.48550/arXiv.1905.10497 Liang, P. P., Liu, T., Ziyin, L., Allen, N. B., Auerbach, R. P., Brent, D., et al. (2020). 地域で考え、グローバルに行動:地域およびグローバル表現を備えた連合学習。arXiv preprint arXiv:2001.01523. doi: 10.48550/arXiv.2001.01523 McMahan, B., Moore, E., Ramage, D., Hampson, S., and y Arcas, B. A. (2017). 「分散データからの深層ネットワークの効率的な学習」、in Artificial Intelligence and Statistics、eds. A. Singh and J. Zhu(Proceedings of Machine Learning Research (PMLR))、1273–1282 ページ。 Mohammadi, S., Balador, A., Sinaei, S., and Flammini, F. (2024). 連合学習におけるプライバシーとパフォーマンスのバランス:手法および指標に関する体系的文献レビュー。J. Parall. Distribut. Comput. 2024:104918. doi: 10.1016/j.jpdc.2024.104918 Mottini, A., and Acuna-Agost, R. (2016). 「航空機乗客の国籍予測のための相対ラベル符号化」、in 2016 IEEE 第 16 回国際データマイニングワークショップ (ICDMW)(バルセロナ:IEEE)、671–676 ページ。 Nag, A., Hassan, M. M., Mandal, D., Chand, N., Islam, M. B., Meena, V., et al. (2024). 「IoT ネットワーク中心の異常検出のための機械学習手法のレビュー」、in 2024 第 47 回国際通信・信号処理会議 (TSP)(プラハ:IEEE)、26–31 ページ。 Nallakaruppan, M., Chaturvedi, H., Grover, V., Balusamy, B., Jaraut, P., Bahadur, J., et al. (2024). 説明可能な人工知能を用いた与信リスク評価および金融意思決定支援。Risks 12:164. doi: 10.3390/risks12100164 Nguyen, D. C., Pham, Q.-V., Pathirana, P. N., Ding, M., Seneviratne, A., Lin, Z., et al. (2022). スマートヘルスケアのための連合学習:調査。ACM Comput. Surv. 55、1–37 ページ。doi: 10.1145/3453476 Patil, Y., Lopez-Meyer, P., Tiffany, S., and Sazonov, E. (2013). 「削減された特徴セットを用いた呼吸信号からのタバコ煙の吸入検出」、in 2013 IEEE 第 35 回医療工学・生物学学会年次国際会議 (EMBC)(IEEE)、6031–6034 ページ。 Rajendran, S., Obeid, J. S., Binol, H., Foley, K., Zhang, W., Austin, P., et al. (2021). 医療機関間におけるクラウドベースの連合学習実装。JCO Clin. Cancer Informat. 5、1–11 ページ。doi: 10.1200/CCI.20.00060 Ranbaduge, T., and Ding, M. (2022). 差分プライバシー垂直連合学習。arXiv preprint arXiv:2211.06782. doi: 10.48550/arXiv.2211.06782 Raschka, S. (2018). 機械学習におけるモデル評価、モデル選択、およびアルゴリズム選択。arXiv preprint arXiv:1811.12808. doi: 10.48550/arXiv.1811.12808 Reich, Y., and Barai, S. (1999). エンジニアリング問題のための機械学習モデルの評価。Artif. Intell. Eng. 13、257–272 ページ。 Shao, R., He, H., Liu, H., and Liu, D. (2019). 医療データプライバシー保護のための確率的チャネルベース連合学習。arXiv preprint arXiv:1910.11160. doi: 10.48550/arXiv.1910.11160 Frontiers in Computer Science 16 frontiersin.org Fuladi et al. 10.3389/fcomp.2024.1494174 Sinha, K., and Ghosh, N. (2024). 機械学習支援タバコ研究の最近の進展に関するレビュー。NIPES-J. Sci. Technol. Res. 6:11223324. doi: 10.5281/zenodo.11223324 Stoian, A., Ivan, R., Stoian, I., and Marichescu, A. (2008). 「医療画像取得および通信の現在の動向」、in 2008 IEEE 国際自動化・品質検査・ロボティクス会議、Vol. 3(クラユ=ナポカ:IEEE)、94–99 ページ。 Sun, T., Li, D., and Wang, B. (2022). 分散連合平均化。IEEE Trans. Pat. Anal. Machine Intell. 45、4289–4301 ページ。doi: 10.1109/TPAMI.2022.3196503 Swapno, S. M. R., Nobel, S. N., Islam, M. B., Haque, R., Meena, V., and Benedetto, F. (2024). 「マンゴーの葉病気の高速かつ効率的な検出のための新規機械学習アプローチ」、in 2024 IEEE 第 3 回計算・機械知能国際会議 (ICMI)(IEEE)、1–7 ページ。 Thummisetti, B. S. P., and Atluri, H. (2024). 連合学習パラダイムを通じたプライバシーとセキュリティの強化のためのヘルスケアインフォマティクスの進展。Int. J. Sustain. Dev. Comput. Sci. 6、1–16 ページ。 Wang, Y., Guo, J., Zhang, J., Guo, S., Zhang, W., and Zheng, Q. (2023). 「多次元パーソナライズドエッジモデルを通じたより公平で効率的な連合学習に向けて」、in 2023 国際ニューラルネットワーク合同会議 (IJCNN)(IEEE)、1–8 ページ。 Wei, K., Li, J., Ding, M., Ma, C., Yang, H. H., Farokhi, F., et al. (2020). 差分プライバシーを備えた連合学習:アルゴリズムおよび性能分析。IEEE Trans. Inform. For. Secur. 15、3454–3469 ページ。doi: 10.1109/TIFS.2020.2988575 Yang, Q., Huang, A., Fan, L., Chan, C. S., Lim, J. H., Ng, K. W., et al. (2023). プライバシー保護およびモデル知的財産権保護を備えた連合学習。Machine Intell. Res. 20、19–37 ページ。doi: 10.1007/s11633-022-1343-2 Yang, Q., Liu, Y., Chen, T., and Tong, Y. (2019). 連合機械学習:概念および応用。ACM Trans. Intell. Syst. Technol. 10、1–19 ページ。doi: 10.1145/3339474 Yu, H., Liu, Z., Liu, Y., Chen, T., Cong, M., Weng, X., et al. (2020). 「連合学習のための公平性意識インセンティブスキーム」、in AAAI/ACM AI 倫理・社会会議、393–399 ページ。 Zelaya, C. V. G. (2019). 「データ前処理が機械学習に与える影響の説明に向けて」、in 2019 IEEE 第 35 回国際データエンジニアリング会議 (ICDE)(マカオ:IEEE)、2086–2090 ページ。 Zhuo, H. H., Feng, W., Lin, Y., Xu, Q., and Yang, Q. (2019). 連合深層強化学習。arXiv preprint arXiv:1901.08277. doi: 10.48550/arXiv.1901.08277 Frontiers in Computer Science 17 frontiersin.org