Daily Paper Reader

Daily Paper Reader

毎日の論文読みを支援するシステム。複数の学術検索 API から論文を自動取得し、ローカル LLM で日本語翻訳して、この静的サイトに公開する。

仕組み

論文検索 → PDF取得 → 日本語翻訳 → サイト公開

1. 論文収集(毎朝 2:03 自動)

  • Semantic Scholar API でキーワード検索(メイン)
  • arXiv API で補助検索、結果をマージ
  • Google Scholar(SerpAPI)で日替わりキーワード検索
  • 埋め込みベクトルで類似論文の重複排除
  • 過去の取得済み論文を排除し、1日50本 を選出

2. PDF ダウンロード

以下の優先順でオープンアクセス PDF を探す:

  1. Semantic Scholar の openAccessPdf
  2. arXiv 直リンク
  3. Unpaywall(DOI ベース)
  4. CORE(大学リポジトリ)
  5. PubMed Central

3. 日本語翻訳

  • Abstract 要約: 全50本について日本語2〜3文の要約を生成
  • 全文翻訳: PDF が取得できた論文のみ、PyMuPDF でテキスト抽出 → ローカル LLM でセクションごとに翻訳
  • ローカル LLM: Qwen3-Swallow-30B-A3B(LM Studio)

4. 評価 & フィードバックループ

  • 各論文に 👍👎 ボタンで評価
  • Good 評価の傾向から検索キーワードを自動調整
  • LLM が評価履歴を学習し、興味に合う論文を上位にソート

検索キーワード

  • Trustworthy Machine Learning
  • AI Alignment / RLHF
  • LLM Safety / Red Teaming / Jailbreak
  • Fairness / Bias Mitigation
  • Adversarial Robustness
  • Explainability / Interpretability
  • Formal Verification of Neural Networks
  • その他、Good 評価に基づき自動追加

技術スタック

技術役割
Semantic Scholar / arXiv / SerpAPI論文検索
PyMuPDF / OCR ServerPDF → テキスト変換
Qwen3-Swallow-30B-A3B (LM Studio)日本語翻訳
Quartz v4Markdown → 静的 HTML
Cloudflare Pagesホスティング
Dockerコンテナ実行(cron 定期実行)