
Daily Paper Reader
毎日の論文読みを支援するシステム。複数の学術検索 API から論文を自動取得し、ローカル LLM で日本語翻訳して、この静的サイトに公開する。
仕組み
論文検索 → PDF取得 → 日本語翻訳 → サイト公開
1. 論文収集(毎朝 2:03 自動)
- Semantic Scholar API でキーワード検索(メイン)
- arXiv API で補助検索、結果をマージ
- Google Scholar(SerpAPI)で日替わりキーワード検索
- 埋め込みベクトルで類似論文の重複排除
- 過去の取得済み論文を排除し、1日50本 を選出
2. PDF ダウンロード
以下の優先順でオープンアクセス PDF を探す:
- Semantic Scholar の
openAccessPdf - arXiv 直リンク
- Unpaywall(DOI ベース)
- CORE(大学リポジトリ)
- PubMed Central
3. 日本語翻訳
- Abstract 要約: 全50本について日本語2〜3文の要約を生成
- 全文翻訳: PDF が取得できた論文のみ、PyMuPDF でテキスト抽出 → ローカル LLM でセクションごとに翻訳
- ローカル LLM: Qwen3-Swallow-30B-A3B(LM Studio)
4. 評価 & フィードバックループ
- 各論文に 👍👎 ボタンで評価
- Good 評価の傾向から検索キーワードを自動調整
- LLM が評価履歴を学習し、興味に合う論文を上位にソート
検索キーワード
- Trustworthy Machine Learning
- AI Alignment / RLHF
- LLM Safety / Red Teaming / Jailbreak
- Fairness / Bias Mitigation
- Adversarial Robustness
- Explainability / Interpretability
- Formal Verification of Neural Networks
- その他、Good 評価に基づき自動追加
技術スタック
| 技術 | 役割 |
|---|---|
| Semantic Scholar / arXiv / SerpAPI | 論文検索 |
| PyMuPDF / OCR Server | PDF → テキスト変換 |
| Qwen3-Swallow-30B-A3B (LM Studio) | 日本語翻訳 |
| Quartz v4 | Markdown → 静的 HTML |
| Cloudflare Pages | ホスティング |
| Docker | コンテナ実行(cron 定期実行) |