📚🔭 auto-paper-collecter

你的私人学术雷达 · Your Personal Research Radar

每天清晨，让 AI 替你逛遍 arXiv、把最新最相关的论文端到你面前 ☕✨

_{如果它帮你省下了刷 arXiv 的时间，欢迎点一个 ⭐ —— 这是对作者最大的鼓励！}

🆕 最新更新 · What's New

2026-06-26 · 新增 Agent Skill 版本 🤖

现在除了网页版，本仓库还内置一个 Claude Code / Codex 通用的 Agent Skill（skill/）。
一句话 「运行我的文献雷达」 就能跑完整条流水线、产出当日文献摘要 ——
纯 Python 标准库、零依赖、免 AI API key（由运行 skill 的模型本身完成联想扩展 / 相关性过滤 / 摘要 / 热点）。
👉 用法见下方 「🤖 Skill 版」 章节与 skill/SKILL.md。

🌟 这是什么 · What is this

auto-paper-collecter 是一个轻量、自托管的学术文献自动聚合工具。

你只要告诉它你关心的几个关键词，它就会每天自动：

🛰️ 跨 arXiv / Crossref(含 IEEE·ACM)/ Semantic Scholar / GitHub / RSS 多源检索
🧠 用 LLM 做"联想式"扩展检索，不再只匹配字面关键词
🎯 用 LLM 把跨领域、不相关的论文过滤掉，只留计算机领域、真正切题的
✍️ 为每篇生成中文摘要(一句话 TL;DR / 方法 / 核心贡献)
📊 分析领域热点、生成每周报告，还能邮件 / 浏览器推送

一个零构建的单页仪表盘，前后端同源，开箱即用。

🎯 为什么做它 · Motivation

[!NOTE]
做科研最累的事情之一，是跟踪文献。
arXiv 每天上新成百上千篇，关键词搜索要么漏掉同义写法、要么被一堆跨领域结果淹没，
手动刷既费时又容易错过。

于是有了这个小工具 —— 把"每天读一遍最新文献"这件事自动化，并交给 LLM 做最脏最累的两件事：

想得更全：C2Rust 也该搜到 C-to-Rust translation、migrating legacy C to Rust……
筛得更准：把"医学里的 translation""金融里的 AI"这种同名跨领域噪声挡在门外。

让你打开页面，看到的就是一份干净、按时间排好、带摘要的当日文献流。🫧

✨ 功能特性 · Features

	功能	说明
📰	今日文献流	多源聚合 + 按真实发表时间排序；无新文时智能回填；顶栏实时搜索
🧠	LLM 智能抓取	关键词联想扩展 + 计算机领域相关性过滤，召回更广、噪声更少
🔥	领域热点	LLM 聚合成主流子领域，统计近 7/30 天增量，Top 3 给出详细方向总结与对应论文
⭐	收藏与笔记	一键收藏、写笔记、复制 BibTeX
🗞️	每周报告	每周精选 + 分方向小结，自动归档
🔔	推送通知	浏览器通知 + 可选 SMTP 邮件摘要（定时发送）
🛰️	GitHub 实时源	顺带追踪与主题相关的最新代码仓库 / 论文实现
🌏	本地化	界面与摘要中文友好，时区可配

🧩 工作原理 · How it works

flowchart LR
    A([🔑 你的关键词]) --> B{{🧠 LLM 联想扩展}}
    B --> S1[arXiv]
    B --> S2[Crossref]
    B --> S3[Semantic Scholar]
    B --> S4[GitHub]
    B --> S5[RSS]
    S1 --> M[🧹 跨源去重]
    S2 --> M
    S3 --> M
    S4 --> M
    S5 --> M
    M --> F{{🎯 LLM 相关性过滤}}
    F --> Z{{✍️ LLM 中文摘要}}
    Z --> DB[(🗄️ SQLite)]
    DB --> UI([📊 仪表盘 / 邮件 / 周报])

_{纯 Python 跑确定性流程，把"判断"交给 LLM —— 既快又准。}

🚀 快速开始 · Quick Start

# 1) 克隆并进入
git clone https://github.com/PenghaoJiang/auto-paper-collecter.git
cd auto-paper-collecter

# 2) 建虚拟环境 & 装依赖
python -m venv .venv
source .venv/bin/activate            # Windows: .venv\Scripts\activate
pip install -r requirements.txt

# 3) 配置（复制模板后编辑 .env，填入你的 AI 网关等）
cp .env.example .env

# 4) 起飞 🛫
python run.py

打开 http://localhost:8000 → 进入「订阅设置」填关键词 → 点「保存并拓取」即可。

[!TIP]
关键词建议用英文（各源召回率更高）；界面与摘要是中文。首次抓取 + 摘要约需 1–3 分钟，后台进行，完成后页面自动出结果。

🤖 Skill 版 · Use as an Agent Skill

除了网页版，本仓库还内置一个 Claude Code / Codex 通用的 Agent Skill（skill/ 目录）——
直接对 AI 助手说一句"运行我的文献雷达"，它就会跑完整条流水线并产出当日文献摘要，
而且不需要任何 AI API key（跑这个 skill 的模型本身就是那个 LLM）。

# 安装：把 skill/ 复制到你的 Claude Code skills 目录
cp -r skill ~/.claude/skills/auto-paper-collecter
# 编辑你的关键词
$EDITOR ~/.claude/skills/auto-paper-collecter/state/config.json

然后对 Claude Code 说 「运行我的文献雷达 / 今天有什么新论文」 即可。脚本是纯 Python 标准库、零依赖；
确定性的抓取交给脚本，LLM 的判断（联想扩展 / 相关性过滤 / 中文摘要 / 热点）由运行 skill 的模型完成
（Claude Code → Claude；Codex → GPT）。细节见 skill/SKILL.md。

⚙️ 配置 · Configuration

所有配置都在 .env（参见 .env.example）：

变量	必填	说明
`AI_BASE_URL` / `AI_API_KEY` / `AI_MODEL`	✅	任意 OpenAI 兼容网关。`AI_ENABLED=false` 时退回原始摘要、不调 LLM
`SEMANTIC_SCHOLAR_KEY`	⬜	可选，不填也能用，仅限速更严
`GITHUB_TOKEN`	⬜	可选，提高 GitHub 检索速率上限
`SMTP_` / `EMAIL_`	⬜	可选，填入后定时任务发送当日摘要邮件（Gmail 需应用专用密码）
`REFRESH_TIMES` / `TIMEZONE`	⬜	每日定时刷新时间与时区（默认 `10:00,22:00` / `Asia/Shanghai`）
`BACKFILL_N` / `RSS_FEEDS`	⬜	回填篇数 / 学术新闻 RSS 源

[!IMPORTANT]
.env 已被 .gitignore 忽略，密钥永远不会被提交。请妥善保管自己的 key 🔐

🛰️ 数据源 · Data Sources

来源	内容	备注
arXiv	预印本（官方 API）	计算机领域主力
Crossref	期刊/会议元数据	含 IEEE·ACM，仅元数据 + 摘要
Semantic Scholar	综合学术检索	自带 TLDR；限定计算机领域
GitHub	实时仓库 / 论文代码	作为补充信号
RSS	学术新闻 / 博客	可自定义订阅源

📡 API

展开查看全部接口

方法	路径	说明
`GET`	`/api/bootstrap`	仪表盘一次性取数（feed / 库 / 热点 / 周报 / 设置）
`POST`	`/api/refresh`	后台触发一次抓取（立即返回，前端轮询 `refreshing`）
`GET`	`/api/trends?domain=&window=7`	领域热点（Top3 + 各方向增量 + 论文）
`GET`	`/api/report/weekly`	生成 / 取最新周报
`POST`	`/api/library/{paper_id}`	`{saved, read, note}` 收藏 / 已读 / 笔记
`GET·PUT`	`/api/settings`	关键词 / 来源 / 时间 / 回填 N / 推送 / 邮箱
`POST`	`/api/test-email`	发送一封测试邮件验证 SMTP

🗺️ 路线图 · Roadmap

多源聚合 + LLM 联想扩展 + 相关性过滤
领域热点（细分方向 + 详细总结 + 论文清单）
收藏 / 笔记 / BibTeX / 每周报告
浏览器 + 邮件推送、定时任务
更多数据源（OpenReview / bioRxiv …）
多用户 + 鉴权（PostgreSQL）
一键 Docker 部署
移动端适配

欢迎在 Issues 里提你想要的功能！🙌

🤝 一起建设 · Contributing

这是一个业余时间打磨的开源小项目，它的成长离不开你 —— 非常欢迎大家一起把它做得更好！ 🌱✨

🐛 发现 Bug → 提个 Issue
💡 有想法 / 想讨论 → 来 Discussions 一起头脑风暴 🧠
✨ 想要新功能 → 在 Issues 许个愿
🔧 想动手 → Fork → 改 → 提一个 Pull Request

无论是改一个错别字、补一句文档，还是接一个新数据源，每一份贡献都同样珍贵 💗
也欢迎你只是来 Discussions 聊聊你的科研工作流、分享你的关键词配置 —— 让我们把这个小雷达一起养大 🚀

⭐ 如果觉得有用，点个 Star 支持一下吧！

_{你的每一个 Star，都是作者继续维护的动力 🌱}

_{有想法、问题或想一起共建？欢迎来 💬 Discussions 坐坐！}

📚 Read less, know more. Let the radar do the scanning. 🔭

_{Made with ❤️ & ☕ · Licensed under MIT}