auto-paper-collecter
Health Gecti
- License — License: MIT
- Description — Repository has a description
- Active repo — Last push 0 days ago
- Community trust — 28 GitHub stars
Code Gecti
- Code scan — Scanned 12 files during light audit, no dangerous patterns found
Permissions Gecti
- Permissions — No dangerous permissions requested
Bu listing icin henuz AI raporu yok.
📚🔭 Your personal research radar — an LLM-powered tool that auto-aggregates the latest papers for your keywords across arXiv / Crossref / Semantic Scholar / GitHub / RSS.
📚🔭 auto-paper-collecter
你的私人学术雷达 · Your Personal Research Radar
每天清晨,让 AI 替你逛遍 arXiv、把最新最相关的论文端到你面前 ☕✨
如果它帮你省下了刷 arXiv 的时间,欢迎点一个 ⭐ —— 这是对作者最大的鼓励!
🆕 最新更新 · What's New
2026-06-26 · 新增 Agent Skill 版本 🤖
现在除了网页版,本仓库还内置一个 Claude Code / Codex 通用的 Agent Skill(
skill/)。
一句话 「运行我的文献雷达」 就能跑完整条流水线、产出当日文献摘要 ——
纯 Python 标准库、零依赖、免 AI API key(由运行 skill 的模型本身完成联想扩展 / 相关性过滤 / 摘要 / 热点)。
👉 用法见下方 「🤖 Skill 版」 章节与skill/SKILL.md。
🌟 这是什么 · What is this
auto-paper-collecter 是一个轻量、自托管的学术文献自动聚合工具。
你只要告诉它你关心的几个关键词,它就会每天自动:
🛰️ 跨 arXiv / Crossref(含 IEEE·ACM)/ Semantic Scholar / GitHub / RSS 多源检索
🧠 用 LLM 做"联想式"扩展检索,不再只匹配字面关键词
🎯 用 LLM 把跨领域、不相关的论文过滤掉,只留计算机领域、真正切题的
✍️ 为每篇生成中文摘要(一句话 TL;DR / 方法 / 核心贡献)
📊 分析领域热点、生成每周报告,还能邮件 / 浏览器推送
一个零构建的单页仪表盘,前后端同源,开箱即用。
🎯 为什么做它 · Motivation
[!NOTE]
做科研最累的事情之一,是跟踪文献。
arXiv 每天上新成百上千篇,关键词搜索要么漏掉同义写法、要么被一堆跨领域结果淹没,
手动刷既费时又容易错过。
于是有了这个小工具 —— 把"每天读一遍最新文献"这件事自动化,并交给 LLM 做最脏最累的两件事:
- 想得更全:
C2Rust也该搜到C-to-Rust translation、migrating legacy C to Rust…… - 筛得更准:把"医学里的 translation""金融里的 AI"这种同名跨领域噪声挡在门外。
让你打开页面,看到的就是一份干净、按时间排好、带摘要的当日文献流。🫧
✨ 功能特性 · Features
| 功能 | 说明 | |
|---|---|---|
| 📰 | 今日文献流 | 多源聚合 + 按真实发表时间排序;无新文时智能回填;顶栏实时搜索 |
| 🧠 | LLM 智能抓取 | 关键词联想扩展 + 计算机领域相关性过滤,召回更广、噪声更少 |
| 🔥 | 领域热点 | LLM 聚合成主流子领域,统计近 7/30 天增量,Top 3 给出详细方向总结与对应论文 |
| ⭐ | 收藏与笔记 | 一键收藏、写笔记、复制 BibTeX |
| 🗞️ | 每周报告 | 每周精选 + 分方向小结,自动归档 |
| 🔔 | 推送通知 | 浏览器通知 + 可选 SMTP 邮件摘要(定时发送) |
| 🛰️ | GitHub 实时源 | 顺带追踪与主题相关的最新代码仓库 / 论文实现 |
| 🌏 | 本地化 | 界面与摘要中文友好,时区可配 |
🧩 工作原理 · How it works
flowchart LR
A([🔑 你的关键词]) --> B{{🧠 LLM 联想扩展}}
B --> S1[arXiv]
B --> S2[Crossref]
B --> S3[Semantic Scholar]
B --> S4[GitHub]
B --> S5[RSS]
S1 --> M[🧹 跨源去重]
S2 --> M
S3 --> M
S4 --> M
S5 --> M
M --> F{{🎯 LLM 相关性过滤}}
F --> Z{{✍️ LLM 中文摘要}}
Z --> DB[(🗄️ SQLite)]
DB --> UI([📊 仪表盘 / 邮件 / 周报])
🚀 快速开始 · Quick Start
# 1) 克隆并进入
git clone https://github.com/PenghaoJiang/auto-paper-collecter.git
cd auto-paper-collecter
# 2) 建虚拟环境 & 装依赖
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
pip install -r requirements.txt
# 3) 配置(复制模板后编辑 .env,填入你的 AI 网关等)
cp .env.example .env
# 4) 起飞 🛫
python run.py
打开 http://localhost:8000 → 进入「订阅设置」填关键词 → 点「保存并拓取」即可。
[!TIP]
关键词建议用英文(各源召回率更高);界面与摘要是中文。首次抓取 + 摘要约需 1–3 分钟,后台进行,完成后页面自动出结果。
🤖 Skill 版 · Use as an Agent Skill
除了网页版,本仓库还内置一个 Claude Code / Codex 通用的 Agent Skill(skill/ 目录)——
直接对 AI 助手说一句"运行我的文献雷达",它就会跑完整条流水线并产出当日文献摘要,
而且不需要任何 AI API key(跑这个 skill 的模型本身就是那个 LLM)。
# 安装:把 skill/ 复制到你的 Claude Code skills 目录
cp -r skill ~/.claude/skills/auto-paper-collecter
# 编辑你的关键词
$EDITOR ~/.claude/skills/auto-paper-collecter/state/config.json
然后对 Claude Code 说 「运行我的文献雷达 / 今天有什么新论文」 即可。脚本是纯 Python 标准库、零依赖;
确定性的抓取交给脚本,LLM 的判断(联想扩展 / 相关性过滤 / 中文摘要 / 热点)由运行 skill 的模型完成
(Claude Code → Claude;Codex → GPT)。细节见 skill/SKILL.md。
⚙️ 配置 · Configuration
所有配置都在 .env(参见 .env.example):
| 变量 | 必填 | 说明 |
|---|---|---|
AI_BASE_URL / AI_API_KEY / AI_MODEL |
✅ | 任意 OpenAI 兼容网关。AI_ENABLED=false 时退回原始摘要、不调 LLM |
SEMANTIC_SCHOLAR_KEY |
⬜ | 可选,不填也能用,仅限速更严 |
GITHUB_TOKEN |
⬜ | 可选,提高 GitHub 检索速率上限 |
SMTP_* / EMAIL_* |
⬜ | 可选,填入后定时任务发送当日摘要邮件(Gmail 需应用专用密码) |
REFRESH_TIMES / TIMEZONE |
⬜ | 每日定时刷新时间与时区(默认 10:00,22:00 / Asia/Shanghai) |
BACKFILL_N / RSS_FEEDS |
⬜ | 回填篇数 / 学术新闻 RSS 源 |
[!IMPORTANT]
.env已被.gitignore忽略,密钥永远不会被提交。请妥善保管自己的 key 🔐
🛰️ 数据源 · Data Sources
| 来源 | 内容 | 备注 |
|---|---|---|
| arXiv | 预印本(官方 API) | 计算机领域主力 |
| Crossref | 期刊/会议元数据 | 含 IEEE·ACM,仅元数据 + 摘要 |
| Semantic Scholar | 综合学术检索 | 自带 TLDR;限定计算机领域 |
| GitHub | 实时仓库 / 论文代码 | 作为补充信号 |
| RSS | 学术新闻 / 博客 | 可自定义订阅源 |
📡 API
展开查看全部接口| 方法 | 路径 | 说明 |
|---|---|---|
GET |
/api/bootstrap |
仪表盘一次性取数(feed / 库 / 热点 / 周报 / 设置) |
POST |
/api/refresh |
后台触发一次抓取(立即返回,前端轮询 refreshing) |
GET |
/api/trends?domain=&window=7 |
领域热点(Top3 + 各方向增量 + 论文) |
GET |
/api/report/weekly |
生成 / 取最新周报 |
POST |
/api/library/{paper_id} |
{saved, read, note} 收藏 / 已读 / 笔记 |
GET·PUT |
/api/settings |
关键词 / 来源 / 时间 / 回填 N / 推送 / 邮箱 |
POST |
/api/test-email |
发送一封测试邮件验证 SMTP |
🗺️ 路线图 · Roadmap
- 多源聚合 + LLM 联想扩展 + 相关性过滤
- 领域热点(细分方向 + 详细总结 + 论文清单)
- 收藏 / 笔记 / BibTeX / 每周报告
- 浏览器 + 邮件推送、定时任务
- 更多数据源(OpenReview / bioRxiv …)
- 多用户 + 鉴权(PostgreSQL)
- 一键 Docker 部署
- 移动端适配
欢迎在 Issues 里提你想要的功能!🙌
🤝 一起建设 · Contributing
这是一个业余时间打磨的开源小项目,它的成长离不开你 —— 非常欢迎大家一起把它做得更好! 🌱✨
- 🐛 发现 Bug → 提个 Issue
- 💡 有想法 / 想讨论 → 来 Discussions 一起头脑风暴 🧠
- ✨ 想要新功能 → 在 Issues 许个愿
- 🔧 想动手 → Fork → 改 → 提一个 Pull Request
无论是改一个错别字、补一句文档,还是接一个新数据源,每一份贡献都同样珍贵 💗
也欢迎你只是来 Discussions 聊聊你的科研工作流、分享你的关键词配置 —— 让我们把这个小雷达一起养大 🚀
⭐ 如果觉得有用,点个 Star 支持一下吧!
你的每一个 Star,都是作者继续维护的动力 🌱
有想法、问题或想一起共建?欢迎来 💬 Discussions 坐坐!
📚 Read less, know more. Let the radar do the scanning. 🔭
Made with ❤️ & ☕ · Licensed under MIT
Yorumlar (0)
Yorum birakmak icin giris yap.
Yorum birakSonuc bulunamadi