AI-fundermentals

agent
SUMMARY

AI 基础知识 - GPU 架构、CUDA 编程、大模型基础及AI Agent 相关知识

README.md

AI Fundamentals

本仓库是一个全面的人工智能基础设施(AI Infrastructure)学习资源集合,涵盖从硬件基础到高级应用的完整技术栈。内容包括 GPU 架构与编程、CUDA 开发、大语言模型、AI 系统设计、性能优化、企业级部署等核心领域,旨在为 AI 工程师、研究人员和技术爱好者提供系统性的学习路径和实践指导。

  • 适用人群:AI 工程师、系统架构师、GPU 编程开发者、大模型应用开发者、技术研究人员。
  • 技术栈:CUDA、GPU 架构、LLM、AI 系统、分布式计算、容器化部署、性能优化。

Star History:

Star History Chart


1. 硬件架构与互连技术

本章深入解析 AI 计算硬件与系统互连架构,内容涵盖从单机基础计算芯片(GPU、TPU)的设计哲学,到系统内高速互连总线(PCIe、NVLink)及高级跨节点直通技术(GPUDirect),最后探讨系统级延迟参考与异构融合超级芯片架构。详细内容请访问:硬件架构与互连技术


2. AI 集群运维与高性能通信

本章涵盖从底层网络硬件到上层通信库的完整运维体系,包括高性能网络组网、GPU 基础监控运维以及分布式通信实战,为构建高吞吐的 AI 计算集群提供保障。详细内容请访问:AI 集群运维与通信


3. 云原生 AI 基础设施

本章聚焦于云原生技术在 AI 领域的应用,探讨如何利用 Kubernetes、容器化、微服务等云原生技术栈构建高效、可扩展的 AI 基础设施。详细内容请访问:云原生 AI 平台

3.1 Kubernetes AI 基础设施

Kubernetes 是云原生 AI 平台的操作系统。本模块深入解析 Kubernetes 在 AI 场景下的核心组件与扩展机制,涵盖从底层的容器运行时支持到上层的分布式作业调度。

3.2 GPU 资源管理与虚拟化

GPU 是 AI 平台最昂贵的计算资源。本模块专注于 GPU 资源的精细化管理,包括虚拟化、切分、远程调用和池化技术,旨在最大化资源利用率。

基础系列文档

HAMi 专题

代码实现与配置

  • 完整实现代码:GPU 调度器、虚拟化拦截与远程调用的参考实现代码
  • 配置文件集合:提供适用于生产环境和多云平台的完整部署与配置参考

3.3 高性能分布式存储

数据是 AI 的燃料。本模块介绍如何利用 JuiceFS、DeepSeek 3FS 等云原生分布式文件系统,解决 AI 训练中海量小文件读取、模型检查点保存和跨节点数据共享的性能瓶颈。


4. 底层计算与异构编程

本章专注于 AI 系统的底层编程技术,涵盖 GPU 基础架构、CUDA 核心编程范式以及 DPU 的开发指南,为系统级开发者提供从入门到进阶的完整技术路径。

4.1 GPU 与 CUDA 编程

整合了 GPU 基础架构、CUDA 核心编程概念及丰富的学习资源。详细内容请访问:GPU 编程基础

开发环境配置

核心编程范式

Tile-Based 编程

性能分析与调优

进阶学习资源

4.2 DPU 编程

介绍数据处理单元(DPU)在现代计算架构中的应用及编程框架。详细内容请访问:DPU 编程

  • DOCA 框架

5. 大语言模型应用开发与编排

本章探讨在 AI 时代下新兴的应用层开发范式与工作流,重点关注如何利用各种编程语言、框架和编排工具构建复杂的 LLM 应用及 Agent 系统。详细的深度探讨可参考 大模型编程指南

5.1 AI 时代的软件工程:范式转移与重构

随着大语言模型能力的爆发式增长,软件工程正从 Software 1.0/2.0 时代迈向以自然语言驱动、Agent 自主决策与推理为核心的 Software 3.0 时代。本节探讨了在 AI 辅助下新兴的编程范式与工作流,重点关注如何利用 AI 提升开发效率与代码质量:

  • Agent First:软件工程的下一个范式转移 - 梳理编程范式的演变历史,探讨 Agent First 的核心理念与实战指南。
  • 驾驭工程 - 深度解析如何构建驾驭系统,提升 AI 编程助手的可控性与效能。
  • OpenSpec 实战指南 - Spec 驱动开发 (Spec-Driven Development) 的工程实践,演示了“意图 -> Spec -> AI -> 代码 & 验证”的新一代开发工作流。

5.2 Java AI 开发

本节主要介绍在 Java 生态系统中开发大语言模型应用的技术栈。Spring AI 作为官方主推的 AI 工程框架,极大地降低了企业级 Java 应用接入 AI 能力的门槛。

5.3 LangGraph 开发

LangGraph 是一个用于构建有状态、多智能体应用程序的库。它通过引入图计算模型,完美解决了传统 LLM 应用在循环逻辑和状态持久化方面的瓶颈,特别适合构建需要多轮推理和自我反思的复杂 Agent 工作流。

5.4 AI 工作流与编排

除硬编码框架外,无代码或低代码(No-Code/Low-Code)工具也是 AI 应用落地的重要途径,它们能大幅提升编排效率。


6. 机器学习基础

本部分基于开源项目,提供系统化的机器学习学习路径。涵盖从数学原理到代码实现的完整过程,为深入学习大模型打下坚实基础。

6.1 动手学机器学习

本节提供全面的理论讲解与代码实战。

动手学机器学习 - 全面的机器学习学习资源库,包含理论讲解、代码实现和实战案例。

核心特色:

  • 理论与实践结合:以 NJU 课程为主线,辅以 SJTU 配套资源,从数学原理到代码实现的完整学习路径。
  • 算法全覆盖:涵盖监督学习、无监督学习、集成学习、推荐系统、概率图模型及深度学习。
  • 项目驱动学习:提供心脏病预测、鸢尾花分类、房价预测等实战案例。
  • 工程化实践:深入特征工程、模型评估、超参数调优及特征选择。

6.2 参考资料

本节精选了数学基础、经典教材与实战平台资源,构建完整的知识图谱。

数学基础:

经典教材:

  • 《统计学习方法》 - 李航著,系统阐述感知机、SVM、HMM 等核心算法的数学原理。
  • 《机器学习》 - 周志华著(西瓜书),全面覆盖机器学习基础理论与范式。
  • 《模式识别与机器学习》 - Bishop 著(PRML),贝叶斯视角的机器学习圣经。

在线课程与实战:


7. 大语言模型理论与基础

本章旨在为读者构建扎实的大语言模型(LLM)理论基础,涵盖从词向量嵌入到模型架构设计的核心知识。我们将深入解析 Token 机制、混合专家模型(MoE)等关键技术,并探讨量化、思维链(CoT)等前沿优化方向,同时涵盖深度研究(Deep Research)应用与工作流编排等前沿技术。

详细内容请访问:LLM 理论与基础 - 核心文档门户,涵盖基础理论、深度研究与工作流编排。

7.1 基础理论与概念

本节介绍大语言模型的基础理论,涵盖从文本处理到模型架构的核心概念。理解这些基础概念是深入学习 LLM 技术的前提。

7.2 嵌入技术与表示学习

本节深入探讨文本嵌入的原理、实现方式以及在不同场景下的应用策略。嵌入技术是大语言模型的核心组件之一,负责将离散的文本符号转换为连续的向量表示。

7.3 高级架构与应用技术

本节涵盖混合专家系统、量化技术、意图检测等前沿架构与应用技术。

7.4 Deep Research 深度研究

本节深入探讨利用 AI 进行深度研究的技术与应用,包括 Research Agent 的设计与实现。

7.5 工作流编排与应用平台 (Workflow)

探讨如何将大模型能力转化为实际业务应用与自动化流程。

7.6 参考书籍

本节列出了深入学习大语言模型理论的优质书籍和阅读材料。


8. 大模型训练

大模型的训练是一个复杂且系统的工程,涉及数据处理、分布式训练、指令微调等多个关键环节。本章将详细介绍从指令微调(SFT)到大规模模型预训练的完整技术路径,结合 70B 参数模型的实战案例,深入探讨训练基础设施的搭建、超参数优化及模型后训练(Post-Training)策略。详细指南可参考:模型训练与微调总览

8.1 指令微调与监督学习

本节介绍指令微调和监督微调(SFT)技术,通过高质量的指令-响应数据对提升模型执行人类指令的能力。

8.2 大规模模型训练实践

本节通过实际的 70B 参数模型训练案例,深入探讨从硬件配置到模型评估的完整训练流程。

8.3 模型后训练与评估

本节涵盖 AIOps 场景下的后训练技术、基于 Kubernetes 的评估框架以及基准测试生成方法,确保模型在实际应用中表现稳定。


9. 大模型推理

推理是大模型从实验室走向生产环境的“最后一公里”。本章聚焦于构建高性能、低延迟的推理系统,涵盖推理服务架构设计、核心框架、KV Cache 优化及模型部署实践。通过深入分析 Mooncake 等先进架构及不同规模集群的部署策略,为企业级大模型服务的落地提供全面的技术指导。

9.1 推理系统架构设计

推理系统架构直接决定了系统的性能、可扩展性和资源利用效率。本节介绍现代推理系统的核心架构创新与设计模式。

9.2 核心框架与平台

本节介绍业界主流的云原生推理框架与平台方案,探讨大模型推理在集群上的最佳实践。

9.3 KV Cache 核心技术

KV Cache 的高效管理是大模型长文本推理和并发优化的关键。本节深度剖析 LMCache 与 Tair 等分布式 KV Cache 系统的架构与实现。

9.3.1 LMCache 核心架构与后端实现

本小节详细解析 LMCache 的四层存储架构及其在跨实例缓存复用中的技术细节。

基础与架构概览

核心运行时组件

存储后端实现

控制面

高级特性

9.3.2 阿里云 Tair KVCache

本小节介绍阿里云企业级的 KVCache 管理系统架构及大规模部署实践。

9.4 推理优化技术体系

推理优化技术体系是提升大模型推理性能的核心技术集合,包括算法优化、硬件加速、系统调优和架构设计等多个维度。

vLLM 核心机制分析

显存与缓存优化

网络与模型工具

9.5 推理优化参考设计

本系列文档提供了企业级 LLM 推理系统的完整参考设计,涵盖从规模分析到实施落地的全流程指南。

基础理论与技术选型

架构设计与评估体系

专业领域优化

实施落地与运维

9.6 模型部署与运维实践

本节提供将模型转化为可用服务的部署方案与运维经验,涵盖不同硬件平台与框架的实战部署。

9.7 DeepSeek 专题

本节聚焦于 DeepSeek 模型的前沿推理优化与硬件适配实践,深度剖析其专有的并行架构设计(如 WideEP),以及在以 Blackwell 为代表的下一代高性能计算平台上的扩展性与部署策略。


10. 企业级 AI Agent 开发

企业级 AI Agent(人工智能智能体)开发的完整技术体系,涵盖从基础的认知理论、架构设计模式,到核心工程组件(如动态上下文管理、多层记忆系统、MCP 工具互操作),再到企业级的多智能体(Multi-Agent)系统实战落地与前沿学术研究,旨在为开发者和架构师提供构建生产级、高可靠智能体系统的系统化指南与最佳实践。

详细内容请访问:AI Agent 开发与实践 - 核心文档门户,涵盖理论、架构与实战。

10.1 核心理论与架构设计

本节深入探讨构建智能体系统的理论基石与架构设计。

多智能体系统

智能体设计模式

认知与基础理论

10.2 核心工程组件与基础设施

详细拆解智能体系统的关键工程化组件。

上下文与记忆系统

工具及协议

Agent Skill

AI Agent Infra

10.3 实战代码与演示项目

提供可运行的代码示例与完整项目源码,帮助开发者从理论走向实践。

完整端到端系统

专项工具与演示

10.4 前沿学术与行业研究

追踪 AI Agent 领域的最新学术进展与行业动态。

学术论文

行业报告


11. 检索增强生成与文档智能

本章聚焦于检索增强生成(RAG)与文档智能化处理技术,提供从非结构化数据解析到知识库构建的完整解决方案。

详细内容请访问:rag 与工具生态 - 核心文档门户,涵盖 RAGGraphRAG 与文档智能工具。

11.1 检索增强生成基础与进阶

探索 RAG 系统的核心组件、策略对比与模型选型,构建高效的检索增强生成系统。

11.2 图检索增强生成与知识图谱

结合知识图谱增强 RAG 的推理能力,深入 GraphRAG 前沿技术,解决复杂关系推理难题。

11.3 大模型与知识图谱协同应用

探索大语言模型(LLM)与知识图谱的深度融合,构建高可信、可解释的智能应用。

11.4 文档智能解析

高效处理非结构化文档(PDFOffice 等),为 RAG 系统提供高质量的数据输入,解决“垃圾进,垃圾出”(Garbage In, Garbage Out)问题。

  • mineru 文档解析 - 上海人工智能实验室开源工具,助力复杂 PDF 高效解析
  • marker pdf 布局检测 - 基于深度学习的高精度 PDF 解析与布局分析引擎
  • markitdown 入门 - Microsoft 开源的文档转换工具,支持多种办公文档格式到 Markdown 的高质量转换

12. 课程体系与学习路径

本章汇总了 AI 基础、系统开发、编程实战等全方位的课程体系,为学习者提供清晰的学习路径和进阶指南。

12.1 AI System 全栈课程(ZOMI 酱)

ZOMI 酱(陈佐钘)主导的 AI 系统全栈开源课程,涵盖从底层硬件芯片到上层 AI 框架设计的全技术栈内容。该课程在 GitHub 上广受好评(Star 数超 16.5k),是了解 AI 基础设施架构的绝佳资源。

AISystem - AI 系统全栈课程代码与资料库。

  • 系统介绍 - AI 系统概述、发展历程与技术演进路径。
  • 硬件基础 - AI 芯片架构、硬件加速器与计算平台深度解析。
  • 编译器技术 - AI 编译器原理、优化技术与工程实践。
  • 推理优化 - 模型推理加速技术、性能调优与部署策略。
  • 框架设计 - AI 框架架构设计、分布式计算与并行优化。

12.2 AI Infra 基础课程(入门)

本节提供面向初学者的 AI 基础设施基础课程,帮助快速建立领域知识体系。

  • 大模型原理与最新进展 - 交互式在线课程平台。
  • AI Infra 课程演讲稿 - 完整的课程演讲内容、技术要点与实践案例。
  • 学习目标:深入理解大模型工作原理、最新技术进展与企业级应用实践。
  • 核心内容
    • Transformer 架构深度解析:编码器-解码器结构、多头注意力机制、文本生成过程。
    • 训练规模与成本分析:GPT-3/4、PaLM 等主流模型的参数量、训练成本和资源需求。
    • DeepSeek 技术突破:V1/V2/R1 三代模型演进、MLA 架构创新、MoE 稀疏化优化。
    • 能力涌现现象研究:规模效应、临界点突破、多模态融合发展趋势。
    • AI 编程工具生态:GitHub Copilot、Cursor、Trae AI 等工具对比分析与应用实践。
    • GPU 架构与 CUDA 编程:硬件基础、并行计算原理、性能优化策略。
    • 云原生 AI 基础设施:现代化 AI 基础设施设计、容器化部署与运维实践。

12.3 Trae 编程实战课程

本节提供系统化的 Trae 编程学习体系,助力开发者掌握 AI 辅助编程的实战技巧。

课程结构:

  • 第一部分:Trae 基础入门:环境配置、交互模式、HelloWorld 项目实战。
  • 第二部分:常见编程场景实战:前端开发、Web 开发、后端 API、数据库设计、安全认证。
  • 第三部分:高级应用场景:AI 模型集成、实时通信、数据分析、微服务架构。
  • 第四部分:团队协作与最佳实践:代码质量管理、项目管理、性能优化、DevOps 实践。
  • 第五部分:综合项目实战:企业级应用开发、核心功能实现、部署运维实战。

12.4 多智能体 AI 系统培训

本节面向企业技术团队,提供从理论基础到实战应用的完整多智能体系统构建指南。


Buy Me a Coffee

如果您觉得本项目对您有帮助,欢迎购买我一杯咖啡,支持我继续创作和维护。

微信 支付宝
wechat alipay

Yorumlar (0)

Sonuc bulunamadi