githubinferredactive
AI-fundermentals
provenance:github:ForceInjection/AI-fundermentals
AI 基础知识 - GPU 架构、CUDA 编程、大模型基础及AI Agent 相关知识
README
# AI Fundamentals 本仓库是一个全面的人工智能基础设施(AI Infrastructure)学习资源集合,涵盖从硬件基础到高级应用的完整技术栈。内容包括 GPU 架构与编程、CUDA 开发、大语言模型、AI 系统设计、性能优化、企业级部署等核心领域,旨在为 AI 工程师、研究人员和技术爱好者提供系统性的学习路径和实践指导。 > - **适用人群**:AI 工程师、系统架构师、GPU 编程开发者、大模型应用开发者、技术研究人员。 > - **技术栈**:CUDA、GPU 架构、LLM、AI 系统、分布式计算、容器化部署、性能优化。 --- **Star History**: ##  --- ## 1. 硬件架构与互连技术 本章深入解析 AI 计算硬件与系统互连架构,内容涵盖从单机基础计算芯片(GPU、TPU)的设计哲学,到系统内高速互连总线(PCIe、NVLink)及高级跨节点直通技术(GPUDirect),最后探讨系统级延迟参考与异构融合超级芯片架构。详细内容请访问:**[硬件架构与互连技术](01_hardware_architecture/README.md)**。 - **基础计算芯片架构** - [深入理解 GPU 架构](./01_hardware_architecture/nvidia/understand_gpu_architecture/README.md) - [TPU 101:深度学习专用加速器架构解析](./01_hardware_architecture/tpu/tpu%20101.md) - [GPGPU vs NPU:大模型推理训练对比](./01_hardware_architecture/nvidia/GPGPU_vs_NPU_大模型推理训练对比.md) - **高速互连与数据传输技术** - [PCIe 总线技术大全](./01_hardware_architecture/pcie/01_pcie_comprehensive_guide.md) - [Linux PCIe P2PDMA 技术介绍](./01_hardware_architecture/pcie/02_p2pdma_technology.md) - [NVLink 技术入门](./01_hardware_architecture/nvlink/nvlink_intro.md) - [NVIDIA GPUDirect P2P 技术详解:节点内 GPU 高速互联](./01_hardware_architecture/gpudirect/02_gpudirect_p2p.md) - [NVIDIA GPUDirect RDMA 与 Storage 技术详解](./01_hardware_architecture/gpudirect/01_gpudirect_technology.md) - **异构融合架构与系统性能评估** - [NVLink-C2C:芯片级高速互连技术详解](./01_hardware_architecture/superchips/nvlink_c2c.md) - [NVIDIA GB300 NVL72:机架级计算系统架构解析](./01_hardware_architecture/superchips/nvidia_gb300.md) - [AI 基础设施延迟金字塔](./01_hardware_architecture/performance/ai_latency_pyramid.md) --- ## 2. AI 集群运维与高性能通信 本章涵盖从底层网络硬件到上层通信库的完整运维体系,包括高性能网络组网、GPU 基础监控运维以及分布式通信实战,为构建高吞吐的 AI 计算集群提供保障。详细内容请访问:**[AI 集群运维与通信](03_ai_cluster_ops/README.md)**。 - **GPU 基础运维** - [设备查询:Device Query](./03_ai_cluster_ops/01_gpu_ops/01_device_query.md) - [误区解读:GPU 利用率指标分析](./03_ai_cluster_ops/01_gpu_ops/02_gpu_utilization_myth.md) - [状态监控:nvidia-smi 指南](./03_ai_cluster_ops/01_gpu_ops/03_nvidia_smi_guide.md) - [状态监控:nvtop 指南](./03_ai_cluster_ops/01_gpu_ops/04_nvtop_guide.md) - **InfiniBand 高性能网络** - [理论基础:IB 网络架构与协议](./03_ai_cluster_ops/02_infiniband/01_ib_network_theory.md) - [网络运维:健康检查与性能监控实战](./03_ai_cluster_ops/02_infiniband/README.md) - **NCCL 分布式通信测试** - [理论基础:NCCL 教程](./03_ai_cluster_ops/03_nccl/01_nccl_tutorial.md) - [实战指南:基准测试与多节点部署](./03_ai_cluster_ops/03_nccl/README.md) --- ## 3. 云原生 AI 基础设施 本章聚焦于云原生技术在 AI 领域的应用,探讨如何利用 Kubernetes、容器化、微服务等云原生技术栈构建高效、可扩展的 AI 基础设施。详细内容请访问:**[云原生 AI 平台](04_cloud_native_ai_platform/README.md)**。 ### 3.1 Kubernetes AI 基础设施 Kubernetes 是云原生 AI 平台的操作系统。本模块深入解析 Kubernetes 在 AI 场景下的核心组件与扩展机制,涵盖从底层的容器运行时支持到上层的分布式作业调度。 - [Kubernetes GPU 管理与 AI 工作负载](./04_cloud_native_ai_platform/k8s/README.md):云原生 AI 基础设施建设指南与技术导图 - [NVIDIA Container Toolkit 原理](./04_cloud_native_ai_platform/k8s/01_nvidia_container_toolkit_analysis.md):容器使用 GPU 的底层机制深度解析 - [Device Plugin 原理](./04_cloud_native_ai_platform/k8s/02_nvidia_k8s_device_plugin_analysis.md):Kubernetes 设备插件机制源码分析 - [Kueue + HAMi 调度方案](./04_cloud_native_ai_platform/k8s/03_kueue_hami_integration.md):云原生作业队列与细粒度 GPU 共享机制 - [LWS (Leader Worker Set) 介绍](./04_cloud_native_ai_platform/k8s/04_lws_intro.md):Kubernetes 原生的大模型分布式训练与推理调度抽象 - [分布式推理框架](./04_cloud_native_ai_platform/k8s/05_llm_d_intro.md):基于 Kubernetes 的 LLM 推理架构设计 - [Containerd 日志分析](./04_cloud_native_ai_platform/k8s/06_containerd_log_analysis.md):云原生容器运行时的日志排查与分析 ### 3.2 GPU 资源管理与虚拟化 GPU 是 AI 平台最昂贵的计算资源。本模块专注于 GPU 资源的精细化管理,包括虚拟化、切分、远程调用和池化技术,旨在最大化资源利用率。 **基础系列文档**: - [第一部分:基础理论篇](./04_cloud_native_ai_platform/gpu_manager/第一部分:基础理论篇.md):构建技术认知框架,解析传统模式局限性与核心技术体系 - [第二部分:虚拟化技术篇](./04_cloud_native_ai_platform/gpu_manager/第二部分:虚拟化技术篇.md):深入剖析硬件级、内核态与用户态虚拟化的核心实现机制 - [第三部分:资源管理与优化篇](./04_cloud_native_ai_platform/gpu_manager/第三部分:资源管理与优化篇.md):探讨 GPU 切分、CUDA 流及 MPS 等高效资源调度与优化策略 - [第四部分:实践应用篇](./04_cloud_native_ai_platform/gpu_manager/第四部分:实践应用篇.md):涵盖环境部署、监控运维及云平台集成的生产落地指南 **HAMi 专题**: - [HAMi 资源管理使用手册](./04_cloud_native_ai_platform/gpu_manager/hami/hmai-gpu-resources-guide.md):异构算力管理与隔离实战指南 - [HAMi Prometheus 监控指标](./04_cloud_native_ai_platform/gpu_manager/hami/hami-prometheus-metrics.md):构建完善的 GPU 虚拟化可观测性体系 - [KAI vs HAMi 对比分析](./04_cloud_native_ai_platform/gpu_manager/hami/KAI_vs_HAMi_Comparison.md):深度对比原生 Kubernetes AI 调度器与 HAMi 方案 - [Flex AI 介绍](./04_cloud_native_ai_platform/gpu_manager/hami/flex_ai_intro.md):探讨灵活异构算力环境下的前沿实践 **代码实现与配置**: - [完整实现代码](./04_cloud_native_ai_platform/gpu_manager/code/):GPU 调度器、虚拟化拦截与远程调用的参考实现代码 - [配置文件集合](./04_cloud_native_ai_platform/gpu_manager/configs/):提供适用于生产环境和多云平台的完整部署与配置参考 ### 3.3 高性能分布式存储 数据是 AI 的燃料。本模块介绍如何利用 JuiceFS、DeepSeek 3FS 等云原生分布式文件系统,解决 AI 训练中海量小文件读取、模型检查点保存和跨节点数据共享的性能瓶颈。 - [JuiceFS 分布式文件系统](./04_cloud_native_ai_platform/storage/juicefs/README.md):数据与元数据分离的架构设计,兼容 POSIX 接口 - [文件修改机制分析](./04_cloud_native_ai_platform/storage/juicefs/01_juicefs_file_modification_mechanism_analysis.md):底层数据一致性与写入流程解析 - [后端存储变更手册](./04_cloud_native_ai_platform/storage/juicefs/02_juicefs_backend_storage_migration_guide.md):生产环境下的存储运维与数据迁移指南 - [DeepSeek 3FS 设计笔记](./04_cloud_native_ai_platform/storage/deepseek_3fs/01_deepseek_3fs_design_notes.md):高性能存储系统架构设计与特性分析 - [NVIDIA ICMS 架构解析](./04_cloud_native_ai_platform/storage/inference_context_memory_storage/01_icms_architecture.md):面向推理的 KV Cache 存储层架构深度解析 --- ## 4. 底层计算与异构编程 本章专注于 AI 系统的底层编程技术,涵盖 GPU 基础架构、CUDA 核心编程范式以及 DPU 的开发指南,为系统级开发者提供从入门到进阶的完整技术路径。 ### 4.1 GPU 与 CUDA 编程 整合了 GPU 基础架构、CUDA 核心编程概念及丰富的学习资源。详细内容请访问:[GPU 编程基础](02_gpu_programming/README.md)。 **开发环境配置**: - [NVIDIA 容器环境配置](./02_gpu_programming/01_environment/01_nvidia_container_setup.md):NVIDIA Container Toolkit 原理与构建指南 - [CUDA 镜像构建分析](./02_gpu_programming/01_environment/02_cuda_image_build_analysis.md):大模型训练与推理框架的 GPU 镜像构建深度解析 **核心编程范式**: - [GPU 编程入门指南](./02_gpu_programming/02_cuda/01_gpu_programming_introduction.md):并行计算基础与 CUDA 编程模型 - [CUDA 核心概念详解](./02_gpu_programming/02_cuda/02_cuda_cores.md):线程块、网格等基础概念的深度解析 - [CUDA 流详解](./02_gpu_programming/02_cuda/03_cuda_streams.md):CUDA 并发编程之流处理机制 - [SIMT vs Tile-Based 编程模型对比](./02_gpu_programming/02_cuda/04_simt_vs_tile_based.md):架构差异与演进分析 **Tile-Based 编程**: - [TileLang 快速入门](./02_gpu_programming/03_tilelang/01_tilelang_quick_start.md):语法详解、算子开发实战与性能优化技巧 **性能分析与调优**: - [nvbandwidth 最佳实践](./02_gpu_programming/04_profiling/01_nvbandwidth_best_practices.md):显存带宽与 PCIe 传输带宽测量指南 **进阶学习资源**: - [CUDA-Learn-Notes](https://github.com/xlite-dev/CUDA-Learn-Notes):涵盖 200+ 个 Tensor Core/CUDA Core 极致优化内核示例 (HGEMM, FA2 via MMA and CuTe) - [Nvidia 官方 CUDA 示例](https://github.com/NVIDIA/cuda-samples):官方标准范例库 - [Multi GPU Programming Models](https://github.com/NVIDIA/multi-gpu-programming-models):多卡编程模型示例 ### 4.2 DPU 编程 介绍数据处理单元(DPU)在现代计算架构中的应用及编程框架。详细内容请访问:[DPU 编程](02_dpu_programming/README.md)。 - **DOCA 框架** - [DOCA 编程入门](./02_dpu_programming/doca/01_doca_programming_guide.md):涵盖架构简介、核心组件及典型场景编程实践 --- ## 5. 大语言模型应用开发与编排 本章探讨在 AI 时代下新兴的应用层开发范式与工作流,重点关注如何利用各种编程语言、框架和编排工具构建复杂的 LLM 应用及 Agent 系统。详细的深度探讨可参考 [大模型编程指南](98_llm_programming/README.md)。 ### 5.1 AI 时代的软件工程:范式转移与重构 随着大语言模型能力的爆发式增长,软件工程正从 Software 1.0/2.0 时代迈向以自然语言驱动、Agent 自主决策与推理为核心的 **Software 3.0** 时代。本节探讨了在 AI 辅助下新兴的编程范式与工作流,重点关注如何利用 AI 提升开发效率与代码质量: - [Agent First:软件工程的下一个范式转移](98_llm_programming/Agent_First.md) - 梳理编程范式的演变历史,探讨 Agent First 的核心理念与实战指南。 - [驾驭工程](98_llm_programming/Harness_Engineering.md) - 深度解析如何构建驾驭系统,提升 AI 编程助手的可控性与效能。 - [OpenSpec 实战指南](https://github.com/ForceInjection/OpenSpec-practise/blob/main/README.md) - Spec 驱动开发 (Spec-Driven Development) 的工程实践,演示了“意图 -> Spec -> AI -> 代码 & 验证”的新一代开发工作流。 ### 5.2 Java AI 开发 本节主要介绍在 Java 生态系统中开发大语言模型应用的技术栈。Spring AI 作为官方主推的 AI 工程框架,极大地降低了企业级 Java 应用接入 AI 能力的门槛。 - [Java AI 开发指南](98_llm_programming/java_ai/README.md) - Java 生态系统中的 AI 开发技术总览。 - [使用 Spring AI 构建高效 LLM 代理](98_llm_programming/java_ai/spring_ai_cn.md) - 基于 Spring AI 框架的企业级 AI 应用开发实践。 ### 5.3 LangGraph 开发 LangGraph 是一个用于构建有状态、多智能体应用 [truncated…]
PUBLIC HISTORY
First discoveredMar 27, 2026
IDENTITY
inferred
Identity inferred from code signals. No PROVENANCE.yml found.
Is this yours? Claim it →METADATA
platformgithub
first seenSep 23, 2024
last updatedMar 26, 2026
last crawled21 days ago
version—
README BADGE
Add to your README:
