AI-fundermentals
AI-fundermentals is a resource focused on foundational AI knowledge. It covers topics including GPU architecture, CUDA programming, the basics of large language models, and AI agent concepts. This agent is likely useful for developers and learners seeking to understand the underlying technologies powering modern AI applications. The content appears to be presented primarily through HTML. It provides a starting point for those wanting to build or understand AI systems.
This agent addresses the need for a consolidated resource on fundamental AI concepts, particularly those related to GPU programming and large models. Instead of piecing together information from various sources, users can access a centralized collection of knowledge to accelerate their learning.
CAPABILITIES & CONSTRAINTS
README
# AI Fundamentals 本仓库是一个全面的人工智能基础设施(AI Infrastructure)学习资源集合,涵盖从硬件基础到高级应用的完整技术栈。内容包括 GPU 架构与编程、CUDA 开发、大语言模型、AI 系统设计、性能优化、企业级部署等核心领域,旨在为 AI 工程师、研究人员和技术爱好者提供系统性的学习路径和实践指导。 > - **适用人群**:AI 工程师、系统架构师、GPU 编程开发者、大模型应用开发者、技术研究人员。 > - **技术栈**:CUDA、GPU 架构、LLM、AI 系统、分布式计算、容器化部署、性能优化。 --- **Star History**: ##  --- ## 1. 硬件架构与互连技术 本章深入解析 AI 计算硬件与系统互连架构,内容涵盖从单机基础计算芯片(GPU、TPU)的设计哲学,到系统内高速互连总线(PCIe、NVLink)及高级跨节点直通技术(GPUDirect),最后探讨系统级延迟参考与异构融合超级芯片架构。详细内容请访问:**[硬件架构与互连技术](01_hardware_architecture/README.md)**。 - **基础计算芯片架构** - [深入理解 GPU 架构](./01_hardware_architecture/nvidia/understand_gpu_architecture/README.md) - [TPU 101:深度学习专用加速器架构解析](./01_hardware_architecture/tpu/tpu%20101.md) - [GPGPU vs NPU:大模型推理训练对比](./01_hardware_architecture/nvidia/GPGPU_vs_NPU_大模型推理训练对比.md) - **高速互连与数据传输技术** - [PCIe 总线技术大全](./01_hardware_architecture/pcie/01_pcie_comprehensive_guide.md) - [Linux PCIe P2PDMA 技术介绍](./01_hardware_architecture/pcie/02_p2pdma_technology.md) - [NVLink 技术入门](./01_hardware_architecture/nvlink/nvlink_intro.md) - [NVIDIA GPUDirect P2P 技术详解:节点内 GPU 高速互联](./01_hardware_architecture/gpudirect/02_gpudirect_p2p.md) - [NVIDIA GPUDirect RDMA 与 Storage 技术详解](./01_hardware_architecture/gpudirect/01_gpudirect_technology.md) - **异构融合架构与系统性能评估** - [NVLink-C2C:芯片级高速互连技术详解](./01_hardware_architecture/superchips/nvlink_c2c.md) - [NVIDIA GB300 NVL72:机架级计算系统架构解析](./01_hardware_architecture/superchips/nvidia_gb300.md) - [AI 基础设施延迟金字塔](./01_hardware_architecture/performance/ai_latency_pyramid.md) --- ## 2. AI 集群运维与高性能通信 本章涵盖从底层网络硬件到上层通信库的完整运维体系,包括高性能网络组网、GPU 基础监控运维以及分布式通信实战,为构建高吞吐的 AI 计算集群提供保障。详细内容请访问:**[AI 集群运维与通信](03_ai_cluster_ops/README.md)**。 - **GPU 基础运维** - [设备查询:Device Query](./03_ai_cluster_ops/01_gpu_ops/01_device_query.md) - [误区解读:GPU 利用率指标分析](./03_ai_cluster_ops/01_gpu_ops/02_gpu_utilization_myth.md) - [状态监控:nvidia-smi 指南](./03_ai_cluster_ops/01_gpu_ops/03_nvidia_smi_guide.md) - [状态监控:nvtop 指南](./03_ai_cluster_ops/01_gpu_ops/04_nvtop_guide.md) - **InfiniBand 高性能网络** - [理论基础:IB 网络架构与协议](./03_ai_cluster_ops/02_infiniband/01_ib_network_theory.md) - [网络运维:健康检查与性能监控实战](./03_ai_cluster_ops/02_infiniband/README.md) - **NCCL 分布式通信测试** - [理论基础:NCCL 教程](./03_ai_cluster_ops/03_nccl/01_nccl_tutorial.md) - [实战指南:基准测试与多节点部署](./03_ai_cluster_ops/03_nccl/README.md) --- ## 3. 云原生 AI 基础设施 本章聚焦于云原生技术在 AI 领域的应用,探讨如何利用 Kubernetes、容器化、微服务等云原生技术栈构建高效、可扩展的 AI 基础设施。详细内容请访问:**[云原生 AI 平台](04_cloud_native_ai_platform/README.md)**。 ### 3.1 Kubernetes AI 基础设施 Kubernetes 是云原生 AI 平台的操作系统。本模块深入解析 Kubernetes 在 AI 场景下的核心组件与扩展机制,涵盖从底层的容器运行时支持到上层的分布式作业调度。 - [Kubernetes GPU 管理与 AI 工作负载](./04_cloud_native_ai_platform/k8s/README.md):云原生 AI 基础设施建设指南与技术导图 - [NVIDIA Container Toolkit 原理](./04_cloud_native_ai_platform/k8s/01_nvidia_container_toolkit_analysis.md):容器使用 GPU 的底层机制深度解析 - [Device Plugin 原理](./04_cloud_native_ai_platform/k8s/02_nvidia_k8s_device_plugin_analysis.md):Kubernetes 设备插件机制源码分析 - [Kueue + HAMi 调度方案](./04_cloud_native_ai_platform/k8s/03_kueue_hami_integration.md):云原生作业队列与细粒度 GPU 共享机制 - [LWS (Leader Worker Set) 介绍](./04_cloud_native_ai_platform/k8s/04_lws_intro.md):Kubernetes 原生的大模型分布式训练与推理调度抽象 - [分布式推理框架](./04_cloud_native_ai_platform/k8s/05_llm_d_intro.md):基于 Kubernetes 的 LLM 推理架构设计 - [Containerd 日志分析](./04_cloud_native_ai_platform/k8s/06_containerd_log_analysis.md):云原生容器运行时的日志排查与分析 ### 3.2 GPU 资源管理与虚拟化 GPU 是 AI 平台最昂贵的计算资源。本模块专注于 GPU 资源的精细化管理,包括虚拟化、切分、远程调用和池化技术,旨在最大化资源利用率。 **基础系列文档**: - [第一部分:基础理论篇](./04_cloud_native_ai_platform/gpu_manager/第一部分:基础理论篇.md):构建技术认知框架,解析传统模式局限性与核心技术体系 - [第二部分:虚拟化技术篇](./04_cloud_native_ai_platform/gpu_manager/第二部分:虚拟化技术篇.md):深入剖析硬件级、内核态与用户态虚拟化的核心实现机制 - [第三部分:资源管理与优化篇](./04_cloud_native_ai_platform/gpu_manager/第三部分:资源管理与优化篇.md):探讨 GPU 切分、CUDA 流及 MPS 等高效资源调度与优化策略 - [第四部分:实践应用篇](./04_cloud_native_ai_platform/gpu_manager/第四部分:实践应用篇.md):涵盖环境部署、监控运维及云平台集成的生产落地指南 **HAMi 专题**: - [HAMi 资源管理使用手册](./04_cloud_native_ai_platform/gpu_manager/hami/hmai-gpu-resources-guide.md):异构算力管理与隔离实战指南 - [HAMi Prometheus 监控指标](./04_cloud_native_ai_platform/gpu_manager/hami/hami-prometheus-metrics.md):构建完善的 GPU 虚拟化可观测性体系 - [KAI vs HAMi 对比分析](./04_cloud_native_ai_platform/gpu_manager/hami/KAI_vs_HAMi_Comparison.md):深度对比原生 Kubernetes AI 调度器与 HAMi 方案 - [Flex AI 介绍](./04_cloud_native_ai_platform/gpu_manager/hami/flex_ai_intro.md):探讨灵活异构算力环境下的前沿实践 **代码实现与配置**: - [完整实现代码](./04_cloud_native_ai_platform/gpu_manager/code/):GPU 调度器、虚拟化拦截与远程调用的参考实现代码 - [配置文件集合](./04_cloud_native_ai_platform/gpu_manager/configs/):提供适用于生产环境和多云平台的完整部署与配置参考 ### 3.3 高性能分布式存储 数据是 AI 的燃料。本模块介绍如何利用 JuiceFS、DeepSeek 3FS 等云原生分布式文件系统,解决 AI 训练中海量小文件读取、模型检查点保存和跨节点数据共享的性能瓶颈。 - [JuiceFS 分布式文件系统](./04_cloud_native_ai_platform/storage/juicefs/README.md):数据与元数据分离的架构设计,兼容 POSIX 接口 - [文件修改机制分析](./04_cloud_native_ai_platform/storage/juicefs/01_juicefs_file_modification_mechanism_analysis.md):底层数据一致性与写入流程解析 - [后端存储变更手册](./04_cloud_native_ai_platform/storage/juicefs/02_juicefs_backend_storage_migration_guide.md):生产环境下的存储运维与数据迁移指南 - [DeepSeek 3FS 设计笔记](./04_cloud_native_ai_platform/storage/deepseek_3fs/01_deepseek_3fs_design_notes.md):高性能存储系统架构设计与特性分析 - [NVIDIA ICMS 架构解析](./04_cloud_native_ai_platform/storage/inference_context_memory_storage/01_icms_architecture.md):面向推理的 KV Cache 存储层架构深度解析 --- ## 4. 底层计算与异构编程 本章专注于 AI 系统的底层编程技术,涵盖 GPU 基础架构、CUDA 核心编程范式以及 DPU 的开发指南,为系统级开发者提供从入门到进阶的完整技术路径。 ### 4.1 GPU 与 CUDA 编程 整合了 GPU 基础架构、CUDA 核心编程概念及丰富的学习资源。详细内容请访问:[GPU 编程基础](02_gpu_programming/README.md)。 **开发环境配置**: - [NVIDIA 容器环境配置](./02_gpu_programming/01_environment/01_nvidia_container_setup.md):NVIDIA Container Toolkit 原理与构建指南 - [CUDA 镜像构建分析](./02_gpu_programming/01_environment/02_cuda_image_build_analysis.md):大模型训练与推理框架的 GPU 镜像构建深度解析 **核心编程范式**: - [GPU 编程入门指南](./02_gpu_programming/02_cuda/01_gpu_programming_introduction.md):并行计算基础与 CUDA 编程模型 - [CUDA 核心概念详解](./02_gpu_programming/02_cuda/02_cuda_cores.md):线程块、网格等基础概念的深度解析 - [CUDA 流详解](./02_gpu_programming/02_cuda/03_cuda_streams.md):CUDA 并发编程之流处理机制 - [SIMT vs Tile-Based 编程模型对比](./02_gpu_programming/02_cuda/04_simt_vs_tile_based.md):架构差异与演进分析 **Tile-Based 编程**: - [TileLang 快速入门](./02_gpu_programming/03_tilelang/01_tilelang_quick_start.md):语法详解、算子开发实战与性能优化技巧 **性能分析与调优**: - [nvbandwidth 最佳实践](./02_gpu_programming/04_profiling/01_nvbandwidth_best_practices.md):显存带宽与 PCIe 传输带宽测量指南 **进阶学习资源**: - [CUDA-Learn-Notes](https://github.com/xlite-dev/CUDA-Learn-Notes):涵盖 200+ 个 Tensor Core/CUDA Core 极致优化内核示例 (HGEMM, FA2 via MMA and CuTe) - [Nvidia 官方 CUDA 示例](https://github.com/NVIDIA/cuda-samples):官方标准范例库 - [Multi GPU Programming Models](https://github.com/NVIDIA/multi-gpu-programming-models):多卡编程模型示例 ### 4.2 DPU 编程 介绍数据处理单元(DPU)在现代计算架构中的应用及编程框架。详细内容请访问:[DPU 编程](02_dpu_programming/README.md)。 - **DOCA 框架** - [DOCA 编程入门](./02_dpu_programming/doca/01_doca_programming_guide.md):涵盖架构简介、核心组件及典型场景编程实践 --- ## 5. 大语言模型应用开发与编排 本章探讨在 AI 时代下新兴的应用层开发范式与工作流,重点关注如何利用各种编程语言、框架和编排工具构建复杂的 LLM 应用及 Agent 系统。详细的深度探讨可参考 [大模型编程指南](98_llm_programming/README.md)。 ### 5.1 AI 时代的软件工程:范式转移与重构 随着大语言模型能力的爆发式增长,软件工程正从 Software 1.0/2.0 时代迈向以自然语言驱动、Agent 自主决策与推理为核心的 **Software 3.0** 时代。本节探讨了在 AI 辅助下新兴的编程范式与工作流,重点关注如何利用 AI 提升开发效率与代码质量: - [Agent First:软件工程的下一个范式转移](98_llm_programming/Agent_First.md) - 梳理编程范式的演变历史,探讨 Agent First 的核心理念与实战指南。 - [驾驭工程](98_llm_programming/Harness_Engineering.md) - 深度解析如何构建驾驭系统,提升 AI 编程助手的可控性与效能。 - [OpenSpec 实战指南](https://github.com/ForceInjection/OpenSpec-practise/blob/main/README.md) - Spec 驱动开发 (Spec-Driven Development) 的工程实践,演示了“意图 -> Spec -> AI -> 代码 & 验证”的新一代开发工作流。 ### 5.2 Java AI 开发 本节主要介绍在 Java 生态系统中开发大语言模型应用的技术栈。Spring AI 作为官方主推的 AI 工程框架,极大地降低了企业级 Java 应用接入 AI 能力的门槛。 - [Java AI 开发指南](98_llm_programming/java_ai/README.md) - Java 生态系统中的 AI 开发技术总览。 - [使用 Spring AI 构建高效 LLM 代理](98_llm_programming/java_ai/spring_ai_cn.md) - 基于 Spring AI 框架的企业级 AI 应用开发实践。 ### 5.3 LangGraph 开发 LangGraph 是一个用于构建有状态、多智能体应用 [truncated…]
PUBLIC HISTORY
IDENTITY
Identity inferred from code signals. No PROVENANCE.yml found.
Is this yours? Claim it →METADATA
README BADGE
Add to your README:
