随着人工智能技术的飞速发展,以大模型为代表的AI应用对算力需求呈现指数级增长,智算已成为驱动数字经济创新发展的核心引擎。当前,我国正大力推进“东数西算”工程与智算中心建设,各级政府与企业纷纷布局智能算力基础设施。然而,智算中心建设涉及芯片选型、体系架构、并行存储、高速网络、平台调度等诸多复杂技术环节,如何科学规划算力规模、设计合理架构、高效部署实施,成为制约行业发展的关键痛点。本课程旨在系统性地解决智算中心从规划到落地的全过程难题,培养具备实战能力的智算专业人才。
全面理解智算基本概念、发展态势、政策环境,深入掌握AI芯片原理、并行计算技术、高速互联架构、智算平台软件栈等核心知识,构建完整的智算技术知识图谱。
掌握根据客户业务场景与大模型应用需求推算算力规模的核心方法论,能够科学确定AI服务器数量、存储容量、网络带宽等关键配置,为智算中心建设提供精准决策依据。
熟悉智算中心从需求分析、方案设计、设备选型到部署实施的全流程,能够独立完成智算解决方案的规划设计,并掌握硬件上架、软件PG电子官网部署、平台配置、性能测试等实操技能。
深入了解智算在互联网、金融、科研、自动驾驶、智能制造等行业的典型应用案例,把握智算产业链上下游格局,为业务创新与投资决策提供参考。
能够结合所在行业具体诉求,提供智算项目咨询、规划设计、系统集成、技术支撑、投资评估等专业服务,成为懂技术、懂规划、懂实施的复合型人才。
课程最大亮点在于总结出业内领先的算力规模大小推算方法,即根据客户业务场景、模型参数量、数据规模等核心要素,精准测算训练与推理所需算力,为智算中心建设提供科学指导,避免投资浪费或算力不足。
5.1.1 数据并行、模型并行、流水线 混合专家模型(MoE)的并行策略
11.1.1 硬件上架与加电检查(服务器、交换机、线 基础操作系统与驱动安装配置