清华大学天津电子信息研究院

构建 AI 和大数据应用创新开发和服务平台,加速产学研融合

背景与挑战

为了给成果转化提供坚实的软硬件支撑,清华大学天津电子信息研究院(简称“清华电子院”)作为清华大学电子信息学科的成果转化基地,搭建了以高端设备、核心技术为主的“技术平台”,以及以服务产业应用为核心的“应用平台”。人工智能大数据中心就是其中一个重要的技术平台。该人工智能大数据中心不仅服务于学校教育教学、学生自主创新项目,也服务于为智能零售、终端、金融、广告、安防、教育等行业。

多元异构算力资源统一调度与管理

学校需要能整合云计算、高性能计算(HPC)和 AI 算力的统一调度和管理平台。现有系统无法满足多样化的计算调配和管理的需求,导致资源分配不均和调度效率低下。

操作复杂导致技术门槛出现

AI 相关系统和硬件操作复杂,不利于师生快速上手和日常使用,无形提高 AI 应用的难度,影响 AI 创新项目的进展。

资源不能得到高效利用

在 AI 创新项目中,缺乏有效的计量计费机制会导致资源浪费,不能及时掌握项目消耗与进展,从而影响科研项目的可持续发展。

运维管理压力过大

随着计算资源的增加和师生用户数的上升,平台的运维难度也随之增加。如何确保平台的稳定运行,及时响应和解决技术问题,给学校的运维与管理都带来了沉重的负担。

方案

青云智算提供的解决方案能够满足智慧服务能源、交通、工业、医疗等不同场景的需求,让清华天津电子院的人工智能大数据中心形成了智慧运营的创新基础设施,能够对内对外统一提供服务。

多元异构,满足算力需求

一个平台统一调度与管理异构 CPU、GPU、存储与网络资源,为各种计算密集型和数据密集型任务提供合适的支持,确保科研任务能够获得所需的处理速度和计算能力。

统一运营运维,提升自动化

通过智能调度,自动分配计算资源,确保科研任务能够快速且高效地启动和运行。实时监控硬件状态、系统性能和应用运行情况,及时通过多种方式向运维团队告警,确保及时发现并处理问题。

自服务操作,精确计量计费

通过自服务门户,允许用户根据需要自助申请和管理计算资源,轻松上手,通过包括计量计费、统一身份认证及权限管理等,将资源使用跟踪告知用户,让用户对其资源消耗有清晰的认识,更好控制项目成本。

收益

清华电子院 AI 和大数据应用创新开发和服务平台,支撑科研院校、政府事业单位、商业机构等领域的科技创新工作和数字化创新业务,促进大量科研成果转化,构建应用生态,支持创新创业创造实践活动的开展。

加速研发进程

通过智能的算力资源调度和高效的用户操作流程,清华电子院的大模型训练任务得以快速推进,显著缩短了产品研发周期。

优化成本结构

科学合理的资源分配和高效的利用策略,使得清华电子院在保持高性能的同时,提高资源利用率、降低硬件成本投入,成本削减幅度明显。

提升运维效率

自动化的运维管理工具减少了基础设施运维团队的投入,节省了人力成本,同时确保了系统的稳定运行,提升了整体的运维效率。

体验 AI 智算,开启您的
AI 创新之旅!