深言科技

快速搭建专属 AI 研发和训练平台,训练周期缩短 56%

背景与挑战

在 AI 技术日新月异的背景下,深言科技作为中文大模型领域的先锋,致力于构建工业级中文信息处理引擎,以扩展自然语言处理技术的边界。随着中文语料的不断丰富和自然语言的模型训练量的不断上升,公司迫切需要强大的 GPU 算力来支持其复杂的计算任务,并且需要加速研发进程以应对市场的需求和挑战。

寻求突破 GPU 资源瓶颈

深言科技在 AI 领域的发展中,对 GPU 算力的需求是显著的。需要在多机多卡上更容易地递交并行训练任务来提高计算效率。当前的分配机制无法有效匹配任务的优先级和资源需求,导致部分高优先级任务长时间等待资源,而部分已分配资源的任务又未能充分利用,造成资源浪费。

运维管理复杂度高,渴望智能化转型

深言科技的核心团队以算法研发见长,但在面对复杂的 GPU 算力系统和网络运维时,往往显得力不从心。在面对 GPU、IB 高性能网络、高性能并行存储等资源的调整和优化时,他们往往需要花费大量时间和精力,这不仅降低了工作效率,也影响了研发任务的整体进度。

故障恢复时效性强,寻求自动化解决方案

大规模 GPU 集群的组件故障率相对较高,训练过程中,GPU HBM ECC 错误、GPU 驱动问题、GPU 卡故障、网卡过热等问题都可能影响系统的稳定性,而保持较短的平均故障恢复时间非常关键。完全依赖人工故障定位和排错操作,效率低,成本高。这就需要系统具备自动化故障处理机制来应对,提升大型训练运行的 MFU。

成本控制压力大,追求可持续发展

随着 GPU 等高性能计算资源价格的攀升,成本控制成为深言科技不得不面对的现实问题。如何在保持高性能输出的同时,有效控制成本支出,成为公司管理层关注的焦点。深言科技深知,只有实现资源的高效利用和成本的有效控制,才能确保企业的可持续发展。

方案

为了解决上述问题,深言科技携手青云智算打造了一套高效的 AI 研发和训练平台。仅仅不到一个月的时间,就完成从售前咨询、项目启动到部署使用的全部流程。该平台通过自动化、智能化的方式,实现了 GPU 资源的合理分配与高效利用,为深言科技的 AI 研发之路提供了强有力的支撑。

智能 GPU 资源调度

平台采用先进的调度算法,根据任务的优先级、资源需求及当前系统状态,自动为各个训练任务分配最合适的 GPU 资源。同时,通过实时监控和动态调整,确保资源的高效利用,避免浪费。

容器化部署与运维

利用 Kubernetes 等容器化技术,将 AI 训练任务封装成独立的容器,实现资源的快速部署与灵活管理。AI 开发工程师只需关注模型算法本身,无需再为底层资源的配置和调整耗费精力,从而大大提高了工作效率。

一体化监控与管理

平台提供一体化的监控与管理界面,实时展示 GPU 资源的使用情况、任务进度及系统状态等信息。管理员可以通过该界面轻松管理整个系统,及时发现并解决问题,确保系统的稳定运行。

自动化运维工具

集成多种自动化运维工具,如故障预警、快速定位与自动恢复等,大大降低了运维难度和成本。即使在遇到复杂问题时,也能迅速响应并妥善处理,保障业务连续性。

收益

加速研发进程,训练周期大幅缩短

通过智能的 GPU 资源调度和高效的容器化部署,深言科技的大模型训练任务得以快速推进,显著缩短了产品研发周期。

优化成本结构,训练成本显著下降

科学合理的资源分配和高效的利用策略,使得深言科技在保持高性能的同时,提高资源利用率和降低硬件成本投入,成本削减幅度明显,每年为公司增加可观的可支配资金。

提升运维效率,节约人力成本

减少基础设施运维团队投入,节省人力成本。将 AI 开发工程师从重复性工作中解放出来,使他们能够专注于更具战略价值的创新项目。

体验 AI 智算,开启您的
AI 创新之旅!