取消
搜索历史
热搜词
原创
活动
转型理念
ENI专访
当前位置:首页 >文章发布 > 正文
首个云上AI原生全栈可观测平台来了
来源:工人日报  作者: 佚名 2024-09-23 08:49:49
近日,2024云栖大会,阿里云发布全新的AI原生全栈可观测平台,首次实现云上AI大模型从训练到推理再到应用的全链路实时观测、告警与诊断。

近日,2024云栖大会,阿里云发布全新的AI原生全栈可观测平台,首次实现云上AI大模型从训练到推理再到应用的全链路实时观测、告警与诊断。同时,阿里云可观测产品家族也实现了全新升级,最常用的日志服务SLS相较于自建体系,运维监控综合成本可降低30% 。

AI模型的深入发展,导致了数据处理方式与技术架构的深刻变 化,相关应用产生的日志、链路等可观测数据规模呈指数级增长,数据结构复杂度也与日俱增,而AI部署的异构环境、资源及平台也越发多元,都给可观测性的准确、实时、高效与智能化发展带来了巨大挑战。

“以阿里云可观测产品家族为代表的云原生可观测工具,正引领着AI-native可观测加速迈向智能化。企业用户可以像‘搭积木’一样轻松、灵活地构建可观测体系,更高效地管理与观测IT资源与服务,为AI创新夯实技术底座。”阿里云云原生应用平台负责人丁宇表示。

在2024云栖大会上,日志服务SLS、云监控CMS、应用实时监控服务ARMS等阿里云可观测产品家族实现了重磅更新,面向模型训练、推理及应用提供全链路的可观测服务。

在模型训练场景中,云监控CMS与阿里云AI算力产品及平台深度集成,全面采集计算、存储、网络调度等AI基础设施的可观测数据,有效覆盖数据准备、模型开发、训练和部署等环节,确保模型训练全流程可感知、可观测,为企业在AI基础设施的容量管理和可用性保障保驾护航。

在模型推理场景中,可观测性更多聚焦于推理性能提升、模型输入输出的质量优化及资源消耗的有效管理。应用实时监控服务ARMS推出符合 OpenTelemetry标准的自研Python Agent,全面支持通义千问/ LLamaIndex / LangChain等国内外主流框架和模型,采集丰富的指标、链路及持续剖析数据,借助开箱即用的数据可视化大盘与性能诊断功能,确保用户实时掌握模型运行状态及潜在瓶颈,为大模型应用的稳定运行与高效运维提供坚实的基础。

与此同时,日志服务SLS与大模型服务平台百炼深度集成,实现百炼模型API层面的可观测指标全覆盖,并应用于性能观测、稳定性评估、成本管控、安全合规等不同应用场景,帮助企业优化资源配置和业务决策。同时,SLS核心能力大幅提升,扫描性能提升10倍,达到1GB/s以上;处理性能提升至TB级每分钟,单GB处理成本降低60%。此外,SLS推出Elasticsearch兼容方案,相较于自建其综合成本可降30%以上。

据悉,阿里云已为全球80余个国家的百万企业级用户提供高效便捷、安全稳定的可观测服务。茶百道基于ARMS快速建立运维观测与响应能力,故障恢复效率提升50%以上;传音借助Prometheus、Grafana等可观测产品,业务上线效率提高60%;极氪基于阿里云可观测产品推行的应急响应机制与ChatOps协同机制,告警平均恢复耗时缩短50%。

免责声明:本文系网络转载,版权归原作者所有。本文所用图片、文字如涉及作品版权问题,请联系删除!本文内容为原作者观点,并不代表本网站观点。
编辑:刘婧
关键词: AI  AI大模型  AI原生  阿里云  智能化 
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

Baidu
map