为何大数据很多,能赚钱的公司却很少?

2022-08-28 05:54:17

在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。而企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策。

尽管对于许多企业来说,大数据早已成为信息管理的基础,但他们所沉淀的数据资产有多少能够产生增值,却很难有所衡量。

如果仅停留在收集数据和出具分析报表,那么随着数据种类的不断变化,当中大量的碎片化、非结构化数据,会令企业在营销和运营过程中很难有效从中提炼价值。

这就是为何大数据很多,能赚钱的公司却很少。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构,依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

但是在面对大量庞杂及非机构化的数据面前,如何快速提升分析和训练效率就成为了企业必需去解决的问题。

为此,谷歌深度学习框架 TensorFlow 自 2015 年 11 月开源以来就受到了学术界和工业界的广泛关注。然而要将 TensorFlow 真正地应用于生产环境中仍然存在很大的挑战。

为了进一步降低 TensorFlow 的使用门槛,才云(Caicloud)早在 2016 年 4 月即发布国内首个基于容器集群的分布式深度学习系统,并于 2017 年 2 月 12 日发布产品 TensorFlow as a Service(TaaS) v1.0.0 商用版。

TaaS 包括支持 CPU 和 GPU 的分布式 TensorFlow 模型训练平台和模型托管平台。通过将 TensorFlow 与谷歌开源的容器云平台管理工具 Kubernetes 结合,才云提供的 TaaS 服务解决了 TensorFlow 在使用中学习成本高、管理难、监控难、上线难等问题,旨在帮助企业更快、更容易地体验和应用最新深度学习技术。

目前,才云 TaaS 私有云已在部分金融、能源及电商行业落地并帮助企业解决问题,并已开启公有云内测.

正是由于 Kubernetes 和 TensorFlow 的完美结合,才云的 TaaS 一经发布就受到美国 CNCF K8S 上游高度重视,并受邀参加了今年在柏林举办的 KubeCon 大会。无独有偶,才云将 AI 融入云上的视角也出现在由特斯拉公司创始人 Elon Musk 和科技孵化器 Y Combinator 的掌门人 Sam Altman 创立的非营利创业公司 OpenAI 的演讲中。

这家据称有 10 亿美金注资背景的公司,一直以将人工智能红利带给人类社会为使命。他们于 2016 年 4 月对外发布了人工智能一款用于研发和比较强化学习算法的工具包 OpenAI Gym,从而成功打破了谷歌、Facebook 等巨头霸占 AI 领域的格局。

Musk 认为,与邪恶人工智能斗争的最好方式不是限制人工智能的接入和使用,而是更广泛地推广它。

就是这样一家囊括世界顶尖人工智能领域人才的公司,在谈到 GPU 对于涉及大型神经网络的学习问题时也表达了自己的明确看法。那就是“GPU 正在逐渐变得不可或缺。我们将会使用 GPU 来为大规模任务训练神经网络,并且我们也预期我们的许多用户会这么做。”

但是,传统的分布式 TensorFlow 没有把 CPU 跟 GPU 进行虚拟化。只能直接使用物理 GPU 资源,无法让利用率最大化。在单机环境下,即使使用目前最先进的 GPU 都无法满足其计算量的要求。而在集群环境下,TensorFlow 存在高门槛、难配置、难管理等问题。

难能可贵的是,作为一家中国初创公司。本次 KubeCon 上,才云首席大数据科学家郑泽宇和才云高级云开源工程师赵慧智通过《通过 Kubernetes 搭建可支持 GPU 的 TensorFlow 集群》演讲(更多详情,请点击《柏林 KubeCon 直击| 看 TensorFlow 如何从 AI 工具变身 AI 产品》),很好地解答了目前困扰深度学习发展的技术难题,让世界看到了中国企业的贡献与价值。

才云技术专家(左二:赵慧智,右一:郑泽宇)与 OpenAI 及 Google GCE Manager 分别讨论了如何部署 TensorFlow on Kubernetes 及其技术点实现方式和 GPU 在 GCE 中的 upstream 现状和后续研发工作。

在本次 KubeCon 上,已经有很多 AI 厂商在思考如何将 TensorFlow 比较好的运行在 Kubernetes 上了。 才云认为在 GPU 支持上需要去更多考虑的是支持的 GPU 类型, GPU 如何暴露给 container 内部的程序,以及多 GPU 调度和分配支持与性能调优。

目前 GPU 在 Kubernetes 中的支持不是很好,所以很多厂商在用的时候都是会选择比较 Trick 的方式。例如将不同 GPU 的类型通过 Kubernetes 的 Label 的方式来进行区分和选择,并将 GPU 通过 Privilege 或者单一的 GPU 支持配置(在 1.5 中已经可以做到一个机器上单个 GPU 支持)来达到让 TensorFlow 的模型训练加速的优化。

随着 1.6 的 Release,GPU 最新的 Alpha 版本中可以支持多个 GPU 调度、 GPU 设备自发现、多 GPU 指定等功能。而这将为有 GPU 需求的厂商提供非常大的好处,不仅在部署层面简化了操作,同时在使用和基于 Container 的隔离上提供了更好的支持,尤其是在 AI 领域。

从大数据到 AI,从工具到服务,并推动移动互联网的再次变革,是通过机器将沉淀数据进行深度有效学习的产物。而这其中,GPU 的有效调度对深度学习的影响可谓是加速引擎一般,掌握这一点,方可快速分析,准确决策并实现商业价值。

此刻,面对汹涌而来繁复冗杂的海量数据,有多少公司能抓住机遇,通过数据分析跟深度学习在 AI 新时代突出重围,成为领军者呢?随着谷歌深度学习框架 TensorFlow 的横空出世,能扫平门槛,将分布式深度学习系统轻松应用于企业生产环境中的企业,必然也有着快人一步的优势,引领行业。

友情链接