google推出cloud 在性能拓展方面,托管服务器优于服务器租用。服务器租用的配置是由服务商提供的固定机型,在可拓性方面没有托管灵活。但托管服务器的配置是由客户自行决定的,升级或拓展都比较方便。
ai平台工作管线beta测试版,让用户能够简单地部署可重复机器学习工作管线,并且提供监控、审查、版本追踪与可再现性等功能。cloud
ai平台工作管线主要有两个部分,一个是用于部署和执行结构化机器学习工作流程的基础设施,另一部分则是用于建置、除错和共享工作管线等工具。
google提到,在本机端开发机器学习模型雏形,与最后要部署至云端,要处理的任务难易度不同,开发雏形的工作较单纯,但是当用户要使机器学习工作流程,具可持续性与可扩展性时,事情就变得复杂。机器学习工作流程涉及到各种彼此相依的步骤,像是资料准备、分析、训练评估以及部署等,而且审核和可再现性等复杂问题,难以将就用一组笔电或脚本,或是其他暂时的方式来处理。
cloud
ai平台工作管线在gke丛集上执行,当用户于云端控制台安装时,安装过程会自动创建一个丛集,不过也可以按需求使用现有的丛集。用户能利用cloud
ai平台ui来查看和管理所有丛集,并且删除工作管线的安装或重新安装工作管线,也会在更新版本时,留存先前版本的状态。
用户可选择使用kubeflow pipelines(kfp)sdk或是tensorflow extended(tfx)sdk,来创建工作管线。kfp
sdk具有机器学习框架中立的特性,且可直接控制kubernetes资源和共享容器化元件,而tfx
sdk目前仍然在预览阶段,是专为机器学习工作负载设计,提供高阶抽象元件,为google应用可持续性和可扩展性的最佳实践。
tfx
sdk还随附一系列可自定义的tensorflow最佳化模板,这些模板由google开发并于内部使用,用户可以配置这些工作管线模板,以自己的资料建置、训练和部署模型,并自动执行架构推断、资料验证、模型评估和模型分析,甚至可以自动部署训练好的模型,到ai平台预测服务。
在beta版本中,cloud
ai平台工作管线提供了工作管线版本控制,让用户可以上载同一个工作管线的不同版本,并在ui中分组,让用户能够一起管理相关的工作流程。cloud
ai平台工作管线也可让用户简单地管理,机器学习工作流程所产生的各种产物,包括模型、统计资料以及模型评估指标等。另外,用户还可以进行机器学习堆叠追踪,管理模型和资料等历史纪录和版本,以清楚了解用来训练特定模型的资料有哪些,或是训练资料的统计资料。