Skip to content

Latest commit

 

History

History
141 lines (71 loc) · 7.28 KB

machine-learning-model-management.md

File metadata and controls

141 lines (71 loc) · 7.28 KB

机器学习模型管理

原文:www.kdnuggets.com/2022/07/machine-learning-model-management.html

机器学习模型管理

Alvaro Reyes via Unsplash

当你想到机器学习时,你会想到模型。这些模型需要有效的管理,以确保它们产生解决特定问题或任务所需的输出。


我们的前三个课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业生涯。

2. Google 数据分析专业证书 - 提升您的数据分析能力

3. Google IT 支持专业证书 - 支持您的组织进行 IT


机器学习模型管理用于帮助数据科学家、机器学习工程师等跟踪和管理他们的所有实验及模型生成的结果。机器学习模型管理的唯一职责是确保 ML 模型的开发、训练、版本管理和部署在有效水平上进行。

用于机器学习开发周期和模型管理的工具需要 MLOps - 机器学习操作。

以便总结并对那些可能不确定的人,MLOps 是机器学习工程的核心功能。它通过使用团队之间的协作和沟通等实践,帮助组织通过自动化和可扩展性更好地管理机器学习生命周期。

MLOps 改善:

  • 数据团队成员之间的协作

  • 自动化重复任务,减少对人工输入的需求

  • 通过输入新数据来改进模型

  • 利用客户知识并识别模式以改善整体体验

这些实践改善了整体机器学习生命周期、管理过程以及可扩展性。

ML 模型管理的层级

在管理模型之前,生命周期包括准备数据、特征工程,然后训练、构建和测试模型,直到最优模型进行部署。此时,使用 ML 模型管理。这是对模型进行评估、比较、重建和监控的阶段。

ML 模型管理可以分为两个部分。第一个是实验跟踪,另一个是模型的版本管理和部署。

实验跟踪

这包括训练模型、评估模型,然后一遍又一遍地回顾模型的架构。

模型版本管理与部署

版本控制是当你基本上创建一个带有实施更改的新版本的模型时,随后该模型会被部署。

直到最佳表现的模型进入部署阶段,这一过程将持续进行,并与之前的工程特征、数据标注和数据版本控制阶段相结合。

数据科学家使用机器学习模型管理来监督:

  1. 模型的打包 - 这是将最终模型以特定格式导出的过程。

  2. 模型历史 - 这是与模型创建相关的所有内容,例如使用的数据、参数、训练等。

  3. 模型部署 - 这个过程帮助数据科学家在决策过程中

  4. 监控模型 - 在这一过程中,数据科学家将跟踪和监控模型的性能和准确性。

  5. 再训练 - 这是一个重要步骤,通过使用新数据等来继续提升模型的性能。

我们为什么需要机器学习模型管理?

对数据科学家来说,持续构建、跟踪、比较、重建和部署模型将需要大量的时间和金钱。这以前已经做过,这就是机器学习模型管理存在的原因。

机器学习模型管理使得通过实验和更好地理解模型来管理模型生命周期变得更加容易。它帮助团队提高了效率,并引导他们找到需要改进的方向,从而实现更好的研究和整体生产性发展。

协作是 MLOps 管道中的一个重要元素,它允许团队中的不同成员在生命周期的任何步骤开始之前理解当前问题,进行评论,使用以前的实验作为基准,以及整体审查整个生命周期。这可以涉及数据科学家、研究人员和机器学习工程师协作工作,并改善整个生命周期。

如何实现机器学习模型管理

因此,我们可以理解我们的机器学习模型管理将包括数据标注、数据版本控制、模型实验跟踪、模型版本控制和模型部署。

实验跟踪是一个需要实施的重要元素,以确保整体机器学习模型管理有效运作。它包括收集、组织和跟踪模型,提供更多信息,如模型的大小、使用的参数等。以下是如何在您的机器学习模型管理中实施实验跟踪的三种主要方法。

日志记录

正如我们所提到的,跟踪实验及其产生的结果是非常无序和耗时的 - 尤其是当你有很多人同时在同一个项目上工作时。这就是日志记录的重要性,它也可以复制用于未来的使用;这同样节省了大量的时间和金钱。需要记录的重要参数包括:

  • 模型的名称

  • 模型的版本号

  • 训练过程中每次迭代使用的参数

  • 训练过程中的每次迭代的训练准确率

  • 训练时间

  • 测试准确率

  • 混淆矩阵

  • 内存消耗

  • 每个模型基于输入数据的概率

  • 代码

  • 环境配置

  • 问题及潜在解决方案

  • 解决方案评估

版本控制

在机器学习模型生命周期中将会有大量的版本控制,因此追踪和管理所有这些变化是重要的,以便更好地理解哪个模型表现最佳。

仪表盘

仪表盘是协作的最大推动力。数据科学家和研究人员可以利用它更好地理解模型和实验,进行调查,更好地审查,并与其他协作者分享他们的发现以供进一步审查。

仪表盘将包含所有与实验、元数据等相关的信息。它帮助你通过图表可视化所有记录和版本控制的数据,以便更好地比较和发现差异。

总结

机器学习模型管理使得许多数据科学家和研究人员的生活更轻松。这是 MLOps 工作流程中的一个重要元素;它允许更好的团队协作、更深入的洞察、团队审查的机会、提高生产力、节省时间以及改善整体生命周期。

Nisha Arya 是一位数据科学家和自由职业技术作家。她特别感兴趣于提供数据科学职业建议或教程以及数据科学的理论知识。她还希望探索人工智能如何/可以促进人类寿命的不同方式。作为一个热衷学习的人,她寻求拓宽技术知识和写作技能,同时帮助指导他人。

更多相关话题