屿科配资

我的账户
环翠信息网

自媒体资讯干货

亲爱的游客,欢迎!

已有账号,请

立即登录

如尚未注册?

加入我们
  • 客服电话
    点击配资开户 客服

    在线时间:8:00-16:00

    客服电话

    400-000-0000

    电子邮件

    xjubao@163.com
  • APP下载

    环翠信息网APP

    随时随地掌握行业动态

  • 官方微信

    扫描二维码

    关注环翠信息网公众号

环翠信息网 网站股票配资 资讯列表 资讯内容

做ML项目,使命繁多噜苏怎么办?这份自查清单帮你理清思绪

2020-07-11 发布于 环翠信息网

选自Towardsdatascience

屿科配资作者:Harshit Tyagi

呆板之心编译

参与:小舟、杜伟

屿科配资呆板学习项目中含有众多因素,包括数据处置惩罚、模子优化等。开发者经常会陷入杂乱,或者遗漏一些紧张的工具。这里有一份备忘清单,请查收。

任何科研项目都是体系性的,呆板学习项目也不破例,它包罗一系列大巨微小、或繁或简的要素和组件,如讨论、准备事情、提出问题、模子构建和优化调解等。在这种情况下,开发者很容易遗漏一些紧张的工具。

这时就需要对项目中经涉及到的使命做一份详尽的清单。有时开发者绞尽脑汁也无法找到一个好的起始点,那么使命清单则有助于他们在正确的信息源中提取有用的数据并建立接洽,从而掘客出深刻见解。

屿科配资别的,还需要对项目中的每项使命举行规划的查抄,确保使命的完成度。

屿科配资正如 Atul Gawande 在其著作《清单宣言:如何把事情做对》(Checklist Manifesto)中说到的:

我们所相识事物的数目和庞大度已经超出了自身从它们中正确、宁静或可靠地获益的能力。

在本文中,网页和数据科学讲师 Harshit Tyagi 以端到端呆板学习项目为例,对经常涉及的使命做了一份清单。

屿科配资本文作者 Harshit Tyagi。

屿科配资接下来,我们就来看 Harshit Tyagi 是如何一步步创建属于自己的呆板学习项目使命清单的。

屿科配资八步完成 ML 项目查抄清单

险些每个呆板学习项目中都至少要执行 8-10 个步骤,其中一些步骤的执行顺序也可以交换。

步骤 1:从一个高水平的视角界说问题

屿科配资执行此步骤是为了弄清晰问题的业务逻辑。你应该相识到:

问题的本质(有监视的 / 无监视的,分类问题 / 回归问题)。

你可以开发的方案类型。

屿科配资应该用什么指标来度量性能?

呆板学习是解决这个问题的正确要领吗?

屿科配资解决该问题的手动要领。

该问题固有的假设。

步骤 2:确定命据源并获取数据

在大多数情况下,如果你已经准备一些数据并想要界说配资公司 这些数据的问题以更好地利用输入的数据,那么你可以先于步骤 1 执行这个步骤。

基于问题的界说,你需要确定命据源中哪些可以作为数据库或传感器等。对于生产中某个应用的部署,这一步应该通过开发数据 pipeline 来实现自动化,以包管输入的数据可以或许进入体系。

详细步骤如下:

列出你需要的数据源及数据量;

查抄存储空间是否会成为问题;

查抄你是否有权限应用这些数据来到达你的目的;

屿科配资获取数据并将其转换为可利用的格式;

屿科配资查抄数据类型,通常包括文本、分类、数值、时序、图像数据;

保留样本以举行终极的测试。

步骤 3:开端探索数据

屿科配资在这一步中,你需要对全部影响项目结果 / 预测 / 目标的特性举行研究。如果数据量很大,请对数据举行采样使得分析更易管理。详细步骤如下:

屿科配资使用 jupyter notebook,由于它为研究数据提供了简朴直观的界面;

确定目标变量;

屿科配资确定特性的类型(分类、数值、文本等);

分析特性之间的关系;

添加一些可视化数据,使每个特性对目标变量的影响更易于解释;

记载你的发明。

步骤 4:探索性数据分析以准备数据

屿科配资在这一步中,通过界说数据转换、数据清算、特性选择 / 工程和扩展的函数来处置惩罚之前步骤中的发明。详细如下:

编写数据转换函数,并自动处置惩罚将输入的下一批数据;

编写数据清算函数(估算缺失值并处置惩罚异常值);

编写函数以选择和工程化特性,包括删除冗余特性、特性格式化以及其他数学变换;

屿科配资特性扩展——尺度化特性。

步骤 5:开发一个基线模子,然后探索其他模子以选出最佳模子

创建一个可以或许为全部其他庞大呆板学习模子提供基线的基础模子。详细步骤如下:

使用默认参数训练一些常用的呆板学习模子,如质朴贝叶斯、线性回归、支持向量机(SVM)等;

屿科配资度量并比力每种模子的性能;

对每个模子接纳 N 倍交织验证并在 N 倍的基础上计算性能指标的均值和尺度差;

研究对目标影响最大的特性;

屿科配资分析模子在预测历程中存在的错误类型;

屿科配资用差别的方式工程化特性;

屿科配资重复上述步骤频频,以确保使用正确的特性,且其情势也无误;

选出基于性能指标的最佳模子。

步骤 6:优化你选出的模子并查抄相干要领

屿科配资这是你越发靠近终极解决方案的要害步骤之一,详细步骤如下:

屿科配资用交织验证优化超参数;

用随机搜索或网格搜索等自动调解要领来找出最佳模子的最佳设置;

屿科配资测试相干要领,好比集成学习等;

用尽可能多的数据测试模子;

终极确定后,使用在开始保留的未见过测试样例来查抄模子是否存在过拟合或欠拟合。

步骤 7:生存代码并交流你的方案

交流的历程也是性能加倍的历程。你需要记得全部已有或潜在的利益相干者。主要步骤包括如下:

生存代码并记载整个项目的历程及用到的要领;

创建仪表板,如 voila 或带有靠近自我解释可视化的有用 presentation;

屿科配资撰写一篇描述你如何举行特性分析、测试数据转换等的文章 / 陈诉。记载你的学习历程,包括失败的经验和有用的技能要领;

总结主要结果并规划未来假想(如果有的话)。

屿科配资步骤 8:将模子投入生产并监测模子

如果你的项目需要在实时数据上举行测试,你应该创建一个可以在全部平台(web、android、iOS)上使用的网页版应用或 REST API。主要步骤包括:

屿科配资在 h5 或 pickle 文件中生存你终极的训练模子;

屿科配资提供网页版模子应用,你可以使用 Flask 来开发这些网页服务;

关联输入数据源并设置 ETL 路径;

屿科配资基于扩展需求,用 pipenv、docker/Kubernetes 管理依赖关系;

屿科配资你可以使用亚马逊、Azure 或者谷歌云平台来部署你的服务;

屿科配资在实时数据上监测性能或让人们在你的模子上方便地使用他们的数据。

末了,创建使命清单时需要注意的一点是:你可以根据项目的难易水平来对清单举行实时调解。

原文链接:http://towardsdatascience.com/task-cheatsheet-for-almost-every-machine-learning-project-d0946861c6d0

屿科配资今天下战书,开发者日主论坛将于13:00-18:15举行,图灵奖得主、院士与技能专家将带来9场主题演讲,WAIC云帆奖、人工智能开源开放陈诉将重磅公布,我们也将送出150本专业书籍,添加呆板之心小助手(syncedai6),入群一起看直播、拿赠书。

1

鲜花
1

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

环翠信息网

屿科配资扫一扫二维码关注我们Get最新资讯

相关分类
热点推荐
关注我们
环翠信息网与您同行

客服电话:400-000-0000

屿科配资客服邮箱:xjubao@163.com

屿科配资周一至周五 9:00-18:00

环翠信息网 版权所有

Powered by 环翠信息网 X1.0屿科配资@ 2015-2020