茱莉亚·伊万斯

机器学习的乐趣:你的模型真的有效吗??

我正在为北大西洋公约组织马上,这是我写的第一篇关于我工作中所做工作的报告。

我看了很多用scikit-learning训练初学者的模型会谈。他们不是我要说的话。如果你从来没有做过任何机器学习,那么意识到有一些工具可以用来轻松地开始训练模型是很有趣的。我做了一个生成伪数据和训练简单模型的小例子你可以看看。

但是老实说,如何使用scikit-learning并不是我所要面对的问题,我想谈一些更难的话题。

我想谈谈你训练模特之后会发生什么。

它有多好用??

如果你正在建立一个模型来预测某事,任何人都会问你的第一个问题是:

“所以,它有多好用?““

我经常觉得,关于机械学习,我所学到的唯一东西就是能够回答这个问题有多么重要,这有多难。如果你读过凯西·奥尼尔的博客为什么教师教学评价模式存在缺陷,你到处都能看到:

我们永远不应该相信所谓的客观数学模型当我们甚至不能决定成功的定义时

如果是个好模型,我们可能会看到一个比较当前的VAM分数和当前其他衡量教师成功的指标以及他们如何认同。但是我们没有看到类似的情况。

如果你的模型真的在做重要的事情(决定老师是否应该失业,或者股票组合的风险有多大,或者明天天气如何你必须测量它是否正常工作.

如何做到这一点没有固定的答案——如果很容易的话,统计学家不会有工作。如果你看看我链接到的笔记本,我们查看了分类器的混淆矩阵:

[[8953 3508][3500 9039]]

我们本来可以计算一个分数(0.2,0.8,...)对于每个数据点,看一些叫做ROC曲线的东西(也许有一天我会解释如何做史蒂文·诺布尔告诉我如何撕毁其中之一,即使我认为我已经理解他们)

这是我们刚建立的模型的ROC曲线。这比现实中的ROC曲线要美得多,没有锯齿状的边缘。

这个图表显示了您在捕获您想要的东西(真阳性率)和处理您不喜欢的东西(假阳性率)之间的权衡。这是一个非常有用的图。

您可能知道这个模型将节省多少钱,我想把它画出来。或者您可能关心某些数据比其他数据被正确分类,你需要用某种方式表达。或者你正在为水手预测天气,你需要确保极端天气处理得好,这样没有人死亡。

这也不是我想要谈论的,虽然!我觉得我能够公正地对待,我还在学习如何慢慢思考这个问题。以下是我真正想谈的:

四月份工作得怎么样??

现在是十一月。我正在从事一个我在十月左右开始的项目。我有一些我们决定用来衡量项目进展情况的指标,我想知道它正在取得进展,现在我们正在构建的模型比蒙大哥模型要好。

以下是我在演讲中要讨论的几个问题:

  • 您如何设计一个系统,可以在其中查找6个月前模型的性能??
  • 如果在您希望度量什么度量之后改变了主意呢??
  • 如果您使用许多不同的工具来训练模型呢?(R!蟒蛇!斯卡拉!)
  • 你怎么能使它易于使用,使人,你知道的,真的用吗??
  • 而且不用花很多时间来建造它。

稍后将详细介绍这一点,也许吧。