首页 > 杂谈生活->californication(californication歌词翻译在线)

californication(californication歌词翻译在线)

小海疼+ 论文 205 次浏览 评论已关闭
  • 本文的数据来源于 Google Calibration 在上一个版本中,我们已经对如何训练机器学习模型进行了介绍。 我们通过对不同的网络和存储方案做对比,为大家介绍在现有数据集上如何通过实验实现特定模型的最优性能。 这篇文章也可以看做是这个版本的更新。 作者从数据出发,通过对实验结果和性能的对比,得出了一些有趣的结论,并且用机器学习中常用的 kaggle进行验证。 另外由于数据集可能非常大(高达几十万个),这篇文章是一段压缩了的代码,只对实验数据做了简单说明。 由于数据集太大了(高达几百 TB),所以我们仅包含了一个简单版(pull)和两个加强版(pull+ stack): 需要指出的是,本文中所有原始模型都来自于 Google开源项目:

    • 1.使用不同的网络进行训练

      [1]训练数据集: [2]训练方式: [3]评估指标: [4]模型预测:

    • 2.对数据集进行标准化处理

      我们可以对网络的每一层都做标准化,这样我们就能很好的使用网络中存在的任意一层,并且通过对数据的分析,我们能很容易的得到网络在不同层之间有多大的性能差异。 这里使用了 google python和 Python编写脚本实现,在这两个中,使用到了 setpy, gpy,以及lrb_size. js。

    • 3.通过 kaggle实现算法性能对比

      这里我们先来看一下训练集和测试集的结果。 [从上面截图可以看出,虽然 pull的原始网络在数据集中不是最好的,但是它在性能上也已经足够好了。 [这里我们将每一个网络单独测试一遍,以获得最佳的性能。如果没有专门跑训练和测试,那么我们也可以通过一组测试来对性能进行评估(例如在一个不同数据集上同时进行多次训练和多次测试)。] [我认为最大的区别在于:训练集比测试集要小很多。]

    • 4.不同方案性能比较的结论

      对于每个实验,作者会使用相同的实验数据和训练参数,并以不同的网络存储方案来进行比较。 如果需要更多的细节,可以参考该文章中对应于各个模型的详细对比代码。 注:图中展示了不同训练参数下各模型的性能曲线,并使用了每个方案在所有实验中的性能平均值作为对比参数。

    • 5.总结

      本文从数据出发,介绍了一种对机器学习模型性能影响最大的网络和存储方案。 对于我们现有数据集,作者给出了三种不同的存储方案,分别是使用 kaggle进行训练的(db_ kaggle)、对训练过的模型用 volatile patch存储(volatile patch),以及使用 spark进行存储。 对于我们现有数据集,作者给出了两种不同方法来实现一个模型。 在这里,我们还对本文涉及到的一些关键点做了总结。 除了文中提到的三种方案,作者还介绍了几种实现其他模型或者对数据集进行预处理的方法。