About 72,100,000 results
Open links in new tab
  1. 梯度(gradient)到底是个什么东西?物理意义和数学意义分别是什么?

    我会使用尽量少的数学符号描述 梯度, 着重于意义而非计算。一个直观的例子,在机器学习领域有个术语叫「梯度下降」,你可以想象在群山之中,某个山的半山腰有只小兔子打算使用梯度下降的思路去 …

  2. 非凸优化基石:Lipschitz Condition

    在绝大多数的非凸优化的论文里,一般不出现Lipschitz continuous, 一般出现的都是 Lipschitz continuous gradient 或者 Lipschitz continuous Hessian, 那他们是什么意思呢? 其实Lipschitz continuous …

  3. 如何评价这篇爆火优化算法框架论文,你们看过么? - 知乎

    如何评价这篇爆火优化算法框架论文,你们看过么? ResearchGate和Zenodo论文名:《Dynamic Fold Gradient Descent (DFGD): New AI Algori… 显示全部 关注者 2 被浏览

  4. DDPG怎么仅用matlab的代码实现? - 知乎

    DDPG在MATLAB的强化学习工具箱里有内置的实现。 Deep Deterministic Policy Gradient (DDPG) Agents 例子也很多。 Train Agent or Tune Environment Parameters Using Parameter Sweeping …

  5. 机器学习|Tucker张量分解

    Tucker分解是张量分解 (tensor decomposition) 中十分重要的一种分解形式,从本质上来说是矩阵分解的高阶泛化,常用于数据降维、稀疏学习、模式挖掘等。本文将介绍Tucker分解的基本形式,并以动态 …

  6. 大模型训练时ZeRO-2、ZeRO-3能否和Pipeline并行相结合? - 知乎

    行业来一般做法是zero3, tp/pp+zero1 用zero3类似存算分离(spark rdd), 前向/反向需要计算时去allgather weight。 因为weight、gradient、opt shard在同一张显卡上,gradient只需要reduce …

  7. 如何求解多梯度下降算法MGDA中的梯度信息? - 知乎

    Feb 15, 2023 · 在Matlab中,可以使用函数gradient来求解两个 目标函数 (fun1 fun2)的梯度信息(gfun1 gfun2)。 该函数可以接受一个参数,即要求 梯度 的函数,并返回该函数的梯度。

  8. DAPO全是已有的小trick,为什么这么火? - 知乎

    4.Token-Level Policy Gradient Loss 具体的,对于GRPO而言,本身的目标函数对于答案具有偏向性:对于答案正确的,GRPO偏向于选择答案长度较短的回复,而对于答案错误的,GRPO偏向于让模型生 …

  9. LSTM如何来避免梯度弥散和梯度爆炸? - 知乎

    题主你好,LSTM只能避免RNN的梯度消失(gradient vanishing);梯度膨胀 (gradient explosion)不是个严重的问题,一般靠裁剪后的优化算法即可解决,比如gradient clipping(如果梯度的范数大于某个 …

  10. 哪里有标准的机器学习术语 (翻译)对照表? - 知乎

    梯度裁剪 (Gradient Clipping) 在应用梯度值之前先设置其上限。 梯度裁剪有助于确保数值稳定性以及防止梯度爆炸 [14]。 梯度下降法 (Gradient Descent) 一种通过计算并且减小梯度将损失降至最低的技 …