这儿的对偶和拉格朗日对偶是一致的
用拉格朗日对偶方法求 LLM 的对偶形式
Primal:
y=f(x,w)=LLM(x,w)
为了求 w, 要进行最优化(最小化loss,或者最大化 margin)此时利用拉格朗日方法可以求 w=h(lambda,v)
代入原问题则为 LLM 的对偶形式
注:Bishop 书中 6.1节的方法比较巧妙,参数互相包含,一时不能领会其奥妙
这里要说的是另一类分类器,见于齐国军论文
Primal:
y=arg max f(x,y,w)
f 是线性的即输出 y 不是 x,w 的显示函数,而是优化的结果
它也有对偶形式。
注意区分两个不同的优化,一个是优化 y (inference), 一个是优化 w (learning)
而对偶关心的是第二个优化,同样的,要构建一个 Loss,并优化它,求的 w 的表达式,并带入 f
0 comments:
Post a Comment