HMC:
https://en.wikipedia.org/wiki/Hidden_Markov_model
MCMC:
https://en.wikipedia.org/wiki/Markov_chain_Monte_Carlo
:设M是n阶方阵,如果对任何非零向量$\vec z$,都有$\vec z^T M \vec z> 0$,就称M 为正定矩阵。
LBFGS: 理解L-BFGS算法 和Numerical Optimization: Understanding L-BFGS 这两个介绍得很详细。但是[Weighted Frobenius Norm] 还需要去了解http://mathworld.wolfram.com/FrobeniusNorm.html
\[\mathbf{H}^{-1}\_{n+1} = (I - \rho_n y_n s_n^T) \mathbf{H}^{-1}_n (I - \rho_n s_n y_n^T) + \rho_n s_n s_n^T\]training error = bias + noise test error = noise + variance
假设
则
设 `X = (X_1, …, X_n)` 是总体 `N(mu, sigma ^2)` 的样本。
`mu` 的一个良好点估计 `bar X = 1/n sum_(i=1)^n X_i` 其分布为 `bar X ~ N (mu, sigma^2 / n)` ,亦即 ` Z = (bar X - mu) / (sigma/sqrt(n)) ~ N (0, 1)`
有`P(|Z|<=u_{alpha/2}) = 1-alpha`, 其中`u_{alpha/2}` 为标准正太分布的上侧`alpha/2` 分位数(即标准正太分布`>=alpha/2` 的面积为`alpha/2`)
如后的Z 值表,有`P(|Z|<=1.96) = 0.95`
Desired Confidence | Z score |
---|---|
90% | 1.645 |
95% | 1.96 |
99% | 2.576 |
则变换可得`P(|mu| <= bar X + Z * sigma/sqrt(n)) = 1 - alpha`
假设样本X 和总体的均值(概率)为`p`,那么其标准差应为`\S = sqrt((p*(1-p)))`; 则`1-alpha` 的置信区间下,总体均值`mu` 的置信区间为:
` \bar x - Z_(alpha/2) * S /sqrt(n) <= mu <= \bar x + Z_(alpha/2) * S /sqrt(n) `
Z 值表可参照 Parameter Estimation, 基本概念及讲解 区间估计
CoEC: Clicks Over Expected Clicks
KLD: Kullback–Leibler divergence 用于计算两个概率分布之间距离(或称“差别”)
要求
maxmize $f(x, y) $
subject to $g(x, y) \ge 0$
引入乘子 $\lambda$ 得Largrange function:
\[\textbf L(x, y, \lambda) = f(x, y) + \lambda \cdot g(x, y)\]在 $\frac{\partial L}{\partial x} = 0, \frac{\partial L}{\partial y} = 0, \frac{\partial L}{\partial \lambda} = 0$ 三者成立时 $\textbf L$取得极大值。
如果是因为相加的$g(x, y)$ 是非负数,且求极小值的$f(x, y)$ 时,也需要转化为求极大值。
[t-SNE][t-SNE 用于降纬,相似则在高纬空间中相近,不相似则较远。相关信息可见此处
FTRL
迭代优化公式如后,加入最后一项L1 正则项,使得最后能获取到稀疏解。 \(\begin{equation} \mathbf{w}_{t+1} = \underset{\rm \mathbf{w}}{\rm arg\ min} \left( \displaystyle\sum_{s=1}^t {\mathbf{g}_s \cdot \mathbf{w}} + \frac 12 \displaystyle\sum_{s=1}^t {\sigma_s||\mathbf{w} - \mathbf{w}_s||_2^2} + \lambda_1||\mathbf{w}||_1\right) \end{equation}\) 参加理解 FTRL 算法 推导。
FFM FFM 介绍
T-test 对于两个实验的均值效果差异,求
\[t = \frac{\mu_1 - \mu_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}}\]其中 $s_i = \mu_i -\mu_i^2$ ,若 $t>1.959$ 则是显著的差异,即95% 的概率两者是有差异的。
Mathjax was not loaded successfully
Original post: http://blog.josephjctang.com/2015-06/notes-of-ml/
写作的习惯,已经断了许久了。上一篇已经是去年的文章了,也是做的[时间日志分析]({% post_url 2019-02-23-time-log-analysis %}) 。 正好做时间总结,也把写作捡起来吧。# 低效时间分析用 [RescueTime](https://www.rescueti...… Continue reading