&= \prod P(y_i == h(x_i, \vec w)) \
&= \prod y_i * h(x_i, \vec w) + (1-y_i)*(1-h(x_i, \vec w)) \
& , where \ y_i \in \{0, 1\} ; 0 \le h(x_i, \vec w) \le 1 \end{aligned}
实际上如果$\vec w$使得每个样本的$y_i = h(x_i, \vec w)$ ,实际上我们的likelihood 就为1 。对上面式子求log 即可得log likelihood
而实际上求解max likelihood 还是不方便(最大值没有上界),不如求解 min loss(最小值就0) 。则将上式变换得
\[ls(\vec w)= \prod y_i *(1-h(x_i, \vec w)) + (1-y_i) * h(x_i, \vec w)\]对上式求log 就得到了常见的log loss
partial derivative ?
Tree Early stopping 注意
do not consider any split that does not cause a sufficient decrease in classification error
如果有missing value,处理重点还是看覆盖度:
pruning 自底向上,保证去掉每个node 后整体cost 变小。
对于每个分类器$f_t(\vec x)$ 都对应一个权重 $\hat w_t$ ,从而求和得结果为正负例结果。 `hat y = sign (sum_(t=1)^T hat w_t f_t(x))`
AdaBoost 其实步骤就如后,然后按上式预估。
其实整个过程中,样本的权重变化就是这样的:
分类指标:F1, AUC; 排序有precision at K, MAP
SGD 过程中,权重一定要用过去T 份数据迭代的平均,而不是当轮当前这份数据迭代的结果。
K-means 思路
LDA 中,每个word 都会在其topic 得到一个score;每个topic 在document 上也有不同分布。
输入:corpus 中每个doc 对应的words 集合。
输出:corpus-wide 的topic 分布;每个word 的topic;每个doc 的topic 占比。
EM 算法
E-step: estimate cluster responsibilities $$\hat r_{ik} = \frac{\hat \pi_k N(x_i | \hat \mu_k, \hat \Sigma _k)}{\sum _{j=1}^K\hat \pi_j N(x_i | \hat \mu_j, \hat \Sigma _j}$$ |
M-step: maximize likelihood over parameters $$ \hat \pi_k , \hat \mu_k, \hat \Sigma _k | {\hat r_{ik}, x_i} $$ |
Mathjax was not loaded successfully
Original post: http://blog.josephjctang.com/2016-01/notes-of-machine-learning-specialization/
写作的习惯,已经断了许久了。上一篇已经是去年的文章了,也是做的[时间日志分析]({% post_url 2019-02-23-time-log-analysis %}) 。 正好做时间总结,也把写作捡起来吧。# 低效时间分析用 [RescueTime](https://www.rescueti...… Continue reading