之前接触的NLP 知识都不系统借着学习《Introduction to Natural Language Processing》 的机会,系统的了解了解。另外可参考的课程包括: Natural Language Processing by Dan Jurafsky, Christoph... Continue reading

前绪笔记: 第一二周的笔记 第三四周的笔记 Clustering 涉及到聚类,则需要计算“距离”,一般的距离有: Jaccard distance 集合之间的距离 Euclidean distance 几何空间中的距离 Cosine distance 向量之间的距离 M... Continue reading

前绪笔记: 第一二周的笔记 Detecting communities 针对social communities,除了使用betweenness 的[Girvan-Newman] 算法外,本课程主要讲了如后的方法。 Affiliation Graph Model 此方法是根据图模型,生... Continue reading

Mining Massive Datasets 里面俩小伙儿销魂的口音和白发大叔口语中的长难句让自己之前没能坚持下去。这次重新开课,再也不能放过这个机会了。 PageRank 原始算法 假设N 维$\vec r$ 记录每个链接的初权重;其中每个值都初始化为$1/N$ 那么用矩阵... Continue reading

第一次学Coursera 上的ML 课程的时候,遗漏了很多,而且那会儿笔记也做得不够,基础又差。 最近重温,整理一些重要的笔记吧。 Linear Regression 最简单也最常用的就是线性回归,最终就是为了学习如下的 `theta` : `f(x) = theta^T vec x` ... Continue reading