Coursera Machine Learning¶

为什么需要Feature Scaling，因为这样能够收敛更快。

如何选择Linear Regression里面的 \(\alpha\)?, 画图，如果不收敛了，减少到0.3倍，如果收敛太慢，可以增加到3倍。

\(X^TX\) 不可逆，原因有两个： 1. Feature之间线性相关。 2. \(m \leq n\)

在做Polynomial Regression时，各个维度的Scale不一样，需要做Feature Scaling.

如果一个学习算法效果不好，有哪些可以改进的地方； 1. 更多的training example. 2. 更少的features 3. 更多的features 4. 调节参数

为什么需要Cross Validation Set？因为如果使用Test Set来选择参数的话，会使得选中的参数只是对当前的Test Set最好的，对结果的预测值会偏高。原文是说：

A new parameter has been fit to the cross validataion set.

通过Learning Curve（准确率和样本数的相关曲线）来定位问题，确定是增大feature，还是增大数据集。

使用F1来在Precision和Recall之间做一个权衡，一个好的算法既不能有很低的precision也不能有很低的recall。

SVM的另外一种解释，通过cost函数把logistic regression和SVM联系起来。

Random Initialization的好处，能够确保每次迭代都有变化（在神经网络中），否则每个Feature都一样的话是始终只有一个Feature, 打破对称性。

如何选择Kmeans的k，使用elbow-method，选取elbow点。

如何选取PCA的特征数，能够保持99% variance的最小的K。 Anomaly Detection相对于Classification来说，如果Positive的sample很少的话可以采用Anomaly Detection。

使用F1来确定 \(\epsilon\).

使用 hist 来看feature是否复合高斯分布，如果不是，做相应转换，如 \(log(x), x^{\frac{1}{2}}, x^{\frac{1}{3}}\) 等。

如何生成新的feature，能够把anomaly区分开来。

正协相关和负协相关的判定，根据轴的方向。

什么时候使用original，什么时候multivariate guassian.

使用original:

使用multivariate：

使用Mean Normalization来解决推荐系统的冷启动问题。

如果检查SGD的converge？每次更新之前计算cost，取1000次的平均值画曲线，看是否收敛。

在SGD中，使用更小的 \(\alpha\) 有可能导致更好的收敛结果。

在SGD中，可以随时间增长减少 \(\alpha\).

如何synthesis data? 加上背景，旋转，缩放，变形。而加入random noise没有意义。

使用Ceiling analysis来确定component.