November 27, 2012 – Little Tail

Two common mistakes when writing statistics software

最近在写一个软件，发现两个常见的错误：

1. 缺失数据的处理

对于缺失数据，表示上可以是NA, “.”, -9，应该先保证软件读入的数字是正确的。

之后，在模型中，是应该丢掉数据，还是impute数据？是impute到均值还是用随机数值？

在写软件的时候必须要清楚。

2. 数值运算的维数

在统计中，常常有大量的数值运算，比如矩阵相乘。

在文章中这类运算往往会忽略维数，比如矩阵的行数和列数。

这时候软件中应加入更多的边界检查，这样就能避免程序崩溃。

Day: November 27, 2012