Two common mistakes when writing statistics software
最近在写一个软件,发现两个常见的错误:
1. 缺失 数据的处理
对于缺失数据,表示上可以是NA, “.”, -9,应该先保证软件读入的数字是正确的。
之后,在模型中,是应该丢掉数据,还是impute数据?是impute到均值还是用随机数值?
在写软件的时候必须要清楚。
2. 数值运算的维数
在统计中,常常有大量的数值运算,比如矩阵相乘。
在文章中这类运算往往会忽略维数,比如矩阵的行数和列数。
这时候软件中应加入更多的边界检查,这样就能避免程序崩溃。