如何进行抽样
抽样分类
1)概率抽样:以数据概率论为基础,按照随机的原则进行抽样;
2)非概率抽样:根据人类的主观经验和状态进行判断;
概率抽样方法
1)简单随机抽样:按等概率原则直接从总中抽取N个样本
优点:易于操作;
缺点:不能保证样本能完美代表总体;
适用:个体分布均匀的场景
2)等距抽样:先将总体中的每个个体按顺序编号,然后计算出抽样间隔,再按固定抽取个体
优点:易于操作;
缺点:再明显的分布规律时容易产生偏差;
适用:个体分布均匀的场景,呈现明显的均匀分布规律
3)分层抽样:先将所有个体样本按照某种特征划分为几个类别,然后从每个类别中使用随机抽样或等距抽样的方法选择个体组成样本
优点:降低抽样误差,针对不同类别的数据样本进行单独研究;
缺点:无缺点;
适用:带有分类逻辑的属性,标签等特征的数据
4)整群抽样:先将所有样本分为几个小群体集,然后随机抽样几个小群体集代表总体。
优点:易于操作;
缺点:分布受限于小群体集的划分,抽样误差较大;
适用:小群体集的特征差异比较小,并且对划分小群体集有更高的要求
抽样需要注意问题
1)反应抽样背景
a.数据时效性;
b.业务增长性;
c.数据来源多样性;
d.业务数据可行性
2)满足数据分析和建模需求
a.抽样样本量;
A.以时间为维度分布,至少包含一个能满足预测的完整业务周期;
B.做预测(包含分类和回归)分析建模的,需要考虑特征数量和特征值域(非数值)的分布,通常数据记录数同时是特征数量和
特征值域的100倍以上;
C.做关联规则分析模型,根据关联前后项的数量,每个主体需要至少1000条数据。
D.异常检测类分析建模,无论是监督还是非监督建模,数据记录越多越好
b.抽样样本在不同类别中的分布问题