随机抽样 是指从总体中抽取样本时,每个个体被抽中的概率是已知且非零的,并且抽样过程不受主观意志影响,其根本目的是:

- 保证样本的代表性:通过随机性,使样本的特征(如年龄、收入、观点分布)能够较好地反映总体的特征。
- 进行统计推断:基于样本数据,利用概率论原理对总体参数(如均值、比例)进行估计,并计算估计的可靠性(如置信区间、误差范围)。
- 控制抽样误差:随机抽样允许我们量化抽样带来的随机误差,这是非随机抽样无法做到的。
核心原则:等概率与随机性
- 等概率原则:在简单随机抽样中,总体中的每个个体都有同等的机会被选中。
- 随机性:抽样过程必须由随机机制决定,如抽签、随机数表、计算机随机数生成器,以排除研究者的主观选择偏差。
主要随机抽样方法
以下是几种最基本和常用的随机抽样技术:
简单随机抽样
- 定义:从容量为 N 的总体中,完全随机地抽取 n 个个体,每个可能的样本被抽中的概率相同。
- 做法:给总体中每个个体编号,然后使用随机数生成工具抽取编号。
- 优点:概念简单,是其他方法的基础;理论上最纯粹。
- 缺点:当总体很大或分布分散时,实际操作困难(如编制完整名单);可能忽略总体的重要子群结构。
- 例子:从全校10000名学生名单中,用随机数抽200人进行问卷调查。
系统抽样
- 定义:将总体单位按一定顺序排列,随机确定一个起点,然后每隔固定的间隔抽取一个个体。
- 做法:计算抽样间隔 k = N/n,在1到k之间随机选一个数r作为起点,然后抽取第r, r+k, r+2k, ... 个个体。
- 优点:操作简便,样本在总体中分布均匀。
- 缺点:如果总体名单存在周期性规律,且周期与抽样间隔k重合,可能导致严重偏差。
- 例子:从生产线上的产品中,每生产50个就抽1个检验质量。
分层抽样
- 定义:先将总体按某种特征(如性别、年龄、地区)划分为互不重叠的若干层,然后在每一层内独立地进行简单随机抽样。
- 做法:
- 比例分配:每层样本量与该层在总体中的大小成比例,最常用。
- 最优分配:考虑层内变异和成本,使估计量方差最小。
- 优点:
- 保证样本在重要特征上与总体结构一致,代表性最强。
- 能分别估计各层参数,便于层间比较。
- 通常能降低总体估计的抽样误差。
- 缺点:需要事先掌握总体的分层信息。
- 例子:调查市民收入,先按城区(东、西、南、北、中)分层,再在每个城区内随机抽样。
整群抽样
- 定义:先将总体划分为若干自然的群,随机抽取一部分群,然后对抽中群内的所有个体进行全面调查。
- 做法:群的划分通常是自然形成的,如学校、班级、街道、社区。
- 优点:当总体名单难以获取,但群的名单容易获得时,实施成本低,操作方便。
- 缺点:由于群内个体可能相似,样本分布相对集中,抽样误差通常比简单随机抽样大(效率较低),为达到相同精度,需要更大的样本量。
- 例子:调查全国小学生视力情况,随机抽取20个城市,然后对这20个城市的所有小学生进行检查。
非随机抽样方法(作为对比)
了解随机抽样,也需要知道常见的非随机抽样,它们不能用于严格的统计推断,但用于探索性研究。
- 方便抽样:抽取最容易获得的个体(如街头采访)。偏差大。
- 判断抽样:根据研究者的主观判断选择“有代表性”的个体。依赖研究者经验。
- 配额抽样:类似分层抽样,先划分配额(如男女各半),但在配额内是非随机抽取(如访问员自行选择受访者)。
- 雪球抽样:通过已受访者推荐寻找其他受访者,适用于寻找稀有或隐蔽总体(如特定疾病患者)。
关键注意事项
- 抽样框:进行抽样的总体单位名单,一个准确、完整、无重复的抽样框是成功抽样的前提,抽样框误差是常见的误差来源。
- 无放回 vs 有放回:
- 无放回抽样:个体被抽出后不放回总体,更常见,计算抽样误差时需使用有限总体校正因子。
- 有放回抽样:个体被抽出记录后放回,有可能被再次抽中,理论计算简单,视为无限总体。
- 样本量确定:取决于:
- 总体的变异程度
- 可接受的误差范围
- 所需的置信水平(通常95%)
- 抽样的设计(如整群抽样需要更大的样本量)
- 误差类型:
- 抽样误差:由于只调查一部分个体而固有的随机误差。随机抽样可以测量和控制它。
- 非抽样误差:包括无响应误差、测量误差、录入误差等。随机抽样无法消除它,需要通过好的调查设计、培训、督导来减少。
总结对比表
| 方法 | 核心做法 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| 简单随机 | 完全随机抽取个体 | 理论基础坚实,计算简单 | 名单难获取,可能忽略子群 | 总体小且均匀,名单完整 |
| 系统抽样 | 按固定间隔抽取 | 操作简便,样本分布均匀 | 怕周期性偏差 | 流水线质检,名单按序排列 |
| 分层抽样 | 分层后,在各层内随机抽 | 代表性好,精度高,可做层间比较 | 需分层信息 | 总体内部差异大,且掌握分层特征 |
| 整群抽样 | 随机抽群,调查群内全部 | 实施方便,成本低 | 精度较低,样本集中 | 总体地域广,名单难获取,群是自然单位 |
记住核心精髓:随机抽样的价值在于其“可推断性”。 正因为抽样过程是随机的、概率已知的,我们才能用样本的结论,科学地推断总体的情况,并知道这个推断有多可靠。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。