Các Kỹ Thuật Lấy Mẫu

Lấy mẫu dữ liệu là một kỹ thuật rất quang trọng trong thống kê, là yếu tố quan trọng góp phần xác định độ chính xác của research/ survey. Nếu có bất kỳ sai sót gì trong quá trình lấy mẫu, nó sẽ ảnh hưởng trực tiếp đến kết quả cuối cùng. Có rất nhiều kỹ thuật giúp chúng ta thu thập mẫu dựa trên nhu cầu và tình huống chúng ta cần. Bài viết này sẽ giải thích một số kỹ thuật phổ biến nhất.

Để bắt đầu bài viết, chúng ta sẽ làm rõ mốt số khái niệm cơ bản là Quần thể - Population,mẫu - Samplelấy mẫu - sampling

Quần thể - population là tập hợp của các cá thể có một hoặc một số đặc điểm chung. Kích thước của một quần thể là số lượng cá thể trong quần thể đó.

Mẫu - sample là một tập con của quần thể. Quá trình chọn một mẫu được gọi là lấy mẫu -sampling. Kích thước mẫu là số lượng cá thể trong tập mẫu.

Hình ảnh Hình 1: Ví dụ về lấy mẫu dữ liệu

Có rất nhiều kỹ thuật lấy mẫu dữ liệu khác nhau, nhưng chúng ta có thể gom chúng vào 2 nhóm chính:

  • Lấy mẫu ngẫu nhiên - Probability Sampling

  • Lấy mẫu phi ngẫu nhiên - non-probability sampling

Hình ảnh Hình 2: Ví dụ so về lấy mẫu ngẫu nhiên và lấy mẫu phi ngẫu nhiên

Sự khác biệt của hai nhóm trên là phương pháp lấy mẫu có sử dụng “hàm ngẫu nhiên” hay không. Với việc sử dụng hàm ngẫu nhiên, mỗi cá thể đều có cơ hội được lựa chọn ngang nhau và đều có cơ hội là một cá thể trong tập mẫu.

Lấy mẫu ngẫu nhiên

Những thuật toán trong nhóm này sử dụng hàm “ngẫu nhiên” để đảm bảo rằng mọi phần tử đều có cơ hội lựa chọn ngang nhau. Một tên khác của phương pháp này là random sampling.

Một số phương pháp thuộc nhóm này

  • Simple Random Sampling

  • Stratified sampling

  • Systematic sampling

  • Cluster Sampling

  • Multi stage Sampling

Simple Random Sampling

Mỗi cá thể đều có cơ hội lựa chọn ngang nhau vào tập mẫu. Phương pháp này được sử dụng khi chúng ta không có bất kỳ thông tin gì về tập population.

Ví dụ: Chọn ngẫu nhiên 20 sinh viên trong lớp học 50 sinh viên. Mỗi sinh viên đều có cơ hội được chọn ngang nhau là 1/50.

Stratified sampling

Kỹ thuật này phân chia mỗi cá thể trong quần thể thành từng nhóm nhỏ dựa trên sự tương đồng (similarity), nghĩa là các cá thể trong cùng 1 nhóm sẽ đồng nhất với nhau về một khía cạnh nào đó, và sẽ không giống với các nhóm khác về khía cạnh đó. Và chúng ta sẽ chọn ngẫu nhiên các các thể trong mỗi nhóm. Ở phương pháp này, chúng ta cần thông tin cho trước về tập quần thể để tạo các nhóm con.

Hình ảnh Hình 2: lấy mẫu Stratified sampling

Ở ví dụ trên, chúng ta sẽ chia tập quần thể thành các nhóm con mặc áo đỏ, mặc áo xanh, mặc áo vàng (phải biết trước được trong quần thể thằng nào mặc áo màu gì). Sau đó sẽ lựa chọn ngẫu nhiên 2 các thể trong mỗi nhóm.

Cluster Sampling

Toàn bộ tập quần thể sẽ được chia thành từ cụm hoặc thành từng phần. Sau đó chúng ta sẽ chọn ngẫu nhiên từng cụm. Tất cả các cá thể trong cụm đó sẽ được sử dụng làm tập mẫu. Các cụm được định danh dựa trên các yếu tố xác định trước. Ví dụ ở trong hình ở trên, các cụm được định danh dựa vào màu sắc của áo mà người đó mặc. Điểm khác biệt ở phương pháp này so với phương pháp ở trên là phương pháp ở trên lựa chọn ngẫu nhiên một số các cá thể trong mỗi cụm. Còn phương pháp này sẽ lựa chọn ngẫu nhiên các cụm, và chọn hết tất cả các các thể trong cụm đó.

Một số chiến lược để lựa chọn cụm:

Single Stage Cluster Sampling: Các cụm được lựa chọn ngẫu nhiên

Hình ảnh Hình 3: Single Stage Cluster Sampling

Two Stage Cluster Sampling: Ở phương pháp này, chúng ta sẽ lựa chọn ngẫu nhiên các cụm, sau đó, trong mỗi cụm, chúng ta sẽ lựa chọn ngẫu nhiên các cá thể trong mỗi cụm

Hình ảnh Hình 4: Two Stage Cluster Sampling

Systematic Clustering

Ở phương pháp này, việc lựa chọn cá thể là có quy luật và không ngẫu nhiên, từ cá thể đầu tiên. Các cá thể của tập mẫu được chọn ra từ tập quần thể dựa vào một quy luật nào đó. Đầu tiên, tất cả các cá thể trong tập quần thể phải được xắp xếp có thứ tự. Sau đó chúng ta sẽ lựa chọn ngẫu nhiên cá thể đầu tiên (mỗi cá thể đều có xác suất ngang nhau ở đây), và sử dụng quy luật nào đó để rút ra các cá thể tiếp theo.

Hình ảnh Hình 5: Systematic Clustering

Như ví dụ ở trên, chúng ta xắp xếp các nhân vật áo vàng, xanh, đỏ ngẫu nhiên tuỳ ý theo sự lựa chọn của người ta. Quy luật là cứ 4 người sẽ lấy người cuối. Ấn nút ngẫu nhiên … ta được số 3. Vậy là cá thể đầu tiên là nhân vật ở vị trí số 3, tiếp theo sẽ là nhân vật ở vị trí 7, 11, 15,19, 5, …

Multi-Stage Sampling

Phương pháp này là sự kết hợp của một hoặc nhiều phương pháp được mô tả ở trên.

Quần thể được chia thành nhiều cụm (cluster) và mỗi cụm được chia vào từng nhóm con (subgrop - strata) dựa trên sự tương đồng => chúng ta được một tập các cụm con được gọi là stratum. Chúng ta sẽ lựa nhọn một hoặc một vài strata trong stratum. Quá trình này sẽ được lặp đi lặp lại đến khi không còn cụm nào có thể phân chia được nữa.

Ví dụ, các quốc gia có thể được phân chia thành từng bang, thành phố, thành thị, nông thôn. Và tất cả các khu vực có cùng ký tự đầu có thể được gom lại thành với nhau tạo thành một strata.

Hình ảnh Hình 6: Multi-Stage Sampling

Lấy mẫu phi ngẫu nhiên

Những kỹ thuật nằm trong nhóm này không sử dụng hàm ngẫu nhiên. Kỹ thuật này phụ thuộc vào khả năng hiểu biết của các nhà nghiên cứu (researcher) trên tập quần thể họ đang có để chọn lựa cá thể cho tập mẫu. Kết quả của việc lấy mẫu có thể bị lệch.

Một số phương pháp thuộc nhóm này là:

  • Convenience Sampling

  • Purposive Sampling

  • Quota Sampling

  • Referral /Snowball Sampling

Convenience Sampling

Các cá thể được chọn dựa trên tính khả dụng của dữ liệu. Phương pháp này được sử dụng khi tính khả dụng của dữ liệu là hiếm và tốn kém. Do vậy, chúng ta sẽ lựa chọn mẫu dựa trên sự tiện lợi.

Ví dụ, Các nhà nghiên cứu thường hay sử dụng phương pháp này trong các giai đoạn đầu của các nghiên cứu khảo sát, vì nó dễ dàng, nhanh chóng và cho ra kết quả nhanh.

Purposive Sampling

Phương pháp lấy mẫu này dựa trên mục đích của nghiên cứu. Chỉ chọn ra những cá thể trong quần thể phù hợp nhất với mục đích nghiên cứu .

Ví dụ: Nếu chúng ta muốn hiểu được “suy nghĩ của những người quan tâm đến bằng thạc sỹ” thì tiêu chí lựa chọn cá thể là những người say yes trong câu hỏi “bạn có hứng thú với bậc thạc sỹ trong lĩnh vực … không?”. Những người say “No” sẽ bị loại khỏi tập mẫu của chúng ta.

Quota Sampling

Phương pháp lấy mẫu này phụ thuộc vào một số tiêu chuẩn thiết lập từ trước. Tỷ lệ của các nhóm cá thể trong tập mẫu phải giống hết trong tập quần thể. Các cá thể được chọn cho đến khi chúng đạt đúng tỷ lệ của một loại dữ liệu.

Ví dụ: Giả sử chúng ta biết rằng trên trái đất này có 6 tỷ người, và 45% trong số đó là nam giới và 55% là nữ giới. Vậy thì chúng ta sẽ lấy mẫu làm sao cho tập mẫu chúng ta cũng phản ánh số đó, nghĩa là trong tập mẫu có 1000 người thì 45% trong số 1000 người đó phải là nam và 55% trong số 1000 người đó là nữ.

Referral /Snowball Sampling

Kỹ thuật này được sử dụng khi chúng ta không biết gì về tập quần thể hoặc tập quần thể hiếm. Lúc đó chúng ta sẽ tìm ra cá thể đầu tiên trong quần thể, rồi nhờ cá thể đầu tiên đó gợi ý các cá thể tiếp theo với điều kiện thoả nhu cẫu lấy mẫu của nghiên cứu. Cứ tiếp tục như vậy thì kích thước của tập mẫu sẽ tăng lên theo cấp nhân như kích thước quả quả cầu tuyết, nên kỹ thuật này còn có tên gọi khác là Snowball Sampling.

Hình ảnh Hình 7: Ví dụ về Snowball Sampling

Ví dụ: Trong tình huống, ngữ cảnh là bạn muốn làm 1 bài khảo sát về những người bị nhiễm HIV, những người này thường có khuynh hướng không cởi mở ở mức độ công cộng và khó cho chúng ta tiếp cận để thu thập thông tin trực tiếp từ họ.

Nhóm khảo sát sẽ tiến hành liên hệ 1 người nào đó mà họ biết hoặc người nào đó xung phong làm cầu nối với các người bị nhiễm và thu thập thông tin từ họ (những người bị nhiễn tin tưởng người được xung phong hơn nhóm khảo sát. Vì nhóm khảo sát là người lạ).

Hi vọng sau bài viết này, các bạn có thêm nhiều ý tưởng hơn nữa về việc lấy mẫu và các cách để lấy mẫu trong ứng dụng thực tế.

Bài viết được lược dịch và một số hình ảnh được lấy từ nguồn https://towardsdatascience.com/sampling-techniques-a4e34111d808

Cảm ơn các bạn đã theo dõi. Hẹn gặp bạn ở những bài viết tiếp theo.

Comments