Vì sao thăm dò dư luận trước bầu cử tổng thống Mỹ thường sai?

Các cuộc khảo sát không phải là phép đo chính xác tuyệt đối. Trên thực tế, chỉ có khoảng 60% kết quả thực sự nằm trong khoảng tin cậy, thay vì 95% như các cuộc thăm dò công bố.

Tham do bau cu sai anh 1

Ở Mỹ, khảo sát dư luận là công cụ không thể thiếu để dự đoán kết quả bầu cử. Tuy nhiên, những năm gần đây, độ chính xác của các cuộc khảo sát này không phải lúc nào cũng đáng tin cậy.

Đơn cử như cuộc bầu cử Tổng thống Mỹ năm 2016 và 2020 – hai ví dụ tiêu biểu khi các cuộc thăm dò liên tục đánh giá sai kết quả bầu cử, đặc biệt là đối với ứng viên Donald Trump.

Những sai số không thuộc về thống kê

Theo Giáo sư Moore của Trường Kinh doanh Haas – UC Berkeley, phần lớn các cuộc thăm dò công bố “khoảng tin cậy 95%”, nghĩa là có 95% khả năng kết quả thực tế sẽ nằm trong khoảng này.

Song, ông nhận thấy rằng con số thực tế chỉ đạt 60% khi bầu cử chỉ còn cách một tuần. Nghiên cứu của giáo sư còn chỉ ra rằng các cuộc thăm dò tiến hành một năm trước bầu cử chỉ có 40% khả năng đưa ra dự đoán chính xác.

Trên thực tế, có một khoảng cách lớn giữa độ tin cậy do các nhà thăm dò đưa ra và độ chính xác thực tế của kết quả. Sự sai lệch này bắt nguồn từ nhiều yếu tố, trong đó có những sai sót không thuộc về thống kê, như cách thức lấy mẫu. Chẳng hạn, phương pháp gọi ngẫu nhiên sẽ chỉ kết nối được với những ai có điện thoại và sẵn sàng trả lời.

Nếu một cuộc thăm dò sử dụng cách gọi điện ngẫu nhiên, họ chỉ tiếp cận được những người có điện thoại và trả lời cuộc gọi. Điều này dễ dàng gây ra sai lệch nếu như nhóm người trả lời khác biệt nhiều so với tổng thể nhóm cử tri đi bầu.

David Karpf, chuyên gia về công nghệ và bầu cử tại Đại học George Washington, chỉ ra rằng một trong những hạn chế lớn nhất của thăm dò là tỷ lệ phản hồi giảm sút. Trong thập niên 1970, tỷ lệ phản hồi từ các cuộc gọi ngẫu nhiên đạt khoảng 60%. Nhưng hiện nay, do ảnh hưởng của các công nghệ mới như nhận diện cuộc gọi, nhắn tin và số lượng tin nhắn rác, tỷ lệ này đã giảm xuống còn khoảng 1%.

Theo Michael Bailey, giáo sư tại Đại học Georgetown, khi tỷ lệ phản hồi giảm xuống dưới 1%, dữ liệu thu thập không còn là mẫu ngẫu nhiên.

Tham do bau cu sai anh 2

Donald Trump và Kamala Harris đang chạy nước rút cho hồi cuối bầu cử Mỹ. Ảnh: CBS News.

Trong khi đó, Nate Cohn, một nhà phân tích về bầu cử của tờ New York Times, cho biết những cử tri ít học vấn thường có xu hướng không tham gia vào các cuộc khảo sát, dẫn đến việc dữ liệu thăm dò không phản ánh đúng tình hình thực tế.

Trong nhiều năm liền, xu hướng này không gây ra ảnh hưởng lớn bởi các đảng phái thường có số lượng cử tri ngang bằng giữa các nhóm học vấn khác nhau. Tuy nhiên, kể từ khi Trump nổi lên, ông đã thu hút sự ủng hộ từ các cử tri không có trình độ đại học và có khuynh hướng không tham gia bầu cử thường xuyên. Điều này tạo ra một lỗ hổng lớn trong dữ liệu thăm dò và góp phần khiến kết quả sai lệch.

Giáo sư Moore cho rằng sự tự tin thái quá là một nguyên nhân khiến các nhà thăm dò duy trì khoảng tin cậy hẹp hơn mức cần thiết. Thực tế cho thấy rằng bầu cử không dễ đoán như vậy. Ông nói: “Chúng ta thường sai vì những yếu tố mà chúng ta không thể dự đoán trước. Bối cảnh chính trị thay đổi và các cuộc bầu cử trước đó không phải là tiên đoán hoàn hảo cho những gì sắp xảy ra”.

Sự bất ổn định của các cuộc thăm dò

Nghiên cứu của Moore khảo sát các cuộc thăm dò từ các kỳ bầu cử năm 2008, 2012, và 2016. Ông nhận thấy rằng độ chính xác không có sự cải thiện đáng kể qua các kỳ bầu cử.“Chúng tôi không thấy sự khác biệt đáng kể về độ chính xác giữa các năm. Các cuộc thăm dò chỉ đạt độ chính xác 60% một tuần trước bầu cử và xu hướng này không thay đổi nhiều”, ông nói.

Theo Scientific American, các tổ chức thăm dò hiện nay sử dụng các kỹ thuật phức tạp hơn để cố gắng cải thiện độ chính xác, như mô hình hóa và phân tích dữ liệu phức tạp.

Điều đó có nghĩa là tăng trọng số phản hồi của một số người tham gia để làm cho mẫu sai lệch của họ khớp với tổng thể bỏ phiếu chung về các biến số chính, như tuổi tác, chủng tộc, giới tính… Tuy nhiên, phương pháp này chỉ có thể hiệu quả nếu các giả định về mẫu là chính xác.

“Dù đây là những giả định hợp lý, nhưng không thể biết được giả định nào là đúng”, Karpf chia sẻ. Chẳng hạn, trong cuộc bầu cử năm 2016, hầu hết cuộc thăm dò đều không đúng khi dự đoán tỷ lệ ủng hộ Donald Trump. Sai sót này một phần là do họ không đánh giá đúng mức độ ủng hộ của những người không có bằng đại học – nhóm người ủng hộ Trump mạnh mẽ.

Sau sai lầm năm 2016, các thăm dò năm 2020 đã điều chỉnh lại dữ liệu dựa trên yếu tố giáo dục. Tuy nhiên, kỹ thuật này lại gây ra vấn đề mới khi lại bỏ qua các yếu tố không liên quan đến nhân khẩu học. Để khắc phục, các nhà thăm dò bắt đầu sử dụng kỹ thuật gọi là “recall-vote weighting”, tức là điều chỉnh kết quả theo nhóm cử tri đã bầu cho một ứng viên nào đó trong cuộc bầu cử trước đó.

Tham do bau cu sai anh 3

Lượng người phản hồi các cuộc gọi bỏ phiếu càng đa dạng, càng mang tính đại diện thì dữ liệu càng tốt. Nhưng điều này rất khó đạt được trong thực tế. Ảnh: Gracia Lam/OMNIA.

Mặc dù có ý nghĩa về lý thuyết, kỹ thuật này vẫn không đảm bảo độ chính xác tuyệt đối. Theo Bailey, ngoài việc phải chọn đúng tỷ lệ người ủng hộ Trump, các nhà thăm dò còn phải đảm bảo chọn đúng nhóm cử tri này. Nếu nhóm mẫu không đại diện đúng cho toàn bộ cử tri đã từng ủng hộ Trump, kết quả vẫn sẽ lệch lạc.

Nếu các cuộc thăm dò riêng lẻ không đáng tin cậy, vậy các công cụ tổng hợp cuộc thăm dò ý kiến ​​thì sao? Các trang web này kết hợp kết quả từ hàng chục, hàng trăm cuộc khảo sát khác nhau.

Trên thực tế, chúng đang chạy theo phong cách mô phỏng bầu cử được Nate Silver, người sáng lập FiveThirtyEight (hiện là 538), khởi xướng. Công cụ tổng hợp này lấy dữ liệu thăm dò ý kiến ​​và chạy mô phỏng cuộc bầu cử khoảng 10.000 lần để dự đoán kết quả có thể xảy ra.

Đối với người bình thường, những website mô phỏng này không hữu ích lắm. Năm 2016, FiveThirtyEight đã trả kết quả rằng Clinton đã giành chiến thắng với 71,4% phiếu bầu.

Theo Scientific America, các website này chỉ đưa ra cái nhìn tổng quan về mức độ được ủng hộ của các ứng cử viên tại một thời điểm nhất định. Chúng đã bị chỉ trích nặng nề trong một báo cáo của Hiệp hội Nghiên cứu Ý kiến Cộng đồng Mỹ sau thất bại trong cuộc bỏ phiếu năm 2016.

Đồng tác giả báo cáo, Kristen Olson của Đại học Nebraska-Lincoln, nói trong thông cáo báo chí: “Họ đang sử dụng dữ liệu đầu vào với sai số không kiểm soát được và không thực sự minh bạch. Họ chỉ cố gắng dự đoán một sự kiện trong tương lai. Như cuộc bầu cử năm 2016 đã chứng minh, đó có thể là một thử thách đầy cam go”.

FiveThirtyEight cũng viết trên website: “Một cuộc đua sát sao trong các cuộc thăm dò không nhất thiết có nghĩa là kết quả cũng sẽ sát sao”. Mặc dù tỷ lệ phiếu bầu dành cho mỗi ứng cử viên trông có vẻ bằng nhau ở thời điểm hiện tại, người chiến thắng vẫn có thể giành chức tổng thống với tỷ lệ chênh lệch đáng kể với đại cử tri đoàn.

Những chiếc bẫy vô hình trên mạng xã hội

Cuốn sách Vũ trụ kĩ thuật số của giáo sư Kim Sang Kyun đã đi sâu phân tích, mổ xẻ một cách tường tận, những tác động các thiết bị thông minh, thế giới ảo và mạng xã hội trong cuộc sống hiện đại.

Sàn vàng thế giới
Ngoại hối Forex
Bitcoin