Bayes và tần suất trong suy diễn thống kê (1)

1. Một chút lịch sử

Hầu như những ai có một chút liên hệ với thống kê và học máy đều đã từng nghe nói đến sự khác biệt và đối chọi giữa phương pháp Bayes và phương pháp tần suất. Những người nghiên cứu lý thuyết và ứng dụng của thống kê đều có lúc phải đối đầu với một sự lựa chọn giữa Bayes và tần suất. Bản chất của sự khác biệt này là gì?

Đây là câu chuyện rất dài và sẽ là nội dung của loạt bài này. Sự khác biệt giữa hai phương pháp Bayes và tần suất có thể được mô tả từ rất nhiều góc độ khác nhau, đi từ những cái rất cốt lõi cho đến những thứ rất râu ria. Với dân nghiên cứu thống kê và học máy, với một vấn đề cụ thể đôi khi sự lựa chọn giữa hai phương pháp suy diễn này lại dẫn đến các giải pháp khác biệt với kết quả suy diễn không thống nhất.

Bayes chọi tần suất cũng là một chủ đề thú vị lúc trà dư tửu hậu. Đôi khi với kết quả “đẫm máu”. Chuyện này có thật: Khoảng 15 năm về trước ở khoa tôi có một ông làm về phương pháp Bayes, còn ông kia chủ trương theo tần suất. Cả hai ông này rất uy tín trong ngành (ông Bayes lúc đó là trưởng khoa, còn ông tần suất đã từng làm editor cho Annals of Statistics). Thế mà trong một bữa tiệc vui vẻ của toàn khoa ở nhà riêng một đồng nghiệp, trong lúc ngà ngà nói chuyện Bayes chọi tần suất một hồi thế nào mà hai bác xông ra đánh nhau thật, làm mọi người phải xô ra ngăn.

Mặc dù phương pháp Bayes và tần suất có thể truy về Thomas Bayes (thể kỷ 18) và Pierre-Simon Laplace (thế kỷ 19), sự đối chọi của hai trường phái chỉ thực sự thành hình ở đầu thế kỷ 20, khi suy luận thống kê được xây dựng trên một nền tảng toán học tương đối chắc chắn với công của Ronald Fisher, Karl Pearson, Jerzy Neyman, De Finetti và Abraham Wald và một số nhà tiên phong khác. Trong một thời gian dài từ trước thế chiến hai, phương pháp tần suất được phát triển rất mạnh. Đến tận khoảng 15 năm trở về trước sự lựa chọn giữa Bayes và tần suất còn ảnh hưởng đến cơ hội nghề nghiệp. Tần suất thắng thế và thống trị khắp các khoa thống kê ở Mỹ, từ Berkeley, Stanford đến Harvard, Chicago. Phương pháp Bayes chỉ được nghiên cứu ở vài khoa thống kê nhỏ hơn (khi đó) như Carnegie Mellon và Duke. Thay vì sử dụng phương pháp Bayes hay tần suất, bạn sẽ được (bị) gọi là nhà thống kê Bayes hay nhà tần suất. Không có chỗ dung dưỡng cho cả hai phương pháp đối với từng người. Ở châu Âu về cơ bản tần suất cũng thống trị, nhưng có một số trường phái theo đuổi Bayes rất kiên định ở Italy và Anh.

Ngày nay sự đối chọi này bớt phần khốc liệt máu lửa hơn. Khoa học thống kê cũng bớt dần tính triết lý giáo điều mà dịch dần về tính thực dụng do phải đối đầu với các vấn đề có dữ liệu phức tạp và khổng lồ. Mèo trắng hay mèo đen đều được miễn là bắt được chuột. Phương pháp Bayes được từng bước tiếp nhận và ưa chuộng, và được dạy và học ở hầu hết các khoa thống kê. Sự phát triển và giao thoa với khoa học máy tính cũng làm thay đổi một cách bản chất về các nền tảng lý thuyết của suy diễn thống kê. Ngoài cái kiềng tần suất và Bayes, bây giờ còn có một cái kiềng nữa là sự phức tạp của giải thuật học (learning algorithm). Hiện tại chưa có một lý thuyết hoàn chỉnh để dung hòa được sự tương tác và đối chọi giữa ba cái kiếng này.

Mặc dù vậy, nhưng khác biệt căn bản giữa Bayes và tần suất vẫn còn nguyên. Và với những đột phá trong vài thập niên gần đây về khía cạnh thuật toán và những vấn đề mở về sự giằng co giữa hiệu quả thống kê và hiệu quả và thuật toán, câu chuyện về Bayes và tần suất không những vẫn còn nóng hổi tính thời sự, mà còn mang nhiều sắc thái mới vô cùng thú vị.

Link to full article