David Freedman (1983) mendemonstrasikan: ambil 100 variabel acak yang tidak berkorelasi dengan variabel respons. Jalankan regresi, pilih yang signifikan (p < 0.05). Secara kebetulan, sekitar 5 variabel akan tampak signifikan. Model hasil seleksi ini memiliki R² yang terlihat substansial — padahal seluruhnya noise.
Ini adalah masalah serius dalam penelitian empiris: data dredging atau p-hacking. Solusinya: koreksi Bonferroni, cross-validation, pre-registration studi, dan pemisahan dataset eksplorasi vs konfirmasi. Sangat relevan dalam machine learning untuk memahami overfitting.
← Kembali ke Daftar Paradoks