Akuntansi untuk Bias Penambangan Data

Beranda » Berita Terbaru » Akuntansi untuk Bias Penambangan Data

Saya baru saja berlangganan ini benang forexfactory, yang tentang penggunaan Mesin belajar untuk mengembangkan sistem perdagangan, dan subjek data mining/pengerukan data telah muncul. Tulisan ini adalah deskripsi singkat tentang bagaimana penambangan/pengerukan dapat dipertanggungjawabkan, tetapi pembaca harus menyadari bahwa berikut ini bukanlah deskripsi pasti dari pengujian tertentu dengan kode yang menyertainya, melainkan deskripsi samar-samar dari prinsip umum tetapi penting.

Misalkan seseorang telah melakukan serangkaian pengujian pada sekumpulan data tertentu dengan tujuan mengembangkan sistem perdagangan. Sifat pastinya tidak terlalu penting – bisa saja berupa pendekatan pembelajaran mesin, pencarian grid dari nilai parameter persilangan rata-rata bergerak, serangkaian kontes eliminasi untuk menemukan indikator “terbaik”, atau apa pun. Saat melakukan ini, kami menyimpan catatan semua hasil kami dan saat pencarian selesai, kami memplot histogram seperti ini:-

yang merupakan hasil dari 160,000 pengujian berbeda yang diplot dalam 200 bin. Tentu saja, setelah melakukan ini, kami memilih sistem terbaik yang ditemukan, yang diwakili oleh garis kursor vertikal pada nilai sumbu x 5.2. 5.2 ini adalah metrik pengujian pilihan kami, baik itu Rasio Sharpe, rasio menang-kalah, apa pun. Namun kemudian kita bertanya pada diri sendiri apakah kita telah benar-benar menemukan sistem yang mengalahkan dunia atau apakah penemuan ini merupakan hasil dari penggalian data?

Untuk mengujinya, kita membuat kumpulan data acak yang memiliki atribut yang sama dengan data sebenarnya yang digunakan di atas. Data acak dapat diperoleh dengan Bootstrap, permutasi acak, penerapan suatu Rantai Markov dengan ruang negara berasal dari data asli dll. Pilihan sebenarnya yang mana yang akan digunakan akan tergantung pada hipotesis nol seseorang ingin menguji. Setelah memperoleh kumpulan data acak kami, kami kemudian melakukan pencarian yang sama persis seperti yang kami lakukan di atas dan mencatat metrik pengujian sistem berkinerja terbaik yang ditemukan pada set data acak ini. Kami mengulanginya 160,000 kali dan kemudian memplot histogram (berwarna merah) dari hasil pengujian terbaik pada semua set data acak ini:-

Kami menemukan bahwa himpunan acak ini memiliki nilai rata-rata 0.5 dan simpangan baku 0.2. Apa yang diwakili oleh himpunan uji merah ini adalah kemampuan/kekuatan algoritma pembelajaran mesin, kriteria pencarian grid, dsb. untuk mengungkap sistem yang "baik" bahkan dalam data yang tidak bermakna, di mana semua hubungan, pada dasarnya, palsu dan tidak mengandung kemampuan prediktif.

Kita sekarang harus berasumsi bahwa kemampuan untuk mengungkap hubungan palsu ini juga ada dalam rangkaian pengujian awal kita pada data nyata, dan hal itu harus diperhitungkan. Sebagai ilustrasi, saya akan mengambil pendekatan naif dan mengambil 4 kali simpangan baku ditambah rata-rata distribusi merah dan menggeser distribusi hijau awal kita ke kanan dengan jumlah yang sama dengan jumlah ini, nilai 1.3, sehingga:-

Kita kini melihat bahwa nilai metrik uji awal kita sebesar 5.2, yang berada jauh di ekor distribusi hijau yang tidak bergeser, berada dengan nyaman di dalam ekor distribusi yang bergeser, dan bergantung pada pilihan nilai-p kita, dsb. kita mungkin tidak dapat menolak hipotesis nol kita, apa pun itu.

Seperti yang saya peringatkan kepada para pembaca di atas, ini tidak dimaksudkan sebagai penjelasan yang ketat secara matematis tentang cara memperhitungkan bias penambangan data, tetapi lebih merupakan penjelasan ilustratif tentang prinsip-prinsip di balik penghitungannya. Hal utama yang dapat diambil adalah bahwa distribusi merah, apa pun itu untuk pengujian yang Anda jalankan, perlu dibuat dan kemudian pengujian pada data nyata perlu didiskontokan dengan tepat oleh ukuran relevan yang diambil dari distribusi merah sebelum kesimpulan apa pun diambil tentang kemanjuran hasil pada data nyata.

Untuk informasi lebih lanjut tentang tes penambangan data, pembaca mungkin ingin mengunjungi repositori Github Saya telah membuat, yang berisi kode dan beberapa makalah akademis tentang subjek tersebut. 

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai *

Penyedia Baru
binola

Broker yang
Lebih dari 2 juta bisnis
Lihat 10 Pialang Teratas

permainan

Permainan online
Lebih dari 2 juta bisnis
Lihat 10 Game Online Gratis Teratas

Game baru
Kebohongan P

$59.99 Edisi standar
28% Hemat Diskon
Lihat 10 Game Penyedia Teratas

KEPOMPONG

$24.99 Edisi standar
28% Hemat Diskon
Lihat 10 Game Penyedia Teratas

Penawaran Baru
Komisi hingga $1850 untuk pengguna aktif program afiliasi Oleh Exness

Poin Teratas © Hak Cipta 2023 | Oleh Topoin.com Media LLC.
Topoin.info adalah situs review produk, bonus, penawaran, penyedia layanan bisnis dan perusahaan terbaik dan terpercaya sepanjang masa.

Temukan lebih banyak dari Poin Teratas

Berlangganan sekarang untuk terus membaca dan mendapatkan akses ke arsip lengkap.

lanjutkan membaca