Tiga alasan mengapa data sangat sulit untuk ditafsirkan dalam era coronavirus - Quartz

Tiga alasan mengapa data sangat sulit untuk ditafsirkan dalam era coronavirus – Quartz

[ad_1]

Coronavirus telah menyebabkan banjir data. Di mana-mana kita melihat, banyak statistik, di antaranya jumlah kasus yang dikonfirmasi, jumlah pekerjaan yang hilang, harga minyak yang menurun, dan jumlah besar yang dikeluarkan pemerintah untuk melestarikan ekonomi mereka.

Saya telah mendedikasikan hidup saya untuk analisis dan komunikasi data, dan saya masih terus-menerus bingung. Apakah angka yang kita miliki di lintasan virus bermakna jika ada begitu banyak orang kasus tanpa gejala? Bisakah kita mengukur dampak coronavirus pada pasar kerja jika lebih sedikit orang yang menjawab survei saat ini? Bisakah saya benar-benar mendapatkan minyak gratis sekarang?

Tentu saja, itu bukan hanya karena coronavirus yang menafsirkan data itu menantang. Angka yang dilaporkan oleh pembuat kebijakan, akademisi, dan media selalu merupakan perkiraan dari apa yang benar-benar ingin kita ketahui — estimasi yang selalu membutuhkan peringatan. Tetapi memahami kekuatan dan kelemahan data terasa sangat penting saat ini. Lebih dari sebelumnya, bagaimana kita menginterpretasikan statistik dapat mengorbankan kehidupan atau mata pencaharian orang.

Jadi bagaimana seharusnya Anda mendekati data di saat yang genting ini? Setiap kali Anda menemukan statistik, saya sarankan Anda memeriksanya melalui prisma tiga konsep: bias, variabilitas, dan lag.

Bias

Bias adalah konsep data paling penting untuk dipikirkan saat ini. Bias statistik adalah gagasan bahwa suatu statistik mungkin terlalu tinggi atau terlalu rendah karena satu kelompok secara tidak proporsional cenderung menjadi bagian dari suatu penelitian.

Contoh utama dari bias saat ini adalah dalam hal pangsa orang yang memiliki coronavirus. Pada 22 April, ada sekitar 2,5 juta kasus yang dikonfirmasi dari coronavirus di seluruh dunia, menurut laporan tersebut Waktu New York, artinya sekitar 33 dari setiap 100.000 orang di dunia memiliki kasus yang dikonfirmasi.

Apa yang kebanyakan orang benar-benar ingin tahu adalah sebenarnya berbagi orang yang memiliki virus, tetapi jumlah dikonfirmasi kasus hampir pasti bias dianggap remeh. Dengan kurangnya pengujian di banyak negara, dan banyak kasus tanpa gejala, kita tahu mungkin ada lebih banyak kasus daripada yang dilaporkan, mungkin jutaan lebih.

Itu tidak berarti statistik kasus yang dikonfirmasi benar-benar tidak berguna. Itu hanya berarti mereka harus digunakan dengan hati-hati. Jika jumlah kasus tampak menurun, mungkin karena kurang pengujian? Atau karena jenis orang yang dites cenderung memiliki virus? Ketika membaca sebuah studi atau cerita dengan statistik kasus, akan lebih dapat dipercaya jika ada diskusi tentang mengapa angka-angka tersebut mungkin bias naik atau turun.

Ada juga jenis bias yang lebih halus dalam statistik coronavirus. Misalnya, ada sejumlah survei AS untuk menguji sekelompok orang secara acak antibodi terhadap SARS-CoV-2. Survei-survei ini mencoba untuk menilai bagian orang-orang di tempat yang memiliki virus corona. Suatu bentuk bias dalam studi ini, seperti banyak survei lainnya, berasal dari siapa yang memilih untuk berpartisipasi.

Satu studi dari Santa Clara county, warga California merekrut peserta dari iklan Facebook. Perkiraan survei ini mungkin bias karena tipe orang yang merespons iklan semacam itu mungkin sangat mungkin atau tidak mungkin telah terinfeksi. Para peneliti dapat mencoba menggunakan metodologi statistik untuk menjelaskan bias itu, tetapi tidak mudah. (Perhatikan bahwa hasil survei mungkin terlalu tinggi karena “positif palsu“—Suatu masalah yang sangat menjengkelkan di tempat-tempat dengan beberapa kasus aktual.)

Hampir tidak ada perkiraan yang dapat menghindari beberapa jenis bias. Sebagai konsumen data, tujuan Anda haruslah memikirkan efek yang mungkin dimiliki bias.

Variabilitas

Masalah utama lainnya dengan data adalah variabilitas sampling. Banyak statistik dihitung menggunakan bagian populasi yang dipilih secara acak. Untuk menghitung angka pengangguran, pemerintah tidak bertanya kepada setiap orang apakah mereka dipekerjakan; mereka memperkirakan dari subset kecil. Misalnya, untuk menghitung penganggurannya, Survei UK lebih dari 80.000 orang setiap bulan, kurang dari 1,5% dari populasi. Namun, 80.000 itu sudah cukup untuk mendapatkan perkiraan yang sangat akurat.

Tidak selalu demikian bahwa ukuran sampel survei sangat besar, dan perkiraannya sangat tepat.

Sebagai contoh, banyak organisasi pemungutan suara sedang melakukan survei tentang bagaimana orang Amerika memandang penanganan Donald Trump terhadap virus corona. Jajak pendapat berlangsung dari 19-20 April oleh The Hill dan HarrisX menemukan bahwa 51% pemilih terdaftar menyetujui tindakannya. Ini adalah di antara peringkat persetujuan yang lebih tinggi yang diterima Trump, dan seseorang yang membaca tentang jajak pendapat ini mungkin berpikir mayoritas orang Amerika menyetujui tanggapannya. Tapi jajak pendapat ini hanya didasarkan pada 958 orang. Variabilitas sampel memberi tahu kita bahwa jika 958 orang yang berbeda disurvei, jumlah itu bisa dengan mudah menjadi 47% atau 55%.

Saat melihat hasil jajak pendapat, biasanya lebih baik melihat lebih dari satu jajak pendapat. Situs web FiveThirtyEight rata-rata hasil jajak pendapat tentang penanganan virus korona Trump. Ini sumber yang jauh lebih baik untuk melacak angka-angka itu daripada jajak pendapat mana pun. (Pada 23 April, mereka menemukan peringkat persetujuan 46% dari tanggapan coronavirus Trump untuk semua orang Amerika.)

Masalah variabilitas pengambilan sampel diperburuk oleh fakta bahwa jajak pendapat atau studi dengan hasil ekstrem lebih mungkin untuk dilaporkan (di dunia akademis hal ini disebut sebagai “bias publikasi“). Jika Trump mendapat angka peringkat persetujuan rendah yang luar biasa dalam satu jajak pendapat, atau studi antibodi SARS-CoV-2 menemukan bagian positif yang sangat besar, mereka menarik media mencari angka baru yang menarik.

Pelajarannya adalah bahwa untuk setiap statistik, penting untuk memeriksa ukuran populasi berdasarkan pada, dan apakah banyak orang telah mencoba untuk mengukurnya. Untuk hasil apa pun yang jauh di luar apa yang ditemukan orang lain, ada baiknya curiga.

Ketinggalan

Lag mungkin konsep paling sederhana dari tiga yang disajikan di sini, tetapi sangat penting selama coronavirus. Data kadang-kadang sulit dikumpulkan dan lambat untuk dirilis, artinya bisa beberapa minggu atau bulan sebelum kita tahu jawaban untuk pertanyaan penting.

Satu metrik kunci yang cenderung ketinggalan adalah jumlah kematian yang disebabkan oleh coronavirus. Meskipun banyak negara dan kota mencoba menghasilkan jumlah kematian harian, angka-angka itu biasanya di bawah jumlah. Di New York City, pusat gempa untuk virus, rumah sakit yang terbebani membutuhkan waktu berhari-hari atau berminggu-minggu untuk melaporkan kematian ke departemen kesehatan kota. Pada 1 April, kota ini melaporkan hanya 1.374 kematian dari Covid-19 pada atau sebelum tanggal tersebut. Tetapi pada 9 April, data terbaru menunjukkan bahwa 2.253 orang telah meninggal pada saat itu. Kelambatan dalam data kematian ini dapat menyebabkan orang meremehkan tingkat kematian virus.

Lag juga merupakan masalah ketika menilai keadaan ekonomi. Di AS, misalnya, data pasar kerja yang dikumpulkan oleh Biro Statistik Tenaga Kerja dirilis pada jeda tiga minggu. Data terbaru tentang pengangguran dan pekerjaan yang ditambahkan ke ekonomi dirilis pada 3 April. Data ini dikumpulkan dari 8-14 Maret, sebelumnya sebagian besar negara bagian memerintahkan warga untuk berlindung di rumah.

Kelambatan data pengangguran ini biasanya bukan masalah besar. Sebagian besar kemerosotan ekonomi tidak terjadi hanya dalam beberapa minggu, dan menunggu data tidak berdampak pada kebijakan. Dalam hal ini, kehilangan pekerjaan sangat cepat.

Untuk memahami skala masalah di pasar kerja, orang telah beralih ke klaim asuransi pengangguran, yang hanya memiliki jeda lima hari. Para peneliti juga telah melihat menjalankan survei secara pribadi, yang memiliki lebih banyak data terkini, tetapi tidak memiliki ketelitian metodologi dan sejarah yang sama dengan data pemerintah. Statistik ekonomi lainnya yang memiliki kelambatan panjang termasuk pertumbuhan PDB dan data perdagangan internasional. Sangat sulit untuk memperkirakan dampak virus pada area ini.

Jawaban untuk berurusan dengan lag sebagai konsumen data cukup sederhana. Pastikan untuk memeriksa tanggal perkiraan, dan apakah itu kemungkinan akan diperbarui.

Tolong, jangan abaikan data

Sebagian besar hidup saya melibatkan memberi tahu orang-orang tentang masalah dengan titik data. Seringkali, setelah saya menjelaskan secara terperinci masalah-masalah itu, orang-orang akan memberi tahu saya bahwa titik data adalah “total sampah” atau “tidak berguna.” Namun sangat jarang terjadi. Bahkan dengan bias, variabilitas, dan masalah lag, statistik bisa sangat bermakna.

Jumlah kasus koronavirus harian yang dilaporkan memiliki banyak masalah, tetapi hampir pasti lebih baik daripada tidak sama sekali. Jika kita memahami bahwa kemungkinan perkiraan yang dilaporkan terlalu rendah, itu membuatnya semakin berharga. Usia coronavirus bukanlah waktu untuk mengabaikan statistik, tetapi waktu untuk memeriksanya lebih dekat.



[ad_2]
Sumber

Tentang Arif A Rohim

Lihat Juga

Rekor kehilangan pekerjaan, investor fokus pada pembukaan kembali, Dow naik 450

Rekor kehilangan pekerjaan, investor fokus pada pembukaan kembali, Dow naik 450

[ad_1] Seorang pria memakai topeng saat melewati Bursa Efek New York. Mark Lennihan | AP …

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *