Kecenderungan Pusat vs Penyebaran
Dalam statistik deskriptif dan inferensi, beberapa indeks digunakan untuk menerangkan set data yang sepadan dengan kecenderungan pusat, serakan dan kecondongannya: tiga sifat terpenting yang menentukan bentuk relatif taburan set data.
Apakah itu kecenderungan memusat?
Kecenderungan pusat merujuk kepada dan menempatkan pusat taburan nilai. Min, mod dan median ialah indeks yang paling biasa digunakan dalam menerangkan kecenderungan pusat set data. Jika set data adalah simetri, maka kedua-dua median dan min bagi set data itu bertepatan antara satu sama lain.
Memandangkan set data, min dikira dengan mengambil jumlah semua nilai data dan kemudian membahagikannya dengan bilangan data. Sebagai contoh, berat 10 orang (dalam kilogram) diukur menjadi 70, 62, 65, 72, 80, 70, 63, 72, 77 dan 79. Maka min berat sepuluh orang (dalam kilogram) boleh dikira seperti berikut. Jumlah berat ialah 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Min=(jumlah) / (bilangan data)=710 / 10=71 (dalam kilogram). Difahamkan bahawa outlier (titik data yang menyimpang daripada aliran biasa) cenderung mempengaruhi min. Oleh itu, dengan kehadiran outlier bermakna sahaja tidak akan memberikan gambaran yang betul tentang pusat set data.
Median ialah titik data yang ditemui di tengah-tengah set data yang tepat. Satu cara untuk mengira median adalah dengan memesan titik data dalam tertib menaik, dan kemudian cari titik data di tengah. Sebagai contoh, jika sekali memesan set data sebelumnya kelihatan seperti, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Oleh itu, (70+72)/2=71 berada di tengah. Daripada ini, dilihat bahawa median tidak perlu berada dalam set data. Median tidak dipengaruhi oleh kehadiran outlier. Oleh itu, median akan berfungsi sebagai ukuran kecenderungan memusat yang lebih baik dengan kehadiran outlier.
Mod ialah nilai yang paling kerap berlaku dalam set data. Dalam contoh sebelumnya, nilai 70 dan 72 kedua-duanya berlaku dua kali dan oleh itu, kedua-duanya adalah mod. Ini menunjukkan bahawa, dalam sesetengah pengedaran, terdapat lebih daripada satu nilai modal. Jika hanya terdapat satu mod, set data dikatakan unimodal, dalam kes ini, set data adalah bimodal.
Apakah itu penyebaran?
Penyebaran ialah jumlah penyebaran data tentang pusat pengedaran. Julat dan sisihan piawai ialah ukuran serakan yang paling biasa digunakan.
Julat itu hanyalah nilai tertinggi tolak nilai terendah. Dalam contoh sebelumnya, nilai tertinggi ialah 80 dan nilai terendah ialah 62, jadi julat ialah 80-62=18. Tetapi julat tidak memberikan gambaran yang mencukupi tentang serakan.
Untuk mengira sisihan piawai, pertama sisihan nilai data daripada min dikira. Purata kuasa dua bagi sisihan dipanggil sisihan piawai. Dalam contoh sebelumnya, sisihan masing-masing daripada min ialah (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 dan (79 – 71)=8. Hasil tambah segi empat sama sisihan ialah (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 Sisihan piawai ialah √(366/10)=6.05 (dalam kilogram). Melainkan set data sangat condong, daripada ini dapat disimpulkan bahawa majoriti data berada dalam selang 71±6.05, dan memang begitu dalam contoh khusus ini.
Apakah perbezaan antara kecenderungan memusat dan penyebaran?
• Kecenderungan memusat merujuk kepada dan menempatkan pusat taburan nilai
• Penyerakan ialah jumlah penyebaran data mengenai pusat set data.