Perlombongan data lwn Pergudangan Data
Perlombongan Data dan Pergudangan Data adalah teknik yang sangat berkuasa dan popular untuk menganalisis data. Pengguna yang cenderung kepada statistik menggunakan Perlombongan Data. Mereka menggunakan model statistik untuk mencari corak tersembunyi dalam data. Pelombong data berminat untuk mencari hubungan yang berguna antara elemen data yang berbeza, yang akhirnya menguntungkan perniagaan. Tetapi sebaliknya, pakar data yang boleh menganalisis dimensi perniagaan secara langsung cenderung menggunakan gudang Data.
Perlombongan data juga dikenali sebagai Penemuan Pengetahuan dalam data (KDD). Seperti yang dinyatakan di atas, ia adalah bidang sains komputer, yang berkaitan dengan pengekstrakan maklumat yang tidak diketahui dan menarik sebelum ini daripada data mentah. Disebabkan oleh pertumbuhan data yang eksponen, terutamanya dalam bidang seperti perniagaan, perlombongan data telah menjadi alat yang sangat penting untuk menukar kekayaan data yang besar ini kepada risikan perniagaan, kerana pengekstrakan corak secara manual telah menjadi kelihatan mustahil dalam beberapa dekad yang lalu. Sebagai contoh, ia kini digunakan untuk pelbagai aplikasi seperti analisis rangkaian sosial, pengesanan penipuan dan pemasaran. Perlombongan data biasanya berkaitan dengan empat tugas berikut: pengelompokan, pengelasan, regresi dan perkaitan. Pengelompokan ialah mengenal pasti kumpulan yang serupa daripada data tidak berstruktur. Pengelasan ialah peraturan pembelajaran yang boleh digunakan pada data baharu dan biasanya akan merangkumi langkah berikut: prapemprosesan data, mereka bentuk pemodelan, pembelajaran/pemilihan ciri dan Penilaian/pengesahan. Regresi ialah mencari fungsi dengan ralat minimum untuk memodelkan data. Dan persatuan mencari hubungan antara pembolehubah. Perlombongan data biasanya digunakan untuk menjawab soalan seperti apakah produk utama yang mungkin membantu memperoleh keuntungan tinggi tahun depan di Wal-Mart?
Seperti yang dinyatakan di atas, Pergudangan data juga digunakan untuk menganalisis data, tetapi oleh set pengguna yang berbeza dan matlamat yang sedikit berbeza dalam fikiran. Sebagai contoh, apabila ia berkaitan dengan sektor runcit, pengguna pergudangan Data lebih mementingkan jenis pembelian yang popular di kalangan pelanggan, jadi hasil analisis boleh membantu pelanggan dengan meningkatkan pengalaman pelanggan. Tetapi pelombong data mula-mula menjangkakan hipotesis seperti pelanggan membeli jenis produk tertentu dan menganalisis data untuk menguji hipotesis. Penyimpanan data boleh dijalankan oleh peruncit utama yang pada mulanya menyimpan kedainya dengan saiz produk yang sama untuk kemudian mengetahui bahawa kedai New York menjual inventori saiz yang lebih kecil jauh lebih cepat daripada di kedai Chicago. Jadi, dengan melihat hasil ini peruncit boleh menyimpan stok kedai New York dengan saiz yang lebih kecil berbanding kedai Chicago.
Jadi, seperti yang anda boleh lihat dengan jelas, kedua-dua jenis analisis ini nampaknya mempunyai sifat yang sama pada mata kasar. Kedua-duanya mengambil berat tentang peningkatan keuntungan berdasarkan data sejarah. Tetapi sudah tentu, terdapat perbezaan utama. Secara ringkas, Perlombongan Data dan Pergudangan Data dikhususkan untuk menyediakan pelbagai jenis analitik, tetapi pastinya untuk jenis pengguna yang berbeza. Dalam erti kata lain, Perlombongan Data mencari korelasi, corak untuk menyokong hipotesis statistik. Tetapi, Data Warehousing menjawab soalan yang agak luas dan ia memotong dan memotong data dari sana dan seterusnya untuk mengenali cara penambahbaikan pada masa hadapan.