Penambangan data hanya memfilter melalui sejumlah besar data mentah untuk mendapatkan
informasi berguna yang memberi bisnis keunggulan kompetitif. Informasi ini terdiri dari pola
dan tren bermakna yang sudah ada dalam data tetapi sebelumnya tidak terlihat.
Alat paling populer yang digunakan saat menambang adalah kecerdasan buatan (AI). Teknologi
AI mencoba bekerja dengan cara otak manusia bekerja, dengan membuat tebakan cerdas,
belajar dengan contoh, dan menggunakan penalaran deduktif. Beberapa metode AI yang lebih
populer digunakan dalam penambangan data termasuk jaringan saraf, pengelompokan, dan
pohon keputusan.
Jaringan neural melihat aturan penggunaan data, yang didasarkan pada koneksi yang
ditemukan atau pada kumpulan sampel data. Akibatnya, perangkat lunak terus menganalisis
nilai dan membandingkannya dengan faktor lain, dan membandingkan faktor-faktor ini
berulang kali hingga menemukan pola yang muncul. Pola ini dikenal sebagai aturan. Perangkat
lunak kemudian mencari pola lain berdasarkan aturan ini atau mengirimkan alarm saat nilai
pemicu tercapai.
Clustering membagi data menjadi beberapa grup berdasarkan fitur serupa atau rentang data
terbatas. Kluster digunakan saat data tidak diberi label dengan cara yang menguntungkan untuk
penambangan. Misalnya, perusahaan asuransi yang ingin menemukan contoh penipuan tidak
akan memiliki catatannya yang diberi label sebagai penipuan atau tidak curang. Tetapi setelah
menganalisis pola dalam cluster, perangkat lunak penambangan dapat mulai mencari tahu
aturan yang menunjukkan klaim mana yang kemungkinan besar salah.
Pohon keputusan, seperti cluster, memisahkan data menjadi beberapa subset dan kemudian
menganalisis subset untuk membaginya menjadi subset lebih lanjut, dan seterusnya (untuk
beberapa level lagi). Subset terakhir kemudian cukup kecil sehingga proses penambangan dapat
menemukan pola dan hubungan yang menarik di dalam data.
Setelah data yang akan ditambang diidentifikasi, itu harus dibersihkan. Membersihkan data
membebaskannya dari informasi duplikat dan data yang salah. Selanjutnya, data harus
disimpan dalam format yang seragam dalam kategori atau bidang yang relevan. Alat
penambangan dapat bekerja dengan semua jenis penyimpanan data, dari gudang data besar
hingga database desktop yang lebih kecil hingga file datar. Gudang data dan data mart adalah
metode penyimpanan yang melibatkan pengarsipan data dalam jumlah besar dengan cara yang
membuatnya mudah diakses bila diperlukan.
Ketika proses selesai, perangkat lunak penambangan menghasilkan laporan. Seorang analis
memeriksa laporan untuk melihat apakah pekerjaan lebih lanjut perlu dilakukan, seperti