Senin, 17 Juni 2013

Data Mining



TEXT MINING
Text mining (disebut juga dengan text data mining), adalah suatu proses untuk mengambil informasi dari teks yang ada. Text mining mencari pola-pola yang ada di teks teks dalam bahasa natural yang tidak terstuktur seperti buk, email, artikel, halaman web, dll. Kegiatan yang biasa dilakukan oleh text mining adalah text categorization, text clustering, conception/entity extraction, dll.
Ada 3 proses yang biasanya ada dalam sebuah kegiatan text mining
1. Characterization of data
Teks yang ada distrukturkan dengan proses seperti parsing, dan diamsukkan ke dalam sebuah database
2. Data mining
Dari data yang ada lalu dilakukan sebuah pencarian dengan algoritma tertentu untuk mendapatkan pola dari data tersebut
3. Data visualization
Hasil pencarian yang ada akan diinterpretasi dan dikeluarkan dalam bentuk output yang dapat dimengerti dengan mudah.

teknik data mining
A.   Classification
Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah
didefinisikan.


B.   Association
Digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau proses dimana link asosiasi muncul pada setiap kejadian.


A.   Clustering
Digunakan untuk menganalisis pengelompokkan berbeda terhadap data, mirip dengan klasifikasi, namun pengelompokkan belum didefinisikan sebelum dijalankannya tool data mining.

Penggalian data atau data mining di bagi menjadi beberapa bagian, yaitu : data mining, teks mining dan web mining.
Berikut pengertiannya menurut pemahaman saya.

  1. Data Mining, merupakan suatu proses analisa dalam penggalian data-data yang belum diketahui maupun yang sudah diketahui.
    • Dalam penggalian data ini, para pakar atau ilmuwan mencoba untuk memahami konsep-konsep yang ada dalam suatu data maupun data-data yang ingin ditemukan solusi permasalahannya.
  2. Teks Mining, merupakan suatu proses analisa penggalian data-data yang masih berupa teks.
    • Dalam suatu teks mining, data-data yang ada dalam suatu database masih berupa data mentah. Data-data tersebut diperoleh secara manual dari sumber yang ada dan bahkan data-data yang di dapat kadang perlu waktu yang agak lama.
  3. Web Mining, merupakan suatu proses penggalian data, yang mana data-data tersebut tersimpan dalam suatu database server dalam sebuah website atau world wide web.
    • Dalam web mining, data-data yang ada sudah tersimpan dalam suatu database yang sangat besar. Web mining ini sudah bisa diakses ke dalam teknologi penyimpanan komputer. Dalam web mining ini sudah hampir sempurna karena di dukung oleh berbagai fitur seperti audio, visual serta gabungan keduanya yaitu audio visual.
Metadata merupakan sekumpulan referensi untuk melacak data, dan digunakan untuk menjelaskan penataan gudang data tersebut.

Implementasi gudang data menciptakan kesempatan untuk memberikan informasi yang lebih baik daripada yang tersedia di masa lampau.
Gudang data adalah tempat penyimpanan data historis yang berorientasi subjek, yang diatur sedemikian rupa sehingga dapat diakses dalam aktivitas pemrosesan analitis (seperti penggalian data).

Data Mining adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola dan hubungan dalam set data berukuran besar. Kegunaan data mining adalah untuk menspesifikasikan pola yang harus ditemukan dalam tugas data mining. Kehadiran data mining dilatar belakangi dengan problema data explosion yang dialami akhir-akhir ini dimana banyak organisasi telah mengumpulkan data sekian tahun lamanya (data pembelian, data penjualan, data nasabah, data transaksi dsb.)

Kemajuan luar biasa yang terus berlanjut dalam bidang data mining
didorong oleh beberapa faktor, antara lain :
1. Pertumbuhan yang cepat dalam kumpulan data.
2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan
memiliki akses kedalam database yang baik.
3. Adanya peningkatan akses data melalui navigasi web dan intranet.
4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam
globalisasi ekonomi.
5. Perkembangan teknologi perangkat lunak untuk  data mining
(ketersediaan teknologi).
6. Perkembangan yang hebat dalam kemampuan komputasi dan
pengembangan kapasitas media penyimpanan.

6 fase CRISP-DM ( Cross Industry Standard Process for Data
Mining).
1. Fase Pemahaman Bisnis ( Business Understanding Phase)
a.  Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup
bisnis atau unit penelitian secara keseluruhan.
b. Menerjemahkan tujuan dan batasan menjadi formula dari
permasalahan data mining.
c.  Menyiapkan strategi awal untuk mencapai tujuan.
2. Fase Pemahaman Data ( Data Understanding Phase )
a. Mengumpulkan data.
b. Menggunakan analisis penyelidikan data untuk mengenali lebih
lanjut data dan pencarian pengetahuan awal.
c. Mengevaluasi kualitas data.
d. Jika diinginkan, pilih sebagian kecil kelompok data yang mungkin
mengandung pola dari permasalahan
3.  Fase Pengolahan Data ( Data Preparation Phase)
a.  Siapkan dari data awal, kumpulan data yang akan digunakan untuk
keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat
yang perlu dilaksanakan secara intensif.
b.  Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai
analisis yang akan dilakukan.
c.  Lakukan perubahan pada beberapa variabel jika dibutuhkan.
d.  Siapkan data awal sehingga siap untuk perangkat pemodelan.
4.  Fase Pemodelan ( Modeling Phase)
a.  Pilih dan aplikasikan teknik pemodelan yang sesuai.
b.  Kalibrasi aturan model untuk mengoptimalkan hasil.
c.  Perlu diperhatikan bahwa beberapa teknik mungkin untuk
digunakan pada permasalahan data mining yang sama.
d.  Jika diperlukan, proses dapat kembali ke fase pengolahan data
untuk menjadikan data ke dalam bentuk yang sesuai dengan
spesifikasi kebutuhan teknik data mining tertentu.
5.  Fase Evaluasi ( Evaluation Phase)
a.  Mengevaluasi satu atau lebih model yang digunakan dalam fase
pemodelan untuk mendapatkan kualitas dan efektivitas sebelum
disebarkan untuk digunakan.
b.  Menetapkan apakah terdapat model yang memenuhi tujuan pada
fase awal.
c.  Menentukan apakah terdapat permasalahan penting dari bisnis atau
penelitian yang tidak tertangani dengan baik.
d.  Mengambil keputusan berkaitan dengan penggunaan hasil dari data
mining.
6.  Fase Penyebaran (Deployment Phase)
a.  Menggunakan model yang dihasilkan. Terbentuknya model tidak
menandakan telah terselesaikannya proyek.
b.  Contoh sederhana penyebaran: Pembuatan laporan.
c.  Contoh kompleks Penyebaran: Penerapan proses data mining
secara paralel pada departemen lain.


Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat di
lakukan, yaitu.
1. Deskripsi
Terkadang peneliti dan analisis secara sederhana ingin mencoba mencari
cara untuk menggambarkan pola dan kecendrungan yang terdapat dalam
data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat
menemukan keterangan atau fakta bahwa siapa yang tidak cukup
profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi
dari pola dan kecendrungan sering memberikan kemungkinan penjelasan
untuk suatu pola atau kecendrungan.
2. Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi
lebih ke arah numerik dari pada ke arah kategori. Model dibangun
menggunakan record lengkap yang menyediakan nilai dari variabel target
sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi
nilai dari variabel target dibuat berdasarkan nilai variabel prediksi.
Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada
pasien rumah sakit berdasarkan umur pasien, jenis kelamin, berat badan,
dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai
variabel prediksi dalam proses pembelajaran akan menghasilkan model
estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus
baru lainnya.
3. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa
dalam prediksi nilai dari hasil akan ada di masa mendatang.
Contoh prediksi dalam bisnis dan penelitian adalah:
a. Prediksi harga beras dalam tiga bulan yang akan datang.
b. Prediksi presentase kenaikan kecelakaan lalu lintas tahun depan jika
batas bawah kecepatan dinaikan.
Beberapa metode dan teknik  yang digunakan dalam klasifikasi dan
estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.
4. Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh,
penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu
pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.
Contoh lain klasifikasi dalam bisnis dan penelitian adalah:
a. Menentukan apakah suatu transaksi kartu kredit merupakan
transaksi yang curang atau bukan.
b. Memperkirakan apakah suatu pengajuan hipotek oleh nasabah
merupakan suatu kredit yang baik atau buruk.
c. Mendiagnosa penyakit seorang pasien untuk mendapatkan
termasuk kategori apa.
5. Pengklusteran
Pengklusteran merupakan pengelompokan record, pengamatan, atau
memperhatikan dan membentuk kelas objek-objek yang memiliki
kemiripan.

Tidak ada komentar:

Posting Komentar