Rabu, 24 Juli 2013

implementasi algoritma K Nearest Neighbor



BAB I
PENDAHULUAN

1.1         Latar Belakang
Perkembangan teknologi informasi yang up to date memungkinkan ketersediaan informasi diinternet yang sangat melimpah. Informasi tersebut terus bertambah setiap waktu dengan adanya tuntutan arus informasi cepat yang dibutuhkan oleh masyarakat. Salah satu informasi yang tersedia dalam internet adalah informasi dalam bentuk dokumen teks. Dokumen ini dapat berupa artikel berita, materi pelajaran dan email.
Semakin banyak dokumen tersedia  maka akan dibutuhkan waktu yang tidak sedikit bagi pengguna internet untuk mencari dokumen yang relevan sesuai dengan kebutuhan. Hal tersebut dikarenakan belum terorganisasinya dokumen tersebut sesuai dengan kategori masing-masing. Oleh karena itu diperlukan suatu metode untuk menyusun dokumen tersebut agar terorganisasi sesuai dengan kategorinya. 
Kategorisasi teks merupakan solusi yang tepat untuk mengelola informasi yang saat ini berkembang dengan sangat cepat dan melimpah. Kategorisasi teks membuat pengelolaan informasi tersebut menjadi efektif dan efisien. Dengan menggunakan kategorisasi teks, dapat dilakukan penyusunan dokumen menurut kategorinya, penyaringan terhadap email spam, melakukan penggalian opini (opinion mining) dan analisis sentimen. Algoritma kategorisasi teks saat ini telah banyak berkembang, antara lain: Support Vector Machines (SVM), Naive Bayessian (NB), pohon keputusan, K-Nearest Neighbour (KNN).
K-Nearest Neighbor adalah salah satu algoritma klasifikasi yang mudah diimplementasikan. Pada penelitian tugas akhir ini akan diimplementasika algoritma K-Nearest Neighbor untuk mengkategorisasikan dokumen teks bahasa Indonesia sehingga dapat diketahui kelebihan dan kelemahan algoritma tersebut dalam melakukan kotegorisasi dokumen.

1.2         Rumusan Masalah
Berdasarkan latar belakang masalah yang telah diuraikan, maka rumusan masalah dalam penulisan tugas akhir ini adalah : “Seberapa besar akurasi algoritma K-Nearest Neighbor terhadap kategorisasi dokumen teks bahasa Indonesia”.

1.3         Maksud dan Tujuan Penelitian
Maksud dari penulisan tugas akhir ini adalah untuk membangun aplikasi pengklasifikasian berdasarkan pengenalan teks (teks mining) menggunakan algoritma K-Nearest Neighbor.
Adapun tujuan yang ingin dicapai dalam penelitian ini yaitu :
1.    Mempercepat proses klasifikasi.
2.    Menghasilkan kategori dokumen yang akurat.
3.    Mempermudah proses pencarian yang berdasarkan kategori.


1.4         Batasan Masalah
Dalam implementasi tugas akhir ini dibatasi oleh beberapa hal, sebagai berikut:
1.    Dataset yang digunakan adalah artikel berita berbahasa Indonesia yang didapatkan dari web dan bersifat offline dan disimpan dalam file berekstensi .txt.
2.    Dokumen teks bahasa Indonesia yang digunakan didapat dari hasil riset research group Laboratorium Data Mining Centre (DMC).
3.    Proses kategorisasi dilakukan dengan menggunakan metode K-Nearest Neighbor.
4.    Feature hanya berupa kata bukan frase.

1.5         Metodologi Penelitian
Metodologi yang dilakukan untuk menyelesaikan permasalahan adalah sebagai berikut:
1.5.1   Metode Pengembangan Sistem
Metode pengembangan perangkat lunak yang akan saya gunakan adalah model prototype. Metode ini memiliki 3 unsur yang perlu diperhatikan di dalam pengembangan perangkat lunak yaitu kebutuhan pelanggan, pembuatan pasar atau market dan uji coba kebutuhan pasar. Secara garis besar dapat terlihat pada gambar berikut ini

http://4.bp.blogspot.com/-k-xfLaWoTSQ/UZmVa6g_9nI/AAAAAAAAAUA/9qW1qP-oWkU/s1600/metode-pengembangan-perangkat-lunak-prototype.JPG
Gambar 1.1 Metode Prototype
Metode Prototype merupakan metode pengembangan perangkat lunak yang memodelkan dari sistem kerja suatu perangkat lunak yang belum lengkap dari pihak user. Para pengembang perangkat lunak melakukan koordinasi dan pertemuan-pertemuan yang secara intensif dengan user guna menampung informasi yang akan dijadikan dasar dalam perancangan perangkat lunak.
Metode pengembangan perangkat lunak ini dimulai dengan pengumpulan kebutuhan. Pendekatan prototyping model digunakan jika pemakai hanya mendefenisikan secara umum dari perangkat lunak tanpa merinci kebutuhan input, pemrosesan dan outputnya, sementara pengembang tidak begitu yakin akan efisiensi algoritma, adaptasi sistem operasi, atau bentuk antarmuka manusia-mesin yang harus diambil. Cakupan aktivitas dari prototyping model terdiri dari :
1.    Mendefinisikan objektif secara keseluruhan dan mengidentifikasi kebutuhan yang sudah diketahui.
2.    Melakukan perancangan secara cepat sebagai dasar untuk membuat prototype.
3.    Menguji coba dan mengevaluasi prototype dan kemudian melakukan penambahan dan perbaikan-perbaikan terhadap prototype yang sudah dibuat.
1.5.2   Metode Pengumpulan Data
a.    Studi litelatur
Melakukan pencarian informasi dan pembelajaran khususnya mengenai algoritma k-nearest neighbor dan stemming porter yang nantinya digunakan sebagai referensi tugas akhir.
b.    Pengumpulan data
Melakukan pencarian dan pengumpulan data, data yang akan digunakan berupa artikel berita bahasa Indonesia yang diambil dari lab DMC (Data Mining Center).
c.    Analisa kebutuhan dan implementasi
Tahap ini dilakukan dengan menganalisa dan merancang kebutuhan perangkat lunak yang dibangun.Sedangkan implementasi dilakukan terhadap hasil analisa dan perancangan kebutuhan perangkat lunak.
d.    Pengujian
Pada tahap ini dilakukan pengujian dan analisa terhadap perangkat lunak yang telah dibangun menggunakan dataset yang telah disediakan, kemudian dilakukan kategorisasi menggunakan tools data mining untuk mengukur performansi yang dihasilkan.
e.    Kesimpulan dan penyusunan laporan.

1.5.3   Teknik Data Mining

1.      Data cleaning (untuk menghilangkan noise data yang tidak konsisten) Data integration (di mana sumber data yang terpecah dapat disatukan)
2.      Data selection (di mana data yang relevan dengan tugas analisis
dikembalikan ke dalam database)
3.      Data transformation (di mana data berubah atau bersatu menjadi bentuk
yang tepat untuk menambang dengan ringkasan performa atau operasi
agresi)
4.      Data mining (proses esensial di mana metode yang intelejen digunakan
untuk mengekstrak pola data)
5.      Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik
yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang
menarik)
6.      Knowledge presentation (di mana gambaran teknik visualisasi dan
pengetahuan digunakan untuk memberikan pengetahuan yang telah
ditambang kpada user).

1.6         Sistematika Penelitian
Laporan Tugas Akhir ini disusun dengan sistematika sebagai berikut :
BAB  I  PENDAHULUAN
Pada bab ini dibahas mengenai latar belakang, perumusan, batasan, dan tujuan penelitian, metode penelitian yang dipakai serta sistematika penulisan laporan.
BAB  II  LANDASAN TEORI
Menjelaskan teori-teori yang relevan dengan masalah yang diteliti, yaitu: dasar teori text mining, text preprocessing, kategorisasi dokumen teks, dan algoritma k-nearest neighbor.
BAB III  ANALISIS DAN PERANCANGAN
Menjelaskan mengenai perancangan sistem, spesifikasi kebutuhan sistem, dan perancangan subsistem.
BAB IV EVALUASI HASIL
Menjelaskan tentang struktur program aplikasi, pengujian program dan hasil yang dicapai
BAB V KESIMPULAN DAN SARAN
Bab ini berisi tentang kesimpulan yang diambil dari hasil penelitian serta  saran-saran untuk pengembangan lebih lanjut.




1 komentar: