BAB
I
PENDAHULUAN
1.1
Latar
Belakang
Perkembangan
teknologi informasi yang up to date
memungkinkan ketersediaan informasi diinternet yang sangat melimpah. Informasi
tersebut terus bertambah setiap waktu dengan adanya tuntutan arus informasi
cepat yang dibutuhkan oleh masyarakat. Salah satu informasi yang tersedia dalam
internet adalah informasi dalam bentuk dokumen teks. Dokumen ini dapat berupa
artikel berita, materi pelajaran dan email.
Semakin
banyak dokumen tersedia maka akan
dibutuhkan waktu yang tidak sedikit bagi pengguna internet untuk mencari
dokumen yang relevan sesuai dengan kebutuhan. Hal tersebut dikarenakan belum
terorganisasinya dokumen tersebut sesuai dengan kategori masing-masing. Oleh
karena itu diperlukan suatu metode untuk menyusun dokumen tersebut agar
terorganisasi sesuai dengan kategorinya.
Kategorisasi
teks merupakan solusi yang tepat untuk mengelola informasi yang saat ini
berkembang dengan sangat cepat dan melimpah. Kategorisasi teks membuat
pengelolaan informasi tersebut menjadi efektif dan efisien. Dengan menggunakan
kategorisasi teks, dapat dilakukan penyusunan dokumen menurut kategorinya, penyaringan
terhadap email spam, melakukan penggalian opini (opinion mining) dan
analisis sentimen. Algoritma kategorisasi teks saat ini telah banyak
berkembang, antara lain: Support Vector Machines (SVM), Naive
Bayessian (NB), pohon keputusan, K-Nearest Neighbour (KNN).
K-Nearest
Neighbor adalah salah satu algoritma klasifikasi yang mudah diimplementasikan.
Pada penelitian tugas akhir ini akan diimplementasika algoritma K-Nearest
Neighbor untuk mengkategorisasikan dokumen teks bahasa Indonesia sehingga dapat
diketahui kelebihan dan kelemahan algoritma tersebut dalam melakukan
kotegorisasi dokumen.
1.2
Rumusan
Masalah
Berdasarkan latar belakang masalah yang telah diuraikan, maka
rumusan masalah dalam penulisan tugas akhir ini adalah : “Seberapa besar
akurasi algoritma K-Nearest Neighbor terhadap kategorisasi dokumen teks bahasa
Indonesia”.
1.3
Maksud
dan Tujuan Penelitian
Maksud dari penulisan tugas akhir ini adalah untuk membangun
aplikasi pengklasifikasian berdasarkan pengenalan teks (teks mining)
menggunakan algoritma K-Nearest Neighbor.
Adapun
tujuan yang ingin dicapai dalam penelitian ini yaitu :
1. Mempercepat
proses klasifikasi.
2. Menghasilkan
kategori dokumen yang akurat.
3. Mempermudah
proses pencarian yang berdasarkan kategori.
1.4
Batasan
Masalah
Dalam implementasi tugas akhir ini dibatasi oleh
beberapa hal, sebagai berikut:
1. Dataset
yang digunakan adalah artikel berita berbahasa Indonesia yang didapatkan dari
web dan bersifat offline dan disimpan dalam file berekstensi .txt.
2.
Dokumen teks bahasa Indonesia yang
digunakan didapat dari hasil riset research group Laboratorium Data Mining
Centre (DMC).
3.
Proses kategorisasi dilakukan dengan
menggunakan metode K-Nearest Neighbor.
4.
Feature hanya berupa kata bukan frase.
1.5
Metodologi
Penelitian
Metodologi yang dilakukan untuk menyelesaikan
permasalahan adalah sebagai berikut:
1.5.1 Metode Pengembangan Sistem
Metode pengembangan perangkat lunak yang akan saya gunakan adalah model
prototype. Metode ini memiliki 3 unsur yang perlu diperhatikan di dalam pengembangan
perangkat lunak yaitu kebutuhan pelanggan, pembuatan pasar atau market
dan uji coba kebutuhan pasar. Secara garis besar dapat terlihat pada gambar berikut
ini
Gambar
1.1 Metode Prototype
Metode
Prototype merupakan metode pengembangan perangkat lunak yang memodelkan dari sistem
kerja suatu perangkat lunak
yang belum lengkap dari pihak user. Para pengembang perangkat lunak melakukan koordinasi dan pertemuan-pertemuan
yang secara intensif dengan user guna menampung informasi yang akan dijadikan
dasar dalam perancangan perangkat lunak.
Metode pengembangan perangkat lunak ini dimulai dengan pengumpulan
kebutuhan. Pendekatan prototyping model digunakan jika pemakai hanya
mendefenisikan secara umum dari perangkat
lunak tanpa merinci kebutuhan input, pemrosesan dan outputnya, sementara
pengembang tidak begitu yakin akan efisiensi algoritma, adaptasi sistem
operasi, atau bentuk antarmuka manusia-mesin yang harus diambil. Cakupan
aktivitas dari prototyping model terdiri dari :
1. Mendefinisikan objektif secara
keseluruhan dan mengidentifikasi kebutuhan yang sudah diketahui.
2. Melakukan perancangan secara cepat
sebagai dasar untuk membuat prototype.
3. Menguji coba dan mengevaluasi
prototype dan kemudian melakukan penambahan dan perbaikan-perbaikan terhadap
prototype yang sudah dibuat.
1.5.2 Metode Pengumpulan Data
a.
Studi
litelatur
Melakukan pencarian informasi dan
pembelajaran khususnya mengenai algoritma k-nearest neighbor dan stemming porter yang nantinya digunakan sebagai referensi tugas akhir.
b.
Pengumpulan
data
Melakukan pencarian dan pengumpulan
data, data yang akan digunakan berupa artikel berita bahasa Indonesia yang
diambil dari lab DMC (Data Mining Center).
c.
Analisa
kebutuhan dan implementasi
Tahap ini dilakukan dengan menganalisa
dan merancang kebutuhan perangkat lunak yang dibangun.Sedangkan implementasi
dilakukan terhadap hasil analisa dan perancangan kebutuhan perangkat lunak.
d.
Pengujian
Pada tahap ini dilakukan pengujian dan
analisa terhadap perangkat lunak yang telah dibangun menggunakan dataset yang
telah disediakan, kemudian dilakukan kategorisasi menggunakan tools data
mining untuk mengukur performansi yang dihasilkan.
e.
Kesimpulan
dan penyusunan laporan.
1.5.3 Teknik Data Mining
1.
Data cleaning (untuk menghilangkan noise
data yang tidak konsisten) Data integration (di mana sumber data yang terpecah
dapat disatukan)
2.
Data selection (di mana data yang
relevan dengan tugas analisis
dikembalikan ke dalam database)
dikembalikan ke dalam database)
3.
Data transformation (di mana data
berubah atau bersatu menjadi bentuk
yang tepat untuk menambang dengan ringkasan performa atau operasi
agresi)
yang tepat untuk menambang dengan ringkasan performa atau operasi
agresi)
4.
Data mining (proses esensial di mana
metode yang intelejen digunakan
untuk mengekstrak pola data)
untuk mengekstrak pola data)
5.
Pattern evolution (untuk
mengidentifikasi pola yang benar-benar menarik
yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang
menarik)
yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang
menarik)
6.
Knowledge presentation (di mana gambaran
teknik visualisasi dan
pengetahuan digunakan untuk memberikan pengetahuan yang telah
ditambang kpada user).
pengetahuan digunakan untuk memberikan pengetahuan yang telah
ditambang kpada user).
1.6
Sistematika
Penelitian
Laporan
Tugas Akhir ini disusun dengan sistematika sebagai berikut :
BAB I
PENDAHULUAN
Pada bab
ini dibahas mengenai latar belakang, perumusan, batasan, dan tujuan penelitian,
metode penelitian yang dipakai serta sistematika penulisan laporan.
BAB II
LANDASAN TEORI
Menjelaskan teori-teori yang relevan dengan masalah yang
diteliti, yaitu: dasar teori text mining, text
preprocessing, kategorisasi dokumen teks, dan algoritma k-nearest neighbor.
BAB
III ANALISIS DAN PERANCANGAN
Menjelaskan mengenai perancangan sistem, spesifikasi kebutuhan
sistem, dan perancangan subsistem.
BAB
IV EVALUASI HASIL
Menjelaskan tentang struktur program aplikasi, pengujian
program dan hasil yang dicapai
BAB V KESIMPULAN DAN SARAN
Bab ini berisi tentang kesimpulan yang diambil dari hasil penelitian serta
saran-saran untuk pengembangan lebih lanjut.