Object retrieval in video using feature quantization of scale Invariant Feature Transform (SIFT)
temu kembali objek di dalam video menggunakan kuantisasi fitur scale Invariant Feature Transform (SIFT)
Abstract
Identification of objects in an image/video database is becoming a hot issue and very interesting to investigate because of the emergence of visual objects that may highly vary along with the difference in viewpoint and lighting. Extraction of objects, characters, and scenes in a video is performed by counting descriptors which are the occurrence frequencies of spatial configurations in a frame. These descriptors are calculated on all frames involved in the video. Bag of Words (BoW) model represents images as orderless distributions of local features that are extracted by using Scale Invariance Feature Transform (SIFT) method. In order to do the retrieval process, we deploy a method of Vector Space Model (VSM) which calculates query and documents similarity. The analogy with text retrieval is in the implementation where matches on descriptors are pre-computed (using vector quantization), then inverted file systems and document rankings are employed. The result of the research shows that average precision value for object retrieval is lower compared with the average precision for the frame retrieval. Average precision for object retrieval reaches 54%, while average precision for frame retrieval reaches 77%. Identifikasi objek di dalam database gambar saat ini sudah semakin berkembang dan menarik untuk dikaji karena kemunculan objek visual akan sangat bervariasi seiring dengan adanya perbedaan sudut pandang serta pencahayaan. Ekstraksi objek, karakter dan scenes di dalam sebuah video dilakukan dengan menghitung frekuensi kemunculan konfigurasi spasial di dalam frame. Dengan menggunakan pendekatan seperti temu kembali teks, konfigurasi deskriptor dapat direpresentasikan ke dalam sebuah Bag of Words (BoW), dimana deskriptor yang berhasil diekstraksi dari setiap frame dikuantifikasi ke dalam histogram “kata visual” dengan menggunakan teknik cluster k-means. Metode Vector Space Model (VSM) digunakan untuk mengetahui kedekatan kueri dengan dokumen/frame yang dimaksudkan. Teknik ini menghitung sudut yang terbentuk oleh vektor kueri dengan vektor tiap dokumen. Tujuan penelitian ini adalah untuk menemukembalikan objek yang spesifik pada video dengan menggunakan analogi temu kembali teks dan mengimplementasi metode Bag of Words (BoW) dan Vector Space Model (VSM) pada temu kembali objek di dalam cuplikan adegan video berdasarkan fitur Scale Invariant Feature Transform (SIFT). Penelitian ini diharapkan dapat menjadi dasar perancangan sistem temu kembali video berbasis fitur SIFT dan sebagai salah satu metode untuk pengembangan aplikasi yang menggunakan media video, seperti dalam pengembangan resensi film, pencocokan adegan dan identifikasi objek pada video. Objek penelitian adalah cuplikan video dengan format *.mpeg dengan resolusi 270×480 piksel. Ekstraksi fitur video dilakukan dengan menggunakan metode SIFT. Kemudian kuantifikasi fitur SIFT dilakukan dengan menggunakan teknik cluster k-means dan kueri yang diberikan dapat berbasis citra atau cuplikan frame video tersebut.