View Item 
      •   IPB Repository
      • Dissertations and Theses
      • Master Theses
      • MT - School of Data Science, Mathematic and Informatics
      • View Item
      •   IPB Repository
      • Dissertations and Theses
      • Master Theses
      • MT - School of Data Science, Mathematic and Informatics
      • View Item
      JavaScript is disabled for your browser. Some features of this site may not work without it.

      Kajian Stratified K-Fold Cross Validation pada Image Classification Penyakit Daun Padi dengan Model Berbasis K-Nearest Neighbor

      Thumbnail
      View/Open
      Cover (393.1Kb)
      Fulltext (1.516Mb)
      Lampiran (195.0Kb)
      Date
      2025
      Author
      Rizqi, Tasya Anisah
      Fitrianto, Anwar
      Sadik, Kusman
      Metadata
      Show full item record
      Abstract
      Statistical Machine Learning merupakan metode pembelajaran gabungan dari teknik statistical dan machine learning yang saat ini sedang populer. Klasifikasi merupakan salah satu bagian dari statistical machine learning yang biasa digunakan dalam data science dengan mengelompokkan data secara sistematis ke dalam kelas tertentu berdasarkan kesamaan karakteristik. K-Nearest Neighbor (KNN) merupakan metode pengklasifikasian yang digunakan karena kesederhanaannya serta bekerja cukup mudah dengan kumpulan data multiclass. WKNN merupakan ekstensi sederhana dan kuat dari metode KNN yang mempertimbangkan pengaruh bobot jarak antar tetangga. CDNN merupakan algoritma yang memungkinkan label kelas ditetapkan ke pengujian dengan menghitung centroid di setiap bagian kelompok nearest neighbors dan memindahkan centroid jika data testing masuk ke dalam bagian kelompok. ECDNN merupakan metode yang sederhana, efisien, dan menguntungkan homogenitas tetangga terdekat dengan menggabungkan KNN dan CDNN dalam pengambilan keputusan hasil klasifikasi. Stratified K-Fold Cross Validation (SKCV) merupakan bagian dari CV yang dapat memastikan bahwa frekuensi kelas relatif dipertahankan secara efektif saat menggunakan stratified sampling dibandingkan random sampling. Hal ini menjamin bahwa tidak ada data training maupun data testing yang kurang terwakili, sehingga menghasilkan prediksi kinerja yang lebih akurat. Suatu gambar tidak dapat diproses oleh komputer secara langsung sehingga suatu gambar analog harus diubah terlebih dahulu menjadi citra digital. Pengolahan citra digital melibatkan persepsi visual dan mempunyai ciri-ciri data input dan informasi output dalam bentuk file gambar digital. Padi merupakan tanaman budidaya yang menjadi sumber karbohidrat dengan kandungan nutrisi bagi sebagian penduduk dunia terutama Indonesia. Peranan petani cukup penting dalam budidaya tanaman padi untuk memenuhi kebutuhan pangan padi di Indonesia. Tanaman padi memiliki kendala seperti penyakit yang menjadi penyebab utama terjadinya penurunan produksi sehingga merugikan para petani. Pengklasifikasian perlu dilakukan untuk mengatasi kendala penyakit pada tanaman padi sehingga kestabilan hasil panen padi dapat dijaga oleh para petani. Klasifikasi data referensi memperoleh nilai akurasi tertinggi pada klasifikasi ECDNN menggunakan SKCV dengan ekstraksi citra VGG16 yaitu sebesar 90,10%. Klasifikasi penyakit daun padi juga memperoleh nilai akurasi tertinggi pada klasifikasi ECDNN menggunakan SKCV dengan ekstraksi citra VGG16 yaitu sebesar 81,25%. Pada evaluasi hasil analisis klasifikasi penyakit daun padi, diperoleh perbedaan yang signifikan pada keempat metode berdasarkan accuracy dengan metode ECDNN yang paling unggul secara statistik pada taraf signifikansi 5%. Oleh karena itu, petani dapat memanfaatkan hasil analisis klasifikasi penyakit daun padi dengan akurasi 81,25% sehingga produksi padi di Indonesia dapat meningkat.
       
      Statistical Machine Learning is a currently popular method combining statistical and machine learning techniques. Classification is a subset of statistical machine learning commonly used in data science by systematically grouping data into specific classes based on similar characteristics. K-Nearest Neighbor (KNN) is a classification method used due to its simplicity and its ability to work easily with multiclass datasets. WKNN is a simple and powerful extension of the KNN method that considers the weighted influence of distance between neighbors. CDNN is an algorithm that allows class labels to be assigned to tests by calculating centroids in each subset of the nearest neighbors and moving the centroids if the test data falls into the subset. ECDNN is a simple, efficient method that benefits from the homogeneity of nearest neighbors by combining KNN and CDNN in making classification decisions. Stratified K-Fold Cross Validation (SKCV) is a subset of CV that ensures that relative class frequencies are effectively maintained when using stratified sampling compared to random sampling. This ensures that neither training nor testing data are underrepresented, resulting in more accurate performance predictions. An image cannot be processed directly by a computer, so an analog image must first be converted into a digital image. Digital image processing involves visual perception and has the characteristics of input data and output information in the form of digital image files. Rice is a cultivated plant that is a source of carbohydrates with nutritional content for a portion of the world's population, especially Indonesia. The role of farmers is quite important in cultivating rice plants to meet rice food needs in Indonesia. Rice plants have obstacles such as diseases that are the main cause of decreased production, thus harming farmers. Classification is necessary to overcome disease constraints in rice plants so that farmers can maintain stable rice yields. The reference data classification obtained the highest accuracy value in the ECDNN classification using SKCV with VGG16 image extraction, which was 90.10%. The classification of rice leaf diseases also obtained the highest accuracy value in the ECDNN classification using SKCV with VGG16 image extraction, which was 81.25%. In the evaluation of the results of the rice leaf disease classification analysis, significant differences were obtained in the four methods based on accuracy with the ECDNN method being the most statistically superior at a significance level of 5%. Therefore, farmers can utilize the results of the rice leaf disease classification analysis with an accuracy of 81.25% so that rice production in Indonesia can increase.
       
      URI
      http://repository.ipb.ac.id/handle/123456789/171674
      Collections
      • MT - School of Data Science, Mathematic and Informatics [78]

      Copyright © 2020 Library of IPB University
      All rights reserved
      Contact Us | Send Feedback
      Indonesia DSpace Group 
      IPB University Scientific Repository
      UIN Syarif Hidayatullah Institutional Repository
      Universitas Jember Digital Repository
        

       

      Browse

      All of IPB RepositoryCollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

      My Account

      Login

      Application

      google store

      Copyright © 2020 Library of IPB University
      All rights reserved
      Contact Us | Send Feedback
      Indonesia DSpace Group 
      IPB University Scientific Repository
      UIN Syarif Hidayatullah Institutional Repository
      Universitas Jember Digital Repository