Pendeteksian Pencilan pada Data Berdistribusi Miring Univariat Menggunakan Pendekatan Modifikasi Sequential Fences

Said, Ahmad Zaky

dc.contributor.advisor	Fitrianto, Anwar
dc.contributor.advisor	Erfiani, Erfiani
dc.contributor.author	Said, Ahmad Zaky
dc.date.accessioned	2022-04-28T03:18:57Z
dc.date.available	2022-04-28T03:18:57Z
dc.date.issued	2022
dc.identifier.uri	http://repository.ipb.ac.id/handle/123456789/111693
dc.description.abstract	Boxplot merupakan salah satu metode pendeteksian pencilan yang paling populer. Pada metode boxplot terdapat perhitungan pagar pembatas, nilai suatu amatan yang terdapat di luar pagar pembatas inilah yang disebut sebagai pencilan. Salah satu kekurangan pada boxplot adalah menggunakan satu kriteria dalam pembentukan pagar untuk semua ukuran contoh. Hal ini dapat menyebabkan pencilan terabaikan pada ukuran contoh yang kecil, dan pada ukuran contoh yang besar dapat mengakibatkan misklasifikasi amatan yang seharusnya bukan pencilan menjadi pencilan. Kekurangan dari metode boxplot ini diperbaiki oleh sequential fences yang merupakan metode pendeteksian pencilan dengan menggunakan pagar pembatas yang dilakukan secara bertahap dan menyesuaikan dengan jumlah contoh amatan. Metode ini sangat baik digunakan pada sebaran normal atau menyerupai normal (simetris), tetapi muncul masalah pada data berdistribusi miring (non-simetris). Penelitian ini memodifikasi sequential fences dengan menambahkan ukuran kemiringan data skewness dan medcouple agar dapat mendeteksi pencilan tidak hanya pada sebaran simetris tetapi juga non-simetris yang dapat disesuaikan dengan jumlah ukuran contoh. Data yang digunakan merupakan data riil dan data hasil bangkitan. Dua data riil yang digunakan adalah data Newcomb dan data long jump. Data Newcomb merupakan seri ketiga dari pengukuran waktu perjalanan cahaya yang dilakukan oleh Newcomb dari 24 July 1882 sampai 5 September 1882 (Stigler 1977). Data long jump merupakan jarak lompatan dalam meter dari empat puluh atlit yang sukses melakukan lompatan legal pada babak kualifikasi lompat jauh pria olimpiade 2012. Data riil yang digunakan bertujuan untuk menggambarkan kegunaan dari hasil modifikasi sequential fences untuk mendeteksi beberapa pencilan pada data berdistribusi simetris maupun non-simetris. Hasil modifikasi sequential fences yang digunakan adalah adjusted skewed sequential fences (ASSF) dan modified skewed sequential fences (MSSF). Beberapa alat pendeteksi pencilan yang digunakan sebagai pembanding adalah Tukey boxplot, Schwertman Silva sequential fences (SSSF), Carter Schwertman Kiser sequential fences (CSKSF) dan Wong Fitrianto sequential fences (WFSF). Data hasil bangkitan digunakan pada proses simulasi. Sebaran data yang akan dibangkitkan adalah normal baku, Chi-square (2), Chi-square (4), dan Chi-square (8). Pemilihan sebaran Chi-square sebagai sebaran yang mewakilkan data berdistribusi miring. Masing-masing dari sebaran ini akan dibangkitkan dengan jumlah contoh (n) sebanyak 20, 50, dan 100. Setiap jumlah contoh, masing-masing akan disisipkan sebanyak 0, 1, 2, 3 amatan terkontaminasi (pencilan) yang telah ditentukan. Data bangkitan ini akan dilakukan sebanyak 10.000 kali pengulangan. Proses simulasi menghasilkan outside rate untuk masing-masing metode pendeteksian pencilan dan akan dibandingkan dengan nominal outside rate (r). Nilai yang paling mendekati r merupakan nilai terbaik pada misklasifikasi amatan sebagai pencilan sedangkan yang paling mendekati satu merupakan nilai terbaik pada amatan terkontaminasi yang berhasil diidentifikasi sebagai pencilan. Penggunaan modifikasi sequential fences pada data long jump (non-simetris) menghasilkan kesimpulan bahwa SSSF dan CSKSF tidak berhasil melakukan penyesuaian pada data berdsitribusi miring, hanya tiga metode modifikasi (WFSF, ASSF, dan MSSF) saja yang masing-masing berhasil melakukan penyesuaian pagar pada sisi data yang miring. Modifikasi ini menghasilkan pagar bawah yang menyesuaikan dengan kemiringan data long jump, sehingga ketiga metode tersebut berhasil mengidentifikasi amatan tidak terkontaminasi sebagai bukan pencilan. Pada pagar atas hanya WFSF dan MSSF yang berhasil mengidentifikasi amatan tidak terkontaminasi sebagai bukan pencilan sedangkan ASSF tidak. Pada data berdistribusi miring yang diwakili oleh sebaran data Chi-square berderajat bebas delapan, enam, dan dua, dapat ditarik kesimpulan bahwa SSFF dan CSKSF tidak tepat digunakan untuk mengidentifikasi pencilan pada data berdistribusi miring. ASSF dan WFSF masih belum konsisten karena pada sisi data yang miring memberikan swamping yang bagus tetapi kurang bagus dalam masking, dan pada sisi data yang tidak miring memberikan swamping yang cukup buruk. Hal ini diduga karena pada metode ASSF dan WFSF terlalu peka terhadap kemiringan data dan mengabaikan pada sisi sebaliknya, sehingga pembentukan pagar akan condong terhadap sisi yang miring tetapi sisi sebaliknya terabaikan. Modifikasi metode sequential fences yang paling konsisten dalam mengidentifikasi pencilan pada data berdistribusi miring adalah MSSF. Secara umum, MSSF memberikan swamping yang konsisten pada kedua sisi data, tetapi memiliki kekurangan pada masking untuk pencilan pertama (terluar). Jika pengidentifikasian untuk beberapa pencilan pada metode sequential fences iterasi akan dihentikan pada saat tidak ada observasi di luar pagar pertama, maka dari hasil penelitian ini akan lebih bijak apabila iterasi terus dilanjutkan sampai pagar kedua. Masking pada pagar kedua memberikan hasil yang lebih baik.	id
dc.description.abstract	Boxplot is one of the most popular for outliers detection method. In the boxplot method there are fences calculation, the value of an observation that is outside the fence is called an outlier. One of the lack of boxplot is that it uses one criterion in the formation of the fences for all sample sizes, this cause outliers to be ignored in small sample size, and misclassification of observations that should not be outliers in big sample size. The lack of this boxplot method was corrected by sequential fences. Sequential fences is a method of detecting outliers by using fences with sequential procedure that adjusts to the samples sizes. This method is very good for normal distribution or approximately normal (symmetric), but problems arise in data with skewed distribution (non-symmetric). This study modifies sequential fences by adding skewness and medcouple in order to detect outliers not only in symmetrical but also non-symmetrical distributions that can be adjusted to the sample sizes. The data used for this study are real data and generated data. Two real data that was used are Newcomb data and long jump data. Newcomb data is the third series of time measurements of light travel conducted by Newcomb from 24 July 1882 to 5 September 1882 Stigler (1977) while the long jump data is the distance in meters from forty athletes who successfully made legal jumps in the men's long jump qualifying round on Olympics 2012. The real data aims to illustrate the usefulness of the modified sequential fences to detect some outliers in symmetric and non-symmetric distributed data. The modified sequential fences used are adjusted skewed sequential fences (ASSF) and modified skewed sequential fences (MSSF). Some of the outlier detection tools used as comparisons are Tukey boxplot, Schwertman Silva sequential fences (SSSF), Carter Schwertman Kiser sequential fences (CSKSF), and Wong Fitrianto sequential fences (WFSF). The generated data is used in the simulation process. The distribution of the data to be generated was standard normal, Chi-square (2), Chi-square (4), and Chi-square (8). The selection of the Chi-square distribution which is represents as the skewed data. Each of these distributions will be generated with the number of samples (n) as many as 20, 50, and 100. Each number of samples will be inserted as many as 0, 1, 2, 3 contaminated observations (outliers) that have been determined. This generation data is carried out for 10,000 times in a row. The simulation process generates outside rate for each outlier detection method and will be compared with nominal outside rate (r). The value closest to r represents as the best value in the misclassification of observations as outliers while the closest to one represents as the best value in the correctly identified as outliers. The use of modified sequential fences for long jump data (non-symmetrical) results in the conclusion that SSSF and CSKSF did not succeed in adjusting the data with skewed distribution, only three modification methods (WFSF, ASSF, and MSSF) each succeeded in adjusting the fence on skewed side of the data. This modification produces a lower fences that adjusts to the slope of the long jump data, so that the three methods successfully identify uncontaminated observations as non-outliers. On the upper fence, only WFSF and MSSF were able to identify uncontaminated observations as non-outliers, while ASSF did not. On skewed data that is represented by Chi-square distribution with degrees of freedom eight, six, and two, it can be concluded that SSFF and CSKSF are not appropriate to be used to identify outliers in skewed data. In general, ASSF and WFSF are still inconsistent because on the skewed data side, both give good swamping but not good at masking, and on the non-skewed data side both give pretty bad swamping. This is presumably because the ASSF and WFSF methods are too sensitive to the slope of the data and ignore the other side, so that the fences will be skewed towards the sloping side but the other side is neglected. The most consistent modification of the sequential fences method in identifying outliers in skewed data is MSSF. In general, MSSF provides consistent swamping on both sides of the data, but lacks masking for the first (outer) outlier. If the identification of multiple outliers in the sequential fences iteration method will be stopped when there are no observations outside the first fence, then in this study it would be wiser if the iteration was continued until the second fence because masking on the second fence gave better results.	id
dc.language.iso	id	id
dc.publisher	IPB University	id
dc.title	Pendeteksian Pencilan pada Data Berdistribusi Miring Univariat Menggunakan Pendekatan Modifikasi Sequential Fences	id
dc.title.alternative	Outliers Detection in Univariate Skewed Distribution Using Modified Sequential Fences Approach	id
dc.type	Thesis	id
dc.subject.keyword	boxplot	id
dc.subject.keyword	medcouple	id
dc.subject.keyword	pencilan	id
dc.subject.keyword	skewness	id
dc.subject.keyword	sequential fences	id

Files in this item

Name:: Cover, Lembar Pengesahan, Prakata, ...
Size:: 2.983Mb
Format:: PDF
Description:: Cover

View/Open

Name:: G151190256_Ahmad Zaky Said.pdf
Size:: 2.984Mb
Format:: PDF
Description:: Fullteks

View/Open

Name:: Lampiran.pdf
Size:: 2.985Mb
Format:: PDF
Description:: Lampiran

View/Open

This item appears in the following Collection(s)

MT - Mathematics and Natural Science [3984]

Show simple item record