BAB I
PENDAHULUAN
A.
Latar Belakang
Menurut Bernard tujuan tes yang
disusun dalam proses evaluasi dapat dikelompokkan dalam dua macam kategori,
yaitu a) kategori birokrasi b) kategori professional. Kategori birokrasi
berusaha mengontrol, memonitor dan memberi sertifikasi terhadap suatu tes yang
digunakan oleh para evaluator. kategori birokrasi ini bertujuan untuk
menentukan fungsi penilaian sumatif, yaitu menentukan hasil akhir dari para
peserta didik yang telah mengikuti suatu program pembelajaran. Sedangkan
kategori professional pada umumnya berkaitan dengan usaha evaluator untuk
mengeksplorasi informasi para peserta didik, di antaranya mencakup 1) pemahaman
dan perkembangan pengetahuan, apakah sudah terjadi pada proses pembelajaran
siswa, 2) apakah tujuan belajar mengajar yang diberikan kepada para siswa telah
dapat dicapai. 3) sudahkah standar realistis pencapaian hasil belajar tetap
terpelihara.
Tes juga dibedakan menjadi dua macam
tipe[1],
yaitu norm-referenced test dan criterion referenced test. Suatu
tes dibuat oleh para evaluator dengan tetap mengikuti jenis baku yang
disepakati, karena setiap tipe tes mempunyai tujuan yang berbeda. Norm-referenced
test misalnya, yang sering disebut Penilain Acuan Normatif (PAN) merupakan
jenis tes untuk mengukur penampilan atau posisi siswa dibanding dengan siswa
lain didalam kelas. Sedangkan Criterion
referenced test yang popular dengan sebutan Penilaian Acuan Patokan (PAP),
merupakan tes yang digunakan untuk mengukur penguasaan atau kemampuan siswa
melalui criteria tertentu yang telah ditetapkan sebelumnya oleh evaluator,
tanpa membandingkan dengan penguasaan atau kemampuan siswa lainnya.
Permasalahan yang sering muncul dari
dua macam tujuan diadakannya proses pengetesan di antaranya ialah bahwa tidak
semua tes yang direncanakan guru atau evaluator jarang mampu mengakomodassi
kedua tujuan tersebut dengan baik. Oleh karena itu, seorang evaluator perlu
memutuskan bagaimana skor tes akan diarahkan. Salah satu metode untuk
melaksanakan hal tersebut adalah dengan melakukan analisis item tes.
Analisis
butir soal atau analisis item dalah identifikasi jawaban benar dan salah tiap
butir soal yang diujikan pada peserta didik. Lewat kerja analisis itu akan
diketahui butir-butir soal mana saja yang dijawab benar oleh peserta tes dan
sebaliknya, butir-butir mana saja juga yang banyak dijawab salah. Berdasarkan
jumlah jawaban benar dan salah oleh para peserta didik itulah kemudian dapat
dihitung indeks tingkat kesulitan tiap butir soal dan hal-hal yang diperlukan.
Alat
tes yang baik didukung oleh butir-butir yang baik, efektif, dapat dipertanggung
jawabkan. Analisis butir soal merupakan analisis hubungan antara skor-skor
butir soal dengan skor keseluruhan, membandingkan jawaban peserta didik
terhadap suatu butir soal dengan jawaban terhadap keseluruhan tes. Tujuan
analisis butir soal adalah membuat tiap butir soal itu konsisten dengan
keseluruhan tes (tuckman, 1975:271), menilai tes sebagai alat pengukuran,
karena suatu alat tes jika tidak diuji, efektivitas pengukuran tidak dapat
ditentukan secara memuaskan (Noll, 1979:207)[2].
B.
Rumusan Masalah
Berdasarkan Latar belakang yang
telah disebutkan diatas penulis merumuskan permasalahan sebagai berikut:
1.
Hal-hal
apasaja yang perlu diperhatikan dalam melakukan analisis butir soal?
2.
Bagaimana
penerapan analisis butir soal terhadap PAN dan PAP?
C.
Tujuan
1.
Untuk
mengetahui hal-hal yang perlu diperhatikan dalam analisis buti soal.
2.
Untuk
mengetahui penerapan analisis butir soal terhadap PAN dan PAP.
BAB II
PEMBAHASAN
A.
Hal-hal yang Perlu di Perhatikan dalam Analisis Butir Tes
1.
Tingkat Kesukaran Soal (Difficulty Index)
Perhitungan tingkat kesukaran soal adalah pengukuran seberapa besar
derajat kesukaran suatu soal. Jika suatu soal memiliki tingkat kesukaran
seimbang (porporsional), maka dapat dikatakan bahwa soal tersebut baik.
Suatu
soal tes hendaknya tidak terlalu sukar dan tidak pula terlalu mudah.
a.
Menghitung
tingkat kesukaran soal bentuk objektif.
Untuk
menghitung tingkat kesukaran soal bentuk objekti dapat digunakan dengan dua
cara, yaitu:
Cara
pertama, menggunakan rumus tingkat kesukaran (TK)
TK =
X 100%
|
Keterangan:
WL =
jumlah peserta didik yang menjawab salah dari kelompok bawah
WH =
jumlah peserta didik yang menjawab soal dari kelompok atas
nL =
jumlah kelompok bawah
nH =
jumlah kelompok atas
sebelum
menggunakan rumus di atas harus ditempuh terlebih dahulu langkah-langkah sebagai
berikut.
1)
Menyusun
lemabar jawaban peserta didik dari skor tertinggi sampai skor terendah.
2)
Mengambil
26% lembar jawaban dari atas yang selanjutnya disebut kelompok atas (Higher
Group), dan 27% lembar jawaban dari bawah yang selanjutnya disebut kelompok bawah
(Lower Group). Sisa sebanyak 46% disisihkan
3)
Membuat
tabel untuk mengetahui jawaban (benar atau salah) dari setiap peserta didik,
baik untuk kelompok atas maupun kelompok bawah. Jika jawaban peserta didik
benar, diberi tanda + (Plus). Sebaliknya jika jawaban pesrta didik salah,
diberi tanda – (Minus).
Contoh:
No.Soal
|
1
|
2
|
3
|
4
|
5
|
6
|
dst
|
1
|
|||||||
2
|
|||||||
3
|
|||||||
4
|
|||||||
5
|
|||||||
Dst.
|
Membuat Tabel seperti berikut:
No. Soal
|
WL
|
WH
|
WL+WH
|
WL-WH
|
1
|
||||
2
|
||||
3
|
||||
4
|
||||
Dst
|
Contoh:
36 orang peserta didik SMP mengikuti ujian akhir semester dalam
mata pelajaran Teknologi Informasi dan Komunikasi. Berdasarkan hasil ujian
tersebut kemudian disusun lembar jawaban peserta didik dari yang mendapat skor tertinggi sampai
dengan skor terendah. Selanjutnya, diambil 27% dari skor tertinggi, yaitu 27% X
36 orang= 9,72=10 orang (dibulatkan). Setelah diketahui jumlah sampel kelompok
atas dan kelompok bawah, kemudian membuat tabel untuk mengetahui jawaban (benar
atau salah) dari setiap peserta didik dalam kelompok tersebut.
b.
Menghitung
tingkat kesukaran untuk soal bentuk uraian.
Cara
menghitung tingkat kesukaran untuk soal bentuk uraian adalah menghitung barapa
persen peserta didik yang gagal menjawab benar atau ada di bawah batas lulus (passing
Grade) utnuk tiap-tiap soal. Untuk menafsirkan tingkat kesukaran soalnya
dapat digunakan kriteria bebagai berikut:
1)
Jika
jumlah peserta didik mencapai 27%, termasuk mudah.
2)
Jika
jumlah peserta didik yang gagal antara 28% smapai dengan 72%, termasuk sedang.
3)
Jika
jumlah peserta didik yang gagal 72% keatas
germasuk sukar
Contoh:
33 orang peserta didik dites dengan 5 soal bentuk uraian. Skor maksimum
ditentukan 10 dan skor minimum 0. Jumlah peserta didik yang memperoleh nilai
0-5=10 orang berarti gagal, nilai 6=12 orang, dan nilai 7-10=11 orang. Jadi
tingkat kesukaran (TK) =
Tingkat
kesukaran 30,3 berada diantara 27 dan 72, berartio soal tersebut termasuk
sedang. Catatan: batas lulus ideal = 6(skala 0-10).
2.
DAYA PEMBEDA (DISCRIMINATING POWER)
Perhitungan daya pembeda adalah
pengukuran sejauh mana suatu butir soal mampu membedakan yang sudah menguasai
kompetensi dengan peserta didik yang belum atau kurang menguasai kompetensi
berdasarkan kriteria tertentu. Untuk menghitung daya pembeda setiap butir soal
dapat digunakan rumus sebagai berikut:
DP =
|
Keterangan:
DP = Daya Pembeda
WL = julah peserta didik yang gagal dari
kelompok bawah
WH = jumlah peserta yang gagal dari kelompok
atas
N = 27% x N
Contoh:
Jumlah peserta
didik ( N=40)
Jumlah sampel (
n= 27%) x 40 = 10,48 = 11 (dibulatkan)
WL = 10
WH = 2
Jadi, daya
pembedanya ( DT = 10 -2
11
=
0,73
Untuk
menginterpretasikan kuefisien daya pembeda tersebut dapat digunakan kriteria
yang dikembangkan oleh Ebel sebagai berikut:
Index
of discrimination Item
evaluation
0,4
and up : very good items
0,30
– 0,39 : Resonably good, but possibly subject to improvement
0,20
– 0,29 : marginal items, usually needing and being subject to improvement
Below
– 0,19 : poor items, to be rejected or improved by revision[3].
3.
Analisis Pengecoh
Pada soal bentuk
pilihan ganda ada alternatif jawaban yang merupakan pengecoh.
Butit soal yang baik, pengecohnya akan dipilih secara merata oleh
peserta didik yang menjawab salah. Sebaliknya, butir soal yang kurang baik,
pengecohnya akan dipilih secara tidak merata. Pengecoh dianggap baik bila
jumlah peserta didik yang memilih pengecoh itu sama atau mendekati jumlah
ideal. Index pengecoh dihitung dengan rumus:[4]
IP =
X 100%
|
Keterangan:
IP =
Index Pengecoh
P =
jumlah peserta didik yang memilih pengecoh
N =
jumlah peserta didik yang ikut tes
B =
jumlah peserta didik yang menjawab benar pada setiap soal
n=
jumlah alternatif jawaban
1 =
bilangan tetap
Catatan: jika semua peserta didik menjawab benar, pada butir soal
tertentu (sesuia kunci jawaban ), maka IP = 0 yang berarti soal tersebt jelek.
Dengan demikian, pengecoh tidak berfungsi.
B. Penerapan Analisis Butir Soal terhadap PAN dan PAP
B.1.
Analisis Item Pada Tes Normatif (PAN)
Dalam mengevaluasi item, minimal ada
dua aspek utama yang perlu dipertimbangkan oleh seorang evaluator. Kedua aspek
utama tersebut, yaitu tingkat kesulitan setiap item dan nilai pembeda atau
diskriminatif item.
1.
Tingkat Kesulitan
Tingkat kesulitan item atau disebut juga indeks kesulitan item
adalah angka yang menunjukkan proporsi siswa yang menjawab betul satu soal yang
dilakukan dengan menggunakan tes objektif. Tingkat kesulitan tes item pada
umumnya ditunjukkan den prosentase siswa yang memeperolah jawaban item benar.
Kesulitan item mengikuti formula seperti berikut:
Pi =
Σ
|
Pi = nilai kesulitan item
Nt = jumlah peserta didik dalam sampel
Xij = skor item i untuk peserta didik j
Semakin tinggi nilai
Pi berarti semakin mudah item atau soal tersebut bagi para siswa yang
dievaluasi. Sebaliknya, semakin nilai Pi berarti semakin sulit item tes bagi
para siswa. Secara empiris, batasan tentang nilai kesulitan ini dapat
ditingkatkan dengan menjadikan total Nt sama dengan jumlah siswa yang telah
menjawab item. Perubahan ini suatu ketika bisa menjadi signifikan, apabila
terjadi pada item-item tertentu yang pada akhir tes banyak yang mengosongkan
atau tidak menjawab. Oleh karena itu, para evaluator perlu hati-hati dan
mengantisipasi kemungkinan diatas, utamanya ketika para evaluator sedang
melakukan uji coba item-item tes yang dimaksud. Menurut Grondlund dan Linn (1990), item kesulitan
untuk tes normative, dapat menggunakan formula berikut:
Item Kesulitan =
x 100%
|
R = jumlah siswa yang
menjawab item benar
T = total siswa yang
mengikuti evaluasi
Contoh:
Dalam kelas bahasa arab, terdapat 24 siswa yang mengikuti tes
dengan salah satu itemnya sebagai berikut:
2.
Daya Beda
Batasan tentang daya beda muncul terutama pada item-item tes yang
disusun secara objektif. Apa yang dimaksud dengan daya beda pada tes pencapaian
hasil belajar, khusunya daya beda yang mengacu pada tes normatif? Daya beda
menurut Bernard(1999) adalah angka atau koefisien yang memberikan informasi
tentang pembeda secara individual, termasuk membedakan antara siswa yang
pencapaiannya tinggi dengan siswa yang pencapaiannya rendah dalam suatu tes
pencapaian hasil belajar.
Daya beda item pada prinsipnya membedakan pada arah positif atau
arah negatif. Daya beda negatif, apabila siswa pada grup atas lebih banyak
jumlahnya, jika dibandingkan siswa dengan grup bawah. Indeks positif,
menunjukkan bahwa item tes memilki arah yang sama dengan total skor yang
merefleksikan pencapaian tujuan yang diinginkan. Sebaliknya, daya beda negatif
berarti item menunjukkan adanya ketidaksesuaian dengan tujuan hasil belajar
yang sudah direncanakan oleh guru.
Daya beda menurut Dariyanto(2005) dan Slameto (2001) merupakan
kemampuan suatu soal atau item dalam membedakan antara siswa yang pandai atau
berhasil dengan siswa yang kurang berhasil atau bodoh. Formula indeks pada
pembeda dapat ditampilkan sebagai berikut:
IP =
|
Mata
pelajaran : Bahasa Arab
1. Bahasa
arabnya ibu guru adalah…..
a. أستاذة
b. أم
c.
أب
d. أستاذ
Kesulitan item = R/T = 18/24 x 100% = 75 %
Indeks Pembeda = 50 %
|
Diket:
IP = Indeks Pembeda Item
Ru = jumlah siswa yang
menjawab benar pada grup atas
R1 = jumlah siswa yang
menjawab benar pada grup bawah
T = total siswa yang
mengikuti tes
Jika itam pada contoh soal
kelas bahasa arab digunakan maka
IP =
=
=
0.50
Indeks pembeda Item = 50 %
Indeks
pembeda suatu tes pada umumnya memilki angka baku yang besarnya 0,40. Hal ini
berarti, Indeks pembeda pada kasus di atas digunakan untuk membedakan yang bisa
menjawab item tes dan yang tidak bisa menjawab dengan benar. Sebagai contoh,
jika suatu item ternyata memiliki IP 50% dan IP baku item besarnya > 0,40, berarti item tes
pada contoh tersebut cukup baik. Hal ini berarti item tes tersebut sesuai
dengan tujuan tes yang telah ditentukan oleh guru
B.2.
Analisis Item Pada Tes Kriterion (PAP)
Item analisis untuk tes criterion yang juga sering disebut PAP,
pada prinsipnya juga melihat setiap item atas dasar tingkat kesulitan dan
indeks pembeda yang dapat di uraikan seperti berikut:
1.
Tingkat Kesulitan
Tingkat kesulitan untuk tes Kriterion, tidak terlalu mendasarkan
pada kemampuan item dalam membedakan antara tinggi dan rendahnya siswa dalam
menjawab soal pada suatu grup kelas. Kesulitan setiap item tes criterion pada
prinsipnya ditentukan oleh hasil belajar yang ingin diukur. Jika tugas dalam
hasil pembelajaran yang ditentukan direncanakan mudah maka tes yang dibuat oleh
seorang Evaluator juga mudah. Sebaliknya, jika tugas dalam hasil pembelajaran
memiliki tingkat kesulitan tinggi maka tes yang dibuat oleh Evaluator juga
direncanakan memiliki tingkat kesulitan tinggi.
Dalam tes yang mengacu pada PAP, tidak ada usaha yang dibuat untuk
mengubah tingkat kesulitan item tanpa melihat tugas dalam proses pembelajaran. Agar
meningkatkan Indeks Pembeda atau mencapai penyebaran skor tes yang baik, formula
baku untuk menentukan kesulitan item dapat diaplikasikan pada tes dengan
penilaian Patokan. Walaupun demikian, hasilnya belum tentu dapat digunakan
untuk memilih item atau memanipulasi item yang ada. Hal ini terjadi karena
hamper semua item pada tes criterion biasanya mempunyai kesulitan tinggi atau
rendah sesuai dengan intruksi tes yang direncanakan.
2.
Indeks Pembeda
Kemampuan item tes untuk mmebedakan antara siswa yang menjawab
benar dalam kelompok tinggi dan siswa yang menjawab benar dalam kelompok rendah
pada umumnya tidak terlalu penting untuk tes yang disusun dengan PAP. Ada
kemungkinan suatu item mempunyai indeks pembeda rendah atau mendekati 0:
Ini
berarti para siswa dalam satu kelas memiliki 2 peluang, yaitu: (a)Semua
menjawab benar, atau sebaliknya (b) semua jawaban salah.
Dalam analisis item dengan PAN, maka item
tersebut harus dibuang, karena tidak memiliki daya pembeda. Sebaliknya, pada
analisis item dengan PAN, item tersebut tidak perlu dibuang. Walaupun tidak
memiliki daya pembeda, item
tersebuttetap memberikan informasi penting, yakni tentang siswa dalam
penampilan hasil pembelajaran di kelas.
Pertanyaan yang perlu dipertimbangkan oleh
seorang evaluator dalam menganalisis item dengan PAP adalah: apakah item-item
test telah benar-benar mengukur pengaruh intruksional atau pengajaran seorang
guru? Untuk menjawan pertanyaan tersebut, seorang guru perlu dianjurkan
perlunya menerapkan prinsip eksperimen semu ( quasi experiment ) di kelas.
Eksperimen semua ini dapat dilakukan, salah satu caranya dengan memberikan tes
yang sama dua kali.
Pertama, pada saat pembelajaran dimulai sebagai hasil pretes; kedua, sesudah
proses pembelajaran berakhir, sebagai hasil hasil post tes. Hasil yang dicapai
adalah dapat diperolehnya indeks sensitifitas pengaruh pengajaran (S) yang
mengikuti formula sebagai berikut.
S =
|
Diket:
S = sensifitas
pengaruh pengajaran
Ra = jumlah
siswa menjawab benar sesudah proses pengajaran
Rb = jumlah
siswa menjawab benara sebelum proses pengajaran
T = total siswa
yang mengikuti kedua proses testing
Indeks sensitifitas merupakan
koefesien atau angaka yang menunjukan selisih antara siswa menjawab benar
sesudah dan sebelum proses pembelajaran dibagi jumlah siswa yang mengikuti dua
tes dalam proses evaluasi.
Contoh:
Seorang guru hendak menerapkan analisis item untuk mendapatkan
nilai sensitifitas pengaruh pengajaran pada sejumlah siswa dalam mata pelajaran
Bahasa Arab. Hasilnya sebagai berikut:
ITEM
|
1
|
2
|
3
|
4
|
5
|
|||||
Pretes = b
Protes = a
|
B
|
a
|
b
|
a
|
B
|
a
|
b
|
a
|
b
|
A
|
Adi
Budi
Cinta
Dedi
Eka
|
-
-
-
-
-
|
+
+
+
+
+
|
+
+
+
+
+
|
+
+
+
+
+
|
-
-
-
-
-
|
-
-
-
-
-
|
+
+
+
+
+
|
-
-
-
-
-
|
-
+
-
-
+
|
+
+
+
-
+
|
Dalam tabel
tersebut,tanda (+) untuk jawaban bener,dan tanda (-) untuk jawaban salah dari
setiap siswa yang namanya tercantum pada kolom pertama. Hasil pretes diberi
tanda (b) dan hasil postes diberi tanda (a). apabila formula sensitivitas
diatas digunakan untuk analisis item dalam satu tes, hasilnya dapat dilihat
seperti dalam tabel diatas. Dari analisis sensitivitas pengajaran dengan
formula diatas, maka akan diper oleh lima kemungkinan hasil seperti berikut:
Item 1 S=
=
1,00 skor ideal karena memiliki pengaruh
sangat baik
Item 2 S=
=
0,00 skor ini sangat mudah, tidak
memilika daya pembeda
Item 3 S=
=
0,0 skor sangat sukar, tidak memiliki
daya pembeda
Item 4 S=
= -1,0
skor ini merusak, karena tidak adanya sensitivitas pengaruh pengajaran
Item 5 S=
= 0,40
skor ini efektif, karena mempunyai nilai sensitivitas 0,40
Item ideal atau sempurna pada tes criterion
menghasilkan indeks 1,00. Dalam implementasi, item nilai indeks dikatakan
efektif pada umumnya mempunyai nilai 0,00 sampai 1,00. Semakin tinggi nilai
positif, dapat diartikan item lebih sensitive terhadap pengaruh pengajaran hasil
belajar. Sebaliknya, item dengan nilai 0,0 dan nilai negatif berarti item tidak
merefleksikan pengaruh pengajaran yang terencana.
BAB III
PENUTUP
A.
Kesimpulan
Hal-hal
yang perlu diperhatikan dalam analisis butir soal adalah 1) tingkat kesulitan,
2) Daya beda,dan 3) Analisis Pengecoh. Dan dalam penerapannya terhadap PAN dan
PAP ditafsirkan Indeks kesulitan item adalah angka yang menunjukkan proporsi
siswa menjawab betul dalam satu soal yang dilakukan dengan menggunakan tes
objektif. Sedangkan Indeks Pembeda
merupakan kemampuan suatu soal atau item dalam membedakan antara siswa yang
pandai atau berhasil dengan siswa yang kurang berhasil atau bodoh.
DAFTAR
PUSTAKA
Sukardi. 2009. Evaluasi Pendidikan Prinsip dan Operasionalnya.
Jakarta: PT Bumi Aksara
Arifin, Zaenal. 2009. Evaluasi Pembelajaran. Bandung: PT
Remaja Rosda Karya
Nurgiyantoro,
Burhan. 2011. Penilaian Pembelajaran
Bahasa. Bandung: PT Remaja Rosda Karya
Tidak ada komentar:
Posting Komentar