Make your own free website on Tripod.com

Muhammad Nursalam

psikometri

Home
artikel agama
Perkenalan
psikometri
Artikel Populer
Foto Keluarga
Populer
Info
Biografi
Artikel Pendidikan
Cerita Lucu
Teknologi

picturea.jpg

ANALISA BUTIR TES MENGGUNAKAN PROGRAM ITEMAN

 

Oleh

Muhammad Nursalam

Jurusan Psikometri Universitas Indonesia

Pengajar pada MTsN Model Kuripan-NTB

 

Pendahuluan

Proses belajar mengajar di sekolah,  pada dasarnya adalah suatu proses komunikasi antara guru disatu pihak dan siswa di pihak lain. Bahkan perkembangannya tidak cuma itu, juga komunikasi antara siswa dan siswa lain, sehingga terjalin hubungan yang harmonis untuk mencapai tujuan yang ingin dicapai secara bersama. Salah satu tujuan yang hendak dicapai adalah bagaimana mata pelajaran dapat disampaikan dan diterima oleh siswa dengan baik. Oleh karena itu, untuk mengetahui berjalannya proses komunikasi tersebut diperlukan evaluasi.

 

Tiga tugas pokok utama seorang guru sebagaimana yang diamanatkan oleh suatu kurikulum adalah mendesain proses pembelajaran, melaksanakan proses pembelajaran dan mengevaluasi proses pembelajaran. Dalam proses pembelajaran di sekolah khususnya di dalam kelas, guru adalah pihak yang paling bertanggungjawab atas hasil yang dicapai. Oleh karena itu, guru dibekali dengan cara atau teknik evaluasi untuk menguji sejauhmana target yang dicanangkan telah tercapai (Arikunto,2003)

 

Akan tetapi kenyataan yang dijumpai tidak sedikit guru yang melaksanakan proses belajar mengajar (PBM) tidak mengakhirinya dengan proses evaluasi yang baik. sehingga tujuan evaluasi untuk megukur tingkat daya serap siswa pada mata pelajaran tidak dapat dipantau. Selanjutnya perbaikan desain pengajaran dan proses belajar mengajaran sebagai feed back tidak dapat diperoleh akibat dari evaluasi yang tidak dirancang dan dinalisa dangan baik pula.

 

Disadari bahwa melakukan evaluasi yang baik dengan membuat perangkat tes yang reliabel dan valid membutuhkan pengetahuan yang cukup. Terlebih lagi untuk meng-analisa hasil yang diperoleh dari sebuah tes hasil belajar, selain membutuhkan pengetahuan dan juga membutuhkan waktu yang cukup untuk mengerjakannya. Akan tetapi, perkembangan terakhir, analisa tes tidak lagi membutuhkan waktu yang lama dan berbelit-belit, yaitu dengan menggunakan alat bantu komputer dengan program ITEMAN. Oleh karena itu, dalam tulisan ini penulis ingin menguraikan salah satu teknik analisa tes hasil belajar siswa dengan bantuan Program ITEMAN

 

Analisa Butir soal dengan menggunakan Program ITEMAN

 

Analisa Butir Soal

Pada dasarnya ada dua macam karakteristik yang dapat ditinjau dari analisi butir soal secara empirik, yaitu tingkat kesukaran soal dan daya beda. Khusus untuk soal pilihan ganda diperlukan dua analisa lain yaitu peluang untuk menebak / menjawab soal dengan baik dan pilihan jawaban sudah berfungsi dengan baik ( jawaban dan distraktor-nya).

 

Tingkat kesukaran soal, adalah peluang untuk menjawab benar pada suatu soal pada tingkat kemampuan tertentu. Secara teoritik dikatakan bahwa siswa yang memiliki kemampuan yang lebih tinggi atau yang lebih menguasai materi pelajaran, peluang untuk menjawab benar pada suatu soal juga tinggi dibandingkan dengan siswa yang kurang menguasai mata pelajaran tersebut. Jadi jika suatu soal dapat dijawab benar oleh semua tingkatan siswa, maka dapat dikatakan bahwa soal tersebut mudah. Demikian juga sebaliknya, jika soal tersebut tidak bisa dijawab oleh seluruh siswa maka dikatakan bahwa soal tersebut sukar. Untuk menghitung tingkat kesukaran atau tingkat kemudahan dapat menggunakan rumus

 

            K = Jumlah siswa yang menjawab betul

                   Jumlah siswa yang mengikuti tes

 

Untuk mengukur tingkat kesukaran soal dapat di gunakan ketentuan berikut (tim instruktur matematika, 1983)

            Jika                  K                   0,71     berarti mudah

            Jika      0,30 ≤  K                   0,70     berarti sedang

            Jika                  K                   0,30     berarti sukar

Sedangkan menurut aturan Nitko (1983) soal yang diterima adalah terletak pada rentang 0,30 sampai dengan 0,70. Sedangkan 0,10 s/d 0,29 atau 0,70 s/d 0,90 soal tersebut harus direvisi dan kurang dari 0,10 dan lebih dari 0,90 soal harus ditolak.

                       

Daya beda, adalah kemampuan suatu soal atau butir soal untuk membedakan siswa yang berada pada tingkatan mampu menguasai materi pelajaran dengan siswa yang kurang mampu menguasai pelajaran. Artinya semakin baik soal tersebut mampu membedakan siswa yangmampu dengan yang tidak mampu menguasai pelajaran, maka semakin baik daya bedanya. Cara yang paling sederhana dalam menentukan daya beda suatu soal adalah dengan cara jumlah siswa golongan mampu/atas menjawab benar butir soal dikurangi dengan jumlah siswa yang kurang/bawah menjawab benar butir soal tersebut kemudian dibagi jumlah siswa tiap kelompok. Untuk menaksir daya beda dapat menggunakan petunjuk dibawah ini:

 

            Jika                  daya beda                 0,71     berarti kuat

            Jika     0,30   daya beda                  0,70     berarti sedang

            Jika                  daya beda                  0,30     berarti lemah

 

Antara tingkat kesukaran dan daya beda item memiliki hubungan yaitu tingkat kesukaran berpengaruh langsung pada daya beda item. Jika semua peserta tes memilih benar pada jawaban ( P=1), atau jika semua peserta tes menjawab salah pada suatu item tes (P=0) maka soal tidak dapat digunakan untuk membedakan kemampuan pesrta tes. Di bawah ini diberikan sebuah tabel hubungan tingkat kesukaran dan daya beda item. Tabel dibawah menunjukan bahwa dengan tingkat kesukaran P = 0,50 maka akan diperoleh daya beda maksimum D = 1,00. hal ini berarti soal dengan tingkat kesukaran 0,50 menjadi soal yang memiliki tingkat kesukaran yang terbaik.


 

Tabel

Nilai maksimum daya beda (D) sebagai fungsi kesukaran (P)

 

 

Nilai P

D maksimum

1,00

0,00

0,90

0,20

0,80

0,40

0,70

0,60

0,60

0,80

0,50

1,00

0,40

0,80

0,30

0,60

0,20

0,40

0,10

0,20

0,00

0,00

 

1,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,80

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,60

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,40

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,00

 

 

 

 

 

 

 

 

 

 

 

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

0,1

 

 

Tambahan untuk soal pilihan ganda, ada kemungkinan peluang untuk menebak jawaban, juga dapat dideteksi. Misalnya untuk lima pilihan jawaban, peluang untuk menebak pilihan jawaban adalah 0,20 atau 20% sedangkan untuk empat pilihan jawaban adalah 25%. Jadi, peluang anak yang tidak menguasai pelajaran untuk menjawab benar adalah 20% untuk lima pilihan dan 25% untuk empat pilihan alternatif jawaban.

 

Pilihan jawaban berfungsi (  kunci jawaban dan distraktor-nya) adalah apabila kunci jawaban lebih banyak dipilih oleh siswa yang mampu menguasai pelajaran dibandngkan oleh siswa yang kurang, maka kunci jawaban sudah berfungsi dengan baik. Sebaliknya jika kunci jawaban lebih banyak di pilih oleh siswa yang kurang mampu menguasai pelajaran dibandingkan oleh siswa yang mampu, maka kunci jawaban dikatakan tidak berfungsi dengan baik. Sebagian ahli mengatakan bahwa, distraktoe atau pengecoh dikatakan baik apabila dipilih oleh 5% dari seluruh peserta tes.

 


Program ITEMAN

 

Untuk menganalisa butir soal diatas diperlukan hitungan statistik dengan alternatif rumus. Akan tetapi untuk mempermudah maka dilakukan dengan analisa komputer menggunakan program Item and Tes Analysis (ITEMAN). ITEMAN adalah perangkat lunak komputer (soft ware) yang dibuat khusus untuk menganalisa butir soal atau suatu tes yang dilakukan. Program ini dibuat dengan pendekatan analisi statistik butir soal secara klasikal atau kelompok yang berguna untuk menentukan kualitas butir soal atau sebuah tes. Hasil dari analisi butir soal meliputi tingkat kesukaran, daya beda, dan statistik penyebaran jawaban. Selain menghasilkan statistik butir soal/tes, program ini juga menghasilkan statistik tes yang meliputi realibilitas tes, kesalahan pengukuran atau standard error dan distribusi skor.

 

ITEMAN hanya dapat menganalisa file data dengan format ASCII. File data tersebut dapat dibuat dengan menggunakan text editor atau word processing editor  yang dapat menghasilkan file ASCII atau DOS Text. Seluruh data yang akan dijadikan input dalam analisis berada dalam satu file. ITEMAN mampu menganalisa maksimal 250 butir soal dalam satu file dengan kapasitas 3.000 responden dengan lebar karakter maksimal satu file data adalah 255 karakter termasuk identitas responden atau peserta tes.      

 

Analisa butir dengan ITEMAN

Sebelum menganalisa butir soal, diperlukan memahami beberapa istilah dalam tabel ITEMAN. Kolom pertama item statistics yang memuat seq.no (nomor analisis), scala item (nomor urut soal), Prop.Correct ( tingkat kesukaran atau proporsi menjawab benar), point biserial dan biserial (validitas soal). Sedangkan pada kolom kedua, Alternative statistics memuat Alt (alternatif jawaban), prop.endorsing (distribusi jawaban), point biserial dan biserial ( validitas alternatif jawaban ) dan key (kunci jawaban)

 

Berikut diberikan contoh analisa butir soal dengan menggunakan ITEMAN, soal telah di ujikan pada 20 responden. Tetapi penulis hanya memberikan contoh analisa 4 soal saja yang diambil secara acak.

 

Seq

Scale

Item statistics

 

Alt

Alternative Statistics

Key

Prop

Point

Biserial

 

Prop

Point

Biserial

No

Item

correct

Biserial

 

 

Endorsing

Biserial

 

 

 

 

 

 

 

 

 

 

 

 

1

0-1

1,000

-0,900

-0,900

 

A

1,000

-9,000

-9,000

*

 

 

 

 

 

 

B

0,000

-9,000

-9,000

 

 

 

 

 

 

 

C

0,000

-9,000

-9,000

 

 

 

 

 

 

 

D

0,000

-9,000

-9,000

 

 

 

 

 

 

 

Other

0,000

-9,000

-9,000

 

 

 

 

 

 

 

 

 

 

 

 

2

0-2

0,552

-0,448

-0,356

 

A

0,150

0,570

0,372

?

 

 

 

 

 

 

B

0,550

-0,448

-0,356

*

 

Check the key

 

 

C

0,125

0,403

0,251

 

 

B was specified, A works better

 

 

D

0,175

-0,150

-0,102

 

 

 

 

 

 

 

Other

0,000

-9,000

-9,000

 

 

 

 

 

 

 

 

 

 

 

 

3

0-3

0,700

0,975

0,716

 

A

0,100

0,475

-0,369

 

 

 

 

 

 

 

B

0,075

0,277

-0,399

 

 

 

 

 

 

 

C

0,750

-0,129

0,716

*

 

 

 

 

 

 

D

0,075

-0,478

-0,357

 

 

 

 

 

 

 

Other

0,000

-9,000

-9,000

 

 

 

 

 

 

 

 

 

 

 

 

4

0-4

0,000

-9,000

-9,000

 

A

0,325

-0,815

0,626

?

 

 

 

 

 

 

B

0,325

-9,138

0,106

 

 

Check the key

 

 

C

0,350

-0,927

-0,719

 

 

D was specified, A works better

 

 

D

0,000

-9,000

-9,000

*

 

 

 

 

 

 

Other

0,000

-9,000

-9,000

 

 

Analisa soal nomor 1, soal ini secara keseluruhan dapat dijawab oleh peserta tes. Daya beda soal ini sangat tidak bagus yaitu ditujukan oleh rpbis = -9,000 dan rbis = -9,000, berarti soal ini tidak dapat membedakan kemampuan peserta tes.

 

Untuk soal nomor 2, hasil analisa pada tabel menunjukan bahwa tingkat kesukaran soal ini adalah 0,550. angka ini tersebar rata keseluruh alternatif jawaban. Apabila diperhatikan daya beda soal, baik rpbis = -0,448 maupun rbis = -0,356 ternyata keduanya bernilai negatif. Hal ini menunjukan bahwa peserta tes yang berkemampuan/pintar yaitu peserta tes dengan skor total tinggi menjawab salah pada soal ini. Sedangkan peserta tes berkemampuan rendah menjawab benar soal ini. Hal lain yang di dapat pada analisa soal nomor ini adalah kunci jawaban B berindikasi salah, program komputer memberikan tanda dengan Check the key, B was specified, A works better. Hasil analisa menunjukan bahwa alternatif jawaban A dan C berfungsi lebih baik membedakan kemampuan peserta tes dibandingkan kunci jawaban B, meskipun hanya 15% peserta tes merespon jawaban A tetapi val;iditasnya 0,376 dan validitas alternatif jawaban C = 0,251 lebih baik dibandingkan dengan validitas kunci jawaban B = -0,356. apabila pembuat tes menemukan masalah seperti ini, langkah yang perlu dilakukan adalah memeriksa kembali kunci jawaban, atau memriksa kandungan pokok soal. Selanjutnya mendiskusikan dengan ahli atau pakar mengenai konsep pengetahuan yang hendak diukur pada soal tersebut.

 

Untuk soal no.3, tingkat kesukaran soal cukup bagus yaitu 0,700 artinya 70% peserta tes dapat menjawab soal ini dengan benar. Kunci jawaban adalah C, sudah berfungsi dengan baik dengan ditunjukan pada validitas biesr 0,716. Sedangkan, ditinjau dari distribusi jawaban semuanya berfungsi dengan baik, yaitu ditunjukan sebanyak 10% peserta merespon alternatif jawaban A, 7,5% merespon alternatif jawaban B dan D.   Ditinjau dari validitas alternativ jawaban, masing-masing distractor A = -0,369, B = -0,369 dan D = -0,357 sudah berfungsi dengan baik. Tanda negatif pada distractor menunjukan bahwa pengecoh sudah berfungsi, artinya peserta tes berkemampuan rendah memilih pengecoh sebagai alternatif jawaban yang benar.

 

Analisa soal nomor 4, menunjukan bahwa tingkat kesukaran soal ini adalah 0,000. artinya soal ini sukar, sebab tidak satupun peserta tes menjawab benar soal ini. Angka tersebar merata keseluruh alternatif jawaban A dan B = 0,325, dan C = 0,350.  apabila pembuat soal menemukan hal seperti ini, langkah yang dilakukan membuang soal ini, jika ingin dipertahankan pembuat soal harus memperbaikinya sesuai dengan kaidah penulisan yang telah ditetapkan.

 

 

Penutup

 

Dari analisa dengan menggunakan program ITEMAN diatas, pembuat tes atau guru di sekolah dapat menghemat waktu dan tidak larut dalam perhitungan manual dengan menggunakan rumus yang banyak. Harapannya adalah dengan kemudahan seperti ini, dapat mendorong dan memotivasi pembuat tes atau guru untuk menganalisa dan mengevaluasi butir tes yang diberikan kepada peserta didik. Sehingga hasil belajar dapat dipantau dan ditindak lanjuti.

Selain dari itu, yang lebih penting lagi adalah tumbuhnya kesadaran pada pihak guru bahwa jikalau hasil tes belajar siwa tidak sesuai dengan yang diharapkan, dapat ditelusuri pada berbagai kemungkinan. Salah satunya adalah butir tes tidak valid atau tidak dapat mengukur apa yang hendak di ukur. Kesalahan pengukuran juga dapat terjadi akibat dari butir tes yang tidak baik.

 

 

Sumber bacaan

Allen. M.J., & Yen.W.M. (1979) Introduction to Measurement Theory. California: Brooks/Cole Publising Company

Anantasi.A. (1988) Psychological Testing, (6th ed). New York: MacMillan Publising Company

Arikunto,Suharsimi.(2003) Dasar-Dasar Evaluasi Pendidikan(edisi revisi). Jakarta. Penerbit Bumi Aksara

Azwar, Saifuddin (1999) Dasar-Dasar Psikometri. Yogyakarta. Pustaka Fajar

Hayat, Bahrul (2003) Manual Item and Test Analysis (ITEMAN) Pedoman Penggunaan, Jakarta. Pusat Penilaian Pendidikan (PUSPENDIK)

Nitco, J.A. (1983) Educational test and Measuremant An Introduction. New York: Harcourt Brace Jovanovich,Inc.

Suharji (2004) Analisis Soal Prestatis Belajar.Yogyakarta

Surapranata, Sumarna (2005) Analisis, Validitas, realibilitas dan Interpretasi hasil Tes, Implementasi kurikulum 2004. Bandung. Penerbit Remaja Rosdakarya

 

Validity

http://www.statisticssolutions.com/Validity.htm



A study is valid if its measures actually measure what they claim to, and if there are no logical errors in drawing conclusions from the data. There are a great many labels for different types of validity, but they all have to do with threats and biases which would undermine the meaningfulness of research. Be less concerned about defining and differentiating the types of validity (researchers disagree on the definitions and types, and yes, they do overlap) and be more concerned about all the types of questions one should ask about the validity of research (researchers agree on the importance of the questions).

 

 

Key Concepts

1.       Historical background: Some early writers simply equated validity with establishing that a construct's scale correlated with a dependent variable in the intended manner and, indeed, a scale might be considered valid as a measure of anything with which it correlated (Guilford 1946). Types of validity were codified in 1954 by the American Psychological Association, which identified four categories: content validity, construct validity, concurrent validity, and predictive validity (APA, 1954). Each type corresponded to a different research purpose: content validity had to do with subject-matter content testing, construct validity with measuring abstract concepts like IQ, concurrent validity with devising new scales or tests to replace existing ones, and predictive validity with devising indicators of future performance. A 1966 update to the APA typology combined the last two types under the label criterion-related validity (APA, 1966). Later, Sheperd (1993) was among those who argued that both criterion and content validity were subtypes of construct validity, leaving only one type of validity. This unified view of validity supported the notion that only rarely could a researcher establish validity with reference to a single earlier type. Moreover, Cronbach's (1971: 447) earlier argument that validity could not be established for a test or scale, only for interpretations researchers might make from a test or scale, also became widely accepted in the current era. Some, such as Messick (1989), accept construct validity as the only type, but argue for multiple standards for assessing it: relevant content, based on sound theory or rationale, internally consistent items, external correlation with related measures, generalizability across populations and time, and explicit in its social consequences (ex., racial bias). In a nutshell, over the last half century the concept of validation has evolved from establishing correlation with a dependent variable to the idea that researchers must validate each interpretation of each scale, test, or instrument measuring a construct and do so in multiple ways which only taken together form the whole of what validity is.

The outline below largely accepts the unified view of validity, centering on construct validity, but adds to it separate coverage in three areas: (1) content validity, focusing on the labeling of constructs; (2) internal validity, focusing on research design bias; and (3) statistical validity, focusing on meeting assumptions of empirical procedures. While all three might be (and by some are) considered subtypes of construct validity, they do not fall neatly in its two major subdomains, convergent and discriminant validity, and so in the discussion below have been treated separately.

2.       Construct validity, sometimes also called factorial validity, has to do with the logic of items which comprise measures of social concepts. A good construct has a theoretical basis which is translated through clear operational definitions involving measurable indicators. A poor construct may be characterized by lack of theoretical agreement on its content, or by flawed operationalization such that its indicators may be construed as measuring one thing by one researcher and another thing by another researcher. A construct is a way of defining something, and to the extent that a researcher's proposed construct is at odds with the existing literature on related hypothesized relationships using other measures, its construct validity is suspect. For this reason, the more a construct is used by researchers in more settings with outcomes consistent with theory, the more its construct validity. Researchers should establish both of the two main types of construct validity, convergent and discriminant, for their constructs.

o        Convergent validity is assessed by the correlation among items which make up the scale or instrument measuring a construct (internal consistency validity), by the correlation of the given scale with measures of the same construct using scales and instruments proposed by other researchers and, preferably, already accepted in the field (criterion validity), and by correlation of relationships involving the given scale across samples (ex., racial tolerance with subject data and with spousal data) or across methods (ex., survey data and archival data). One expects these correlations to be at least moderate to demonstrate external validity.

         Internal consistency is a type of convergent validity which seeks to assure there is at least moderate correlation among the indicators for a concept. Poor convergent validity among the indicators for a construct may mean the model needs to have more factors.

         Example. In their study of direct-to-consumer (DTC) advertising, Huh, Delorme, and Reid (2006) developed consumer attitude constructs, which they validated by reporting Cronbach's alpha levels of 0.87, 0.88, and 0.89, respectively.
       See Huh, J, Delorme, D. E., & Reid, L. N. (2006). Perceived third-person effects and consumer attitudes on prevetting and banning DTC advertising. Journal of Consumer Affairs 40(1): 90

         Cronbach's alpha is commonly used to establish internal consistency construct validity, with .60 considered acceptable for exploratory purposes, .70 considered adequate for confirmatory purposes, and .80 considered good for confirmatory purposes.

         Simple factor structure is another test of internal consistency, seeking to demonstrate for a valid scale that indicator items for a given construct load unambiguously on their own factor. This tests both convergent and discriminant validity, as discussed below.

         Rasch models, also called one-parameter logistic models, are an internal consistency test used in item response theory for binary items (though polytomous Rasch models are available also). Rasch models, like Guttman scales, establish that items measuring a construct form an ordered relationship (see Rasch, 1960). Note that a set of items may have ordered internal consistence even though they do not highly correlate (additive internal consistency, such as tested by Cronbach's alpha or factor structure). Ordered internal consistency reflects a difficulty factor, whereby answering a more difficult item predicts responses on less difficult items but not vice versa.

         AVE. Alternatively, and less commonly, Fornell and Larcker (1981) consider a construct to display convergent validity if average variance extracted (AVE) is at least .50 (that is, when variance explained by the construct is greater than measurement error). AVE is discussed below in the section on discriminant validity.

         Common method variance is a type of spurious internal consistency which occurs when the apparent correlation among indicators or even constructs is due to their common source (spurious convergence). For instance, if the data source is self-reports, the correlation may be due the propensity of the subject to answer similarly to multiple items even when there is no true correlation of constructs. Common method variance is assessed by (1) factoring all indicators in the study to see if a single common factor emerges, indicative of common method variance; or (2) observing correlations between different indicators of the same construct using the same and different methods, with the expectation that these correlations will be high in the same method data and low in the cross-method data if common method variance is a problem.

         Criterion validity, also called concurrent validity, has to do with the correlation between scale or instrument measurement items and known and accepted standard measures or criteria. Ideally these criteria are direct, objective measures of what is being measured (ex., how well is self-reported voting correlated with actual voting shown in voting records?). Where direct objective measures are unavailable, the criteria may be merely closely associated. The researcher is asking if proposed measures for a given concept exhibit generally the same direction and magnitude of correlation with other variables as do measures of that concept already accepted within the social science community. For instance, does a new measure of "alienation" exhibit the same general correlative behavior as established scales of social anomie? Are people who score high on a proposed scale of "Republican identifiers" in fact more likely to vote Republican and/or be registered as Republican? Do people who score high on an employment test also rate high on subsequent evaluations of actual job performance? (Note: while some authors contrast construct and criterion validity, this author - and many others - considers criterion validity to be an aspect of construct validity).

         Example: An instrument measuring child-reported sexual abuse was analyzed for four different age groups of 103 Dutch children. There was only a weak correlation between the instrument and the outcome of the cases of child abuse (the objective criterion). The authors conclude that the results suggest that the instrument "cannot yet be used as a scientifically validated instrument for judging the truthfulness of allegations of child sexual abuse." Logic: A good instrument would identify valid cases of child abuse and for valid cases, the outcomes would tend to be different.
       See Lamers-Winkelman, F. & Heemstede, A.L. (1998). Statement validity analysis: Its application to a sample of Dutch children who may have been sexually abused. Journal of Aggression, Maltreatment & Trauma, 2(2): 59-81.

         External validity has to do with possible bias in the process of generalizing conclusions from a sample to a population, to other subject populations, to other settings, and/or to other time periods. The questions raised are, "Are findings using the construct scale consistent across samples?" and "To what population does the researcher wish to generalize his/her conclusions, and is there something unique about the study sample's subjects, the place where they lived/worked, the setting in which they were involved, or the times of the study, which would prevent valid generalization?" Naturally, when a sample of observations is non-random in unknown ways, the likelihood of external validity is low, as in the case of convenience samples. All other things equal, different samples should generate similar relationships. When they do not, this indicates different samples are affected by significant variables not in the model and which differ in value across groups.

         Example: In the NELS:88 study, indicators of student disability were obtained from students, parents, teachers, and school officials. Each indicator was worded differently, but all were intended to measure "student disability." Results of comparisons of these measures showed that very little overlap (well under 50%) in the population of students identified as disabled by these separate sources. Logic: Different groups should have identified largely the same students as disabled, but they did not. This might mean all the similar instruments were invalid. But Rossi et al chose to think it meant the different wording had a big effect and the instruments measured different constructs even though that was the opposite of their intent.
        See Rossi, Robert, Jerald Herting, and Jean Wolman. 1997. Profiles of Students With Disabilities as Identified in NELS:88 (NCES 97-254).
Washington, DC: U.S. Department of Education, National Center for Education Statistics.

o        Discriminant validity, the second major type of construct validity, refers to the principle that the indicators for different constructs should not be so highly correlated as to lead one to conclude that they measure the same thing. This would happen if there is definitional overlap between constructs. Discriminant validity analysis refers to testing statistically whether two constructs differ (as opposed to testing convergent validity by measuring the internal consistency within one construct, as Cronbach's alpha does).

         Correlational Methods. In constructing scales, researchers often reject an indicator if it correlates more highly with a construct different from the one which it was intended to measure. Some researchers use r = .85 as a rule-of-thumb cutoff for this assessment, fearing that correlations above this level signal definitional overlap of concepts. Other researchers use the criterion that two constructs differ if the correlations between a given scale and a specific criterion measure are greater in magnitude than the correlations between that same scale and criterion measures used for other unrelated scales. This is considered a less stringent test of discriminant validity. In a more stringent correlational method, the same logic is applied but the comparison is to correlations between the given scale and criterion measures used for related scales or subscales.

         Example. For a population of 211 demented and 94 mentally handicapped patients, Dijkstra, Buist, and Dassen concluded that the low correlations between the Scale for Social Functioning (SSF) full scale score and the other tested scales (the BOSIP Behavior Observation Scale for Intramural Psychogeriatrics) affirm the discriminant validity of the SSF scale.
       Dijkstra, A., Buist, G., & Dassen, T. (1998). A criterion-related validity study of the nursing care dependency. International Journal of Nursing Studies 35: 163-170.

         Factor Methods. Some researchers conclude that constructs are different if their respective indicators load most heavily on different factors in principal components factor analysis (see Straub, 1989). In one version of this approach, all items for all constructs are factored. In a more stringent version, indicator items for each pair of constructs are factored separately..

         AVE Method. An alternative factor-based procedure for assessing discriminant validity is that proposed by Fornell and Larcker (1981). In this method, the researcher concludes that constructs are different if the average variance extracted (AVE) for one's constructs is greater than their shared variance. That is, the square root of the average variance extracted (AVE) for a given construct should be greater than the absolute value of the standardized correlation of the given construct with any other construct in the analysis. For standardized data, squared covariances are equivalent.

         Computation. AVE is the variance in indicator items captured by a construct as a proportion of captured plus error variance. AVE is calculated as the sum of the squared standardized indicator item loadings on the factor representing the construct, divided by this sum plus the sum of indicator item error. Thus, let S1 = the sum of squared principal components analysis factor loadings of the indicator variables on the factor representing their construct. Let S2 = the quantity (1 - the squared loading) summed for all indicators. Then AVE = (S1)/( S1 + S2). AMOS, LISREL, and PLS all provide output for calculation of AVE, with PLS doing so in the most user-accessible way.

         Presentation. In terms of presentation, it is customary to provide a matrix of squared covariances of each construct with each other construct, replacing the diagonal elements with the AVE for the column construct. If there is discriminant validity, then the diagonal element for a given column (construct) should be larger than any of the squared covariances in the column.or row in which it is found.

         SEM Methods. Confirmatory factor analysis within structural equation modeling, discussed elsewhere, is a common method of assessing discriminant validity. If goodness of fit measures for the measurement model in SEM are adequate, the researcher concludes that the constructs in the model different.

         Nested models. A more rigorous (and more widely accepted) SEM-based alternative approach to discriminant validity is to run the model unconstrained and also constraining the correlation between constructs to 1.0. If the two models do not differ significantly on a chi-square difference test, the researcher fails to conclude that the constructs differ (see Bagozzi et al., 1991). In this procedure, if there are more than two constructs, one must employ a similar analysis on each pair of constructs, constraining the constructs to be perfectly correlated and then freeing the constraints. This method is considered more rigorous than either the SEM measurement model approach or the AVE method.

         Example. In a study of industrial relations, Deery, Erwin, & Iverson (1999) wrote, "The discriminant validity was tested by calculating the difference between one model, which allowed the correlation between the constructs (with multiple indicators) to be constrained to unity (i.e., perfectly correlated), and another model, which allowed the correlations to be free. This was carried out for one pair of constructs at a time. For example, in testing organizational commitment and union loyalty, the chi-square difference test between the two models (p<.001) affirmed the discriminant validity of the constructs. "
       See Deery, S., Erwin, P., & Iverson, R. (1999). Industrial relations climate, attendance behaviour, and the role of trade unions. British Journal of Industrial Relations 37(4): 533-558.

o        Multi-method, multi-trait methodologies are considered to have higher construct validity.

         Mono-method and/or mono-trait biases. Use of a single data-gathering method and/or a single indicator for a concept may result in bias. Various data-gathering methods have their associated biases (ex., the yea-saying bias in survey research, where people tell pollsters what they think they want to hear). In the same vein, has the researcher used randomization of items to eliminate order effects of the instrument, or established the unimportance of order effects? Likewise, basing a construct like "work satisfaction" on a single item dealing with, say, socializing with peers at work, biases the construct toward a particularistic meaning.

         Multitrait-multimethod validation. In a multi-method, multi-trait validation strategy, the researcher not only uses multiple indicators per concept, but also gathers data for each indicator by multiple methods and/or from multiple sources. For instance, in assessing the concept of "tolerance," the researcher may have indicators for racial tolerance, religious tolerance, and sexual orientation tolerance; and each may be gathered from the subject, the subject's spouse (assessing tolerance indicators for subject, not spouse), and the subject's parent (assessing tolerance indicators for subject, not parent).

1.       A correlation matrix is created in which both rows and columns reflect the set of three tolerance indicators, grouped in three sets -- once for subject data, once for spousal data, and once for parental data.

2.       Cross-validation. Has the researcher made efforts to cross-validate subjective items with objective measures where possible? Has the researcher developed the instrument on a calibration sample and then cross-validated it on an independent validation sample?

3.       Content validity, also called face validity, has to do with items seeming to measure what they claim to (studies can be internally valid and statistically valid, yet use measures lacking face validity). In content validity one is also concerned with whether the items measure the full domain implied by their label. Though derogated by some psychometricians as too subjective, failure of the researcher to establish credible content validity may easily lead to rejection of his or her findings. Use of surveys of panels of content experts or focus groups of representative subjects are ways in which content validity may be established, albeit using subjective judgments.

o        Are the measures which operationalize concepts ones which seem by common sense to have to do with the concept? Or could there be a naming fallacy? Indicators may display construct validity, yet the label attached to the concept may be inappropriate.

o        Are the labels attached to constructs too broad in domain? For instance, in a small group study of corruption, "monetary incentives" may be used to induce participants to covertly break the rules of a game. The researcher may find "monetary incentives" do not lead to corruption, but what may be involved would be better labeled "small monetary incentives," whereas "large monetary incentives" may have a very different effect. Likewise, a scale may be labeled "liberalism" but the items may only deal with cultural issues like abortion and gay rights, but lack any content on economic or environmental issues, and thus might be better labeled "cultural liberalism."

o        Example: Stratford and Kennedy (2004) noted this about a measure of functional status of lower extremities in a medical setting: "Clearly, a lower extremity functional status measure that does not overtly inquire about ambulation lacks content validity. For this reason, we caution against using the DISSIMILAR-8 as an outcome measure for clinical trials and as the basis for decisions in clinical practice."
       See
Stratford, P. W. & Kennedy, D. M. (2004). Does parallel item content on WOMAC's Pain and Function Subscales limit its ability to detect change in functional status? BMC Musculoskeletal Disorders. 2004; 5: 17.

4.       Internal validity has to do with defending against sources of bias arising in research design, which would affect the cause-effect process being studied by introducing covert variables. When there is lack of internal validity, variables other than the independent(s) being studied may be responsible for part or all of the observed effect on the dependent variable(s). If there is no causal phenomenon under study, internal validity is not at issue.

o        Hawthorne effect (experimenter expectation). Do the expectations or actions of the investigator contaminate the outcomes? (Named after famous studies at Western Electric's Hawthorn plant, where work productivity improvements were found to reflect researcher attention, not interventions like better lighting).

o        Mortality bias. Is there an attrition bias such that subjects later in the research process are no longer representative of the larger initial group?

o        Selection bias. How closely do the subjects approach consituting a random sample, in which every person in the population of interest has an equal chance of being selected? When multiple groups are being studied, there can be differential selection of the groups which can be associated with differential biases with regard to history, maturation, testing, mortality, regression, and instrumentation (that is, selection may combine differentially with other threats to validity mentioned on this page). See section on two-stage least squares regression for a discussion of testing for selection bias.

o        Evaluation apprehension. Does the sponsorship, letter of entry, phrasing of the questions, or other steps taken by the researcher suffice to mitigate the natural apprehension people have about evaluations of their beliefs and activities, and diminish the tendency to give answers which are designed to make themselves "look good"?

o        Special problems involving control groups (social interaction threats to validity):

         Control awareness Is the control group aware it is a control group and is not receiving the experimental treatment? If so the control group may exhibit compensatory rivalry, resentful demoralization, or other attitudes and actions which may contaminate study results. Treatment imitation or diffusion is also a type of control awareness invalidity, arising from the control group imitating the treatment or benefitting from information given to the treatment group and diffused to the control group.

         Compensatory equalization of treatments. Were those administering the setting pressured, or did they decide on their own, to compensate the control group's lack of the benefits of treatment by providing some other benefit for the control group? Parents may pressure school administrators, for instance, to provide alternative learning experiences to compensate for their children in the control group not receiving the special test curriculum being studied in the experimental group.

         Unintended treatments. The Hawthorne effect (see above) is an example, where the experimental group was also receiving the unmeasured "treatment" of researcher attention. However, either the experimental or control group may receive different experiences which constitute unmeasured variables.

o        Special problems of before-after studies and time series:

         Instrumentation change. Variables are not measured in the same way in the before and after studies. A common way for this to occur is when the observer/raters, through experience, become more adept at measurement.

         History (intervening events) . Events not part of the study intervene between the before and after studies and have an effect. Did some historical event occur which would affect results? For instance, outbreak of a war often solidifies public opinion behind the Commander-in-Chief and could be expected to affect a study of causes of changes in presidential support in public opinion polls, even if the items had nothing to do with foreign policy.

         Maturation. Invalid inferences may be made when the maturation of the subjects between the before and after studies has an effect (ex., the effect of experience), but maturation has not been included as an explicit variable in the study.

         Regression toward the mean. If subjects are chosen because they are above or below the mean, one would expect they will be closer to the mean on remeasurement, regardless of the intervention. For instance, if subjects are sorted by skill and then administered a skill test, the high and low skill groups will probabily be closer to the mean than expected.

         Test experience. The before study impacts the after study in its own right, or multiple measurement of a concept leads to familiarity with the items and hence a history or fatigue effect.

5.       Statistical validity has to do with basing conclusions on proper use of statistics. Violation of statistical assumptions is treated elsewhere, in the discussion of each specific statistical procedure. In addition, the following general questions may be asked of any study:

o        Reliability. Has the research established the statistical reliability of his/her measures? (A measure is reliable if measurement of the same phenomena at different times and places yields the same measurement.) Reliability is discussed in a separate section.

o        Type I Errors and Statistical Significance. A Type I error is when the researcher thinks there is a relationship, but there really isn't. If the researcher rejects the null hypothesis because p<=.05. leading to the conclusion there is a relationship, ask these questions:

         If data are from a random sample, is significance established to be of an appropriate level (in social science, usually .05 for confirmatory analysis but often only .10 for exploratory analysis)?

         Are significance tests applied to a priori hypotheses, or is a shotgun approach used in which large numbers of relationships are examined, looking a posteriori for significant ones? If the latter, note that one table or relationship in 20 will be found to be statistically significant just by chance alone, by definition of .05 significance. Multiple a posteriori tests require a higher operational alpha significance level to achieve the same nominal alpha level; this is achieved by using a Bonferroni adjustment, discussed elsewhere.

o        Type II Errors and Statistical Power. A Type II error is when the researcher thinks there is no relationship, but there really is. If the researcher has accepted the null hypothesis because p>.05, leading to the conclusion there is no relationship, ask these questions:

         Has the researcher used statistical procedures of adequate power?

         Does failure to reject the null hypothesis merely reflect small sample size?

o        Interaction and non-linearity. Has the researcher taken possible interaction effects and nonlinear effects into account? Is there interaction among multiple treatments?

o        Causal ambiguity. Has the researcher misinterpreted the causal direction of relationships, particularly in correlative studies?

 

 

Bibliography

  • Adcock, R. and D. Collier (2001). Measurement validity: A shared standard for qualitative and quantitative research. American Political Science Review 95: 529-546.
  • APA (1954). Technical recommendations for psychological tests and diagnostic techniques. Psychological Bulletin, 51(2, supplement): 201-238.
  • APA (1966). Standards for educational and psychological tests and manuals. Washington, DC: American Psychological Association.
  • Bagozzi, R. P., Y. Yi and L. W. Phillips (1991). Assessing Construct Validity in Organizational Research. Administrative Science Quarterly 36(3): 421-458.
  • Campbell, Donald T. & J. C. Stanley (1963a). Experimental and quasi-experimental designs for research on teaching. In N. L. Gage, ed., Handbook of research on teaching. Chicago: Rand McNally, 1963: 171-246 . The seminal article on types of validity.
  • Campbell, Donald T. & Stanley, J. C. (1963b). Experimental and quasi- experimental designs for research. Chicago: Rand-McNally.
  • Carmines, E. G. & Zeller, R. A. (1979). Reliability and validity assessment. Quantitative Applications in the Social Sciences series 07-017. Newbury Park, CA: Sage Publications.
  • Cronbach, L. J. (1971). Test validation. In R.L.Thorndike (ed.). Educational measurement. Second ed.. Washington, D.C.:American Council on Education.
  • Cronbach, L.J. & Meehl, P.E. (1955). Construct validity in psychological tests. Psychological Bulletin 52: 281-302.
  • Cook, Thomas D. & Campbell, Donald T. (1979). Quasi-experimentation: Design and analysis issues for field settings. Boston: Houghton-Mifflin. Chapter 2 is a classic statement of types of validity.
  • Fornell, C., & Larcker, F. D. (1981). Evaluating structural equation models with unobservable variables and measurement error. Journal of Marketing Research, 18(1): 39-50.
  • Guilford, J. P. (1946). New standards for test evaluation. Educational and Psychological Measurement, 6(5): 427-439.
  • Messick, S. (1989). Validity. Pp. 13-103 in R. Linn, ed., Educational measurement. Third ed.New York: American Council on Education and Macmillan Publishing Company.
  • Rasch, G. (1960). Probabilistic models for some intelligence and achievement tests. Copenhagen: Danish Institute for Educational Research (Expanded edition, 1980. Chicago: University of Chicago Press).
  • Shadish, W., Cook, T., & Campbell, D. (2002). Experimental and Quasi-Experimental Designs for Generalized Causal Inference. Boston:Houghton Mifflin.
  • Shepard, L. A. (1993). Evaluating test validity. In L. Darling-Hammond, ed., Review of research in education, Vol. 19, pp. 405-450. Washington, DC: American Educational Research Association.
  • Straub, D.W. (1989). "Validating Instruments in MIS Research," MIS Quarterly, 13(2): 147-166.

MODUL
EVALUASI PENGAJARAN DAN ANALISA ITEM
( PROGRAM ITEMAN MICRICIP )




Disajikan Pada Pelatihan Peninkatan Mutu Guru

Yang Diselenggarakan Oleh PEMDA TK.II Dompu

Nusa Tenggara Barat



Oleh
Muhammad Nusalam*


*Staf Pengajar Pada MTsN Model Kuripan Lombok Barat, Sedang Menempuh Program Magister Psikometri pada Universitas Indonesia



DAFTAR ISI MODUL



1. Pendahuluan

2. Pengembangan Tes Hasil Belajar

3. Penulisan Soal

3.1. Menulis soal yang baik

3.2. pustaka mengenai penlisan soal

3.3. gagasan-gagasan untuk soal-soal tes

3.4. format soal dan penerapannya

3.5. banyaknya kemungkinan jawaban

3.6. pedoman penulisan soal tes objektif

3.6.1. Pedoman umum

3.6.2. Pedoman khusus



4. Analisa Soal

Setelah dilakukan penyususnan soal dengan kaidah-kaidah penulisan soal yang sesui dengan standar penulisan, maka langkah selanjutnya adalah meng-analisis soal tersebut. Analisis soal dilakukan untuk mengetahui berfungsi atau tidaknyan sebuah soa. Analisis soal biasanya atau pada mumnya dilakukan dengan dua cara yaitu analisis kualitatif (qualiatif control) dan analisis kuantitatif (quantitatif control). Analisis kualitatif biasaya disebut validias logis (Logical Validity) yang dilakukan sebelum soal digunakan untuk menlihat berfungsi tdakna sebua soal. Sedangkan analisis kuantitatif sering juga dinamakan validitas empiris ( empirical validity) yang dilakukan untuk melihat berfnsi tidaknyasebuah soal setelah diuji cobakan pada sampel yang represenatif.



4.1. Analisa Kualitatif

Analisis kualitatif atau validitas logs yaitu berupa penelaahan yang dilakukan dengan maksud menganalisis soal ditinjau dari segi teknis, isi,dan editorial. Analisis teknis dimaksudkan sebagai penelaahan sal berdasarkan prinsip-prinsip pengukuran dan format penulisan soal. Analisis secara isis dimaksudkan sebai penelaahan khusus yang berkaian degan kelayakanpengetahuan yang ditanyakan. Sedangkan analisa edirial dmaksdkan sebagai peelaaan yang khususnya berkaian dengan keseluruhan format dan keajegan editorial dari sola yang satu denan soal yang lainnya.

Analisis kualitatifainya dapat juga dikatagorikan dari segi materi, konstruksi da bahasa. Analisis materi dimaksudkan sebagai penelaahan yang berkaitan dengan subtansi kelimuan yang ditanyakan alam soal serta tingkat kemampuan yang sesuai dengan soal. Analisis konsruks dmasudkan seagai penelaahan yang berkaitan dengan teknis penulisan soal. Analisis bahasa bisanya berkaian dengan penggunaan bahasa indonesia yang baik dan benar menurut jaan ang disempurnakan (EYD)

Berikut ini, diberikan beberapa contoh penulisan soal dan analisis kualitatifnya an jika memungkinkan akan dieikan alternatif perbaikan ditinjau dari berbagai segi.

Contoh 1.

Seorang anak melakukan erhitungan bilanganpecahan + 1/3 berapakah hasilya

a. 3

b. 2

c. 1

d. 5/6

Dari soal diatas, jika kita menelaah maka kita dapat memulai dari pokok soal. Pertama, Jika diamati bahwa pokok soal diatas terlalu betele-tele dengan pemborosan penggunaan bahasa. Kedua, alternatifjawaban A, B, dan C bukan merupakan alternatif yang baik atau distrraktor (pengecoh) yang kurang baik. Sebab angka-angka tersebut tidak dikeahui darimana sumbernya sehingga soal kemungkinan dapat ditebak kunci jaabanya.



Maka, pebaikan yan mungkin dapat kita lakukan adalah sebagai berikut:

Hasil dari + 1/3 adalah......

a. 1/6

b. 2/5

c. 2/3

d. 5/6



Analsis kalitatif dilakukan biasanya oleh beberapa orang yang berasal dari rumpun keahlian yang sama ditambah dengan ahli konstruksi soaldan ahli bahasa. Jika ahli konstruksi alat ukur atau pemuat soal serta ahl;i ahsa tidak ada, maka beberapa ahli serumpun pun cukup memadai, dengan syarat-syarat, menguasai materi yang diujikan, menusai tenik penlisan soal, dan menguasai bahasa indonesia yang baik dan benar.



4.2. Analisa Kuantitatif
Analisa yang kedua adalah analisis kuantitatif. Setelah soal diujikan pada responden ang representatif, maka kita akan mendapatkan informasi yang banyak tentang soal yang diujikan. Hasil analisi dimaksudkan unuk mengetahui sejauhmana soal apat membedakan antara peserta es yang berkemampuan tinggi dengan peserta es yang berkemampuan rendah. Selanjutnya, informasi tenan sejauhmana soal dapat membedakan antar individ maupun antar kelompok.

Analisis soal secara kuantitatif enekankan ;paa analisis karakeristik internal tes melalui data yang diperole secara empiris. Karakteristik internal secara kuantitatif dimaksudkan meliputi ukuran tigkat kesukara soal, daya bea soal, validitas dan reliabeltas. Khusus untuk soal pilihan ganda, ditambah dua parameter lain yaitu, peluang untuk menebak dan berfungsi tidaknya distraktor pada altenaif jawaban.


4.3. Tingkat kesukaran
tekadang seorang guru atau pemuat tes, menemukan fakta bahwa suatu soal pada sekelompok siswa dapat dikerjakan dengan mudah dan pada kelompok siswa tertentu dengan soal yang sama sangat ukar untuk dkerjakan. Permasalahan ini, perlu dikaji untuk mengetahui kesulitan belajar siswa di sekolah.

Biasanya tingkat kesukaran soal ditenukan oleh kedalaman soal , kompleksitas, atau ha-hal lain yang berkaian dengan kemampuan yang di ukur oleh soal. Akan tetapi ersoalan-persoalan tersebut, sangat sukar untk disepakati sebagai acauan tingkat kesukaran soal. Oleh karena itu, para ahli tes enentukan tingkat kesukaran bedasarkan seberapa banyak peserta tes dapat menjawab benar pada soal yang diberikan. Jika pada suatu soal 100 eserta es semuanya dapat menjawa dengan benar tes ersebut, apat dikatakan tes tersebut mudah. Sebaliknya jika dari 100 peserta tes hanya 1 orang yang dapat menjawab soal tersebut daat dikatakan soal tersebut sukar.

Secara statistik, ntuk menghitung tingkat kesukaran soal apat dilakukan dengan menggunakan rums dibawah ini:







Ket:

P = tingkat kesukaran

&#61669;x = banyknya peserta menjawab benar

Sm = skor maksimum

N = jumlah peserta tes



Contoh penggunakan rumus diatas

Diberikan soal matematiaka sebanyak 10 soal, dengan peserta ujian sebanyak 40 orang.

Peserta Nomor soal Total

1 2 3 4 5 6 7 8 9 10

1 1 0 1 0 1 0 0 1 0 0 4

2 1 0 0 1 0 1 0 0 0 1 4

3 1 0 0 0 1 0 1 1 1 1 6

4 1 0 1 0 1 1 1 1 1 0 7

5 1 1 0 0 1 1 1 0 1 0 6

6 1 1 0 0 1 1 1 1 1 1 8

7 1 1 0 1 1 1 1 0 0 0 6

8 1 1 0 1 1 1 1 1 1 1 9

9 1 1 0 1 1 1 1 1 1 0 8

10 1 1 0 1 0 1 1 1 1 1 8

11 1 1 0 1 0 1 1 1 1 0 7

12 1 1 0 1 1 0 0 0 1 0 5

13 1 0 0 0 0 1 1 1 1 1 6

14 1 0 0 1 1 1 1 1 1 0 7

15 1 0 0 1 1 1 0 0 0 0 4

16 1 1 0 0 1 1 0 1 0 0 5

17 1 0 0 0 1 1 0 1 0 0 4

18 1 1 0 1 0 0 0 1 0 0 4

19 1 1 1 1 0 1 0 0 0 0 5

20 0 1 1 1 1 1 1 0 0 0 6

21 0 1 1 1 1 0 1 1 1 0 7

22 1 0 1 1 0 0 1 1 1 0 6

23 1 0 1 1 1 0 1 1 1 0 7

24 0 0 1 1 1 1 1 0 1 1 7

25 1 1 0 1 1 0 1 1 1 0 7

26 1 0 0 1 0 1 0 0 1 0 4

27 1 1 1 1 1 1 0 0 1 0 7

28 1 0 1 1 0 0 1 1 1 1 7

29 0 1 1 0 0 1 0 1 1 0 5

30 1 0 1 0 1 1 0 1 1 0 6

31 1 1 0 1 1 1 0 1 0 0 6

32 1 1 1 1 0 1 0 1 0 0 6

33 1 1 0 0 1 1 0 1 1 0 6

34 1 1 1 1 0 0 1 1 1 0 7

35 1 1 0 1 1 1 1 1 0 0 7

36 1 0 0 0 0 0 0 1 1 0 3

37 1 0 1 0 1 0 0 1 1 0 5

38 1 1 0 0 1 1 0 0 1 0 5

39 1 0 0 1 0 1 1 1 1 0 6

40 1 1 0 1 1 0 0 1 0 1 6



Ex 36 23 15 26 26 27 21 29 27 9

N 40 40 40 40 40 40 40 40 40 40

P 0.9 0.575 0.375 0.65 0.65 0.675 0.525 0.725 0.675 0.225



Tingkat kesukaran soal atau item, biasanya dibedakan menjadi tiga katagori seperti pada tabel berikut ini:

Nilai P Katagori

P &#61500; 0,3

0,3 &#8804; p &#8804; 0,7

P &#61502; 0,7 Sukar

Sedang

Mudah



Asumsi dasar yang menjadi patokan dalam pengukuran adalah perbedaan individu secara sistimatis pada konstruk atau isi yang di ukur oleh tes. Tes dapat menunjukan perbedaan individu ini, rentang nilai kesukaran adalah antara 0 sampai 1. Nilai p = 0 artinya tidak satupun dari peserta tes yang dapat menjawab dengan benar pada item soal tersebut. Sedangkan nilai 1 berati soal tersebut dapat dijawab dengan benar oleh seluruh peserta tes. Tingkat kesukaran 0 dan 1, tidak memberikan knstribusi apapun terhadap perbedaan kemampuan peserta tes. Oleh karena itu, soal terseut cenderung tidak dapat digunakan.



Tingkat kesukaran akn erpengaruh paa variabelitas skor dan ketepatan embedakan antara peserta tes. Ketika seluruh soal sangt sukar, maka skor total makan rendah. Sebaliknya, ketika seluruh soala sangat mudah, maka skor total akan tinggi. Variabltas akan maksmum ketika p = 0,5. skor akan lebih bervariasi keika semua p terletak sekitar 0.5. untuk penggunaan di kelas basanya pendidik menggunakan tes yang sedang, yaitu nila p antara 0,3 sampai 0,7.


4.4. daya beda

4.5. Kriteria pemilihan Soal

5. Validitas

5.1. pengertian validitas

5.2. Menghitung validitas soal dengan cara manual

6. Reliaelitas

6.1. Pengertian Reliabelitas

6.2. menghitung realibiitas soal dengan ara manual

7. Program Komputer ITEMAN

7.1. Gambaran Umum

7.2. Format file

7.3. menjalankan program

7.4. interpretasi soal

8.

9.

www.cnn.com

MANFAAT KOMPUTER

SEBAGAI MEDIA PENGAJARAN DI SEKOLAH

oleh

Muhammad Nursalam

 

 

A. Pendahuluan

“Merasa diperlakukan tidak adil karena tidak lulus ujian, Fahrur Roji nekat membakar sekolahnya. Nilai Bahasa Inggris dan Matematika yang jeblok membuat Fahrur tidak lulus ujian. Fahrur melakukan aksinya pada Rabu (21/6/2006) malam. Dia mendatangi SMAK Bina Karya Tehnik tempat sekolahnya di Jalan Pahlawan Bekasi sambil membawa bensin. Fahrur pun mencoba membakar satu ruangan yang berisi perangkat komputer dan beberapa buku pelajaran. Namun aksinya ini diketahui warga.Meskipun api sempat membakar sekolahnya, warga yang berada di sekitar sekolah mengendus adanya kebakaran, mereka pun saling bahu membahu memadamkan api. Mereka takut api akan menjalar ke rumah warga yang memang lokasinya berdekatan dengan sekolah. Warga pun mencurigai gerak-gerik Fahrur dan mereka akhirnya menangkap Fahrur.”1

 

Kejadian diatas bukanlah anekdot atau pertunjukan sandiwara siswa dalam rangka perpisahan sekolah, tetapi suatu kisah nyata yang memilukan yang tidak saja terjadi di Bekasi. Kejadian seperti itu, dapat terjadi disetiap daerah dengan cara dan modus operandi yang berbeda. Aksi yang dilakukan salah seorang siswa SMU tersebut adalah bagian dari potret suram hasil pendidikan kita sekarang ini. Proses pendidikan yang hanya beroreantasi pada hasil dengan melupakan proses panjang pendidikan.

Keberhasilan seorang siswa hanya di ukur dan ditentukan pada penghujung akhir pendidikan dengan nama evaluasi belajar tahab akhir nasional (EBTANAS) ataupun ujian akhir nasional (UAN). Bahkan yang lebih memilukan lagi, kesemua proses evaluasi tersebut hanya ditentukan oleh tiga mata pelajaran saja yaitu bahasa Indonesia, bahasa Inggris dan matematika untuk siswa SMP dan sederajat, sedangkan SMU disesuaikan dengan penjurusan masing-masing.

Kita tidak ingin terjebak dalam perdebatan tentang undang-undang pendidikan, kurikulum, ataupun persoalan politis yang melingkupi dunia pendidikan. Tetapi mungkin kita akan mengintrospeksi kedalam dan mencoba menguraikan permasalahan yang ada. Selanjutnya mencoba mencarikan jalan keluar yang terbaik bagi guru atau paling tidak orang yang peduli dengan nasib pendidikan di tanah air kita.

Harus diakui bahwa, setiap ujian akhir yang diadakan disetiap jenjang pendidikan mulai dari tingkat sekolah dasar sampai sekolah menengah, umumnya diperoleh prosentase nilai matematika masih dibawah prosentese nilai pelajaran lain yang di ujikan.2 Berbagai alasan dikemukakan, mulai dari kurangnya fasilitas,  minat siswa dalam pelajaran matematika dinilai kurang, pelajaran matematika adalah salah satu mata pelajaran yang sulit, termasuk didalamnya adalah kurang mumpuninya guru dalam metodelogi pengajaran di depan kelas.

Salah satu sebab kurangnya minat siswa pada pelajaran matematika terletak pada strategi pengajaran yang dilakukan oleh guru dalam mengajarkan pelajaran matematika. Oleh karena itu, guru dituntut untuk lebih kreatif dalam menyampaikan materi pembelajaran di sekolah, misalnya dengan menggunakan media pengajaran. Salah satu media pembelajaran yang dikembangkan sekarang ini adalah media komputer inter aktif yang diharapkan dapat meningkatkan minat siswa pada pelajaran matematika.

 

 


B. Peran Komputer dalam Kehidupan

            Dewasa ini, ketika peradaban manusia sudah berkembang pesat sekali dengan ditandai lahirnya berbagai penemuan dibidang teknologi dan industri. Hampir semua lini kehidupan manusia moderen tidak dapat dipisahkan dengan produk hasil penemuan teknologi, baik teknologi sederhana maupun teknologi moderen.

Sejak ditemukannya komputer sebagai produk teknologi, hampir semua sektor kehidupan mulai menggunakan komputer sebagai alat bantu untuk mempercepat pekerjaan yang selama ini dilakukan secara manual oleh tangan manusia. Diakui  bahwa produk teknologi sebelumnya seperti mesin ketik ataupun kalkulator memiliki kecepatan atau keakuratan data lebih rendah dibandingkan dengan teknologi komputer. Fungsi komputer tidak hanya sebatas alat bantu pekerjaan, juga sebagai media belajar dan hiburan.3 Di kantor dan di rumah ataupun ditempat-tempat umum sekalipun, piranti ini mudah diketemukan. Bahkan penggunanya pun tidak hanya oramg dewasa, tetapi juga anak-anak.

 

 

C. Komputer sebagai Media Pembelajaran

Dibidang pendidikan, komputer telah digunakan sejak tahun 1960 khususnya untuk media pembelajaran bahasa.4 Disamping sejarah lahirnya teknologi komputer dan teknologi-teknologi lainnya adalah lahir dari loncatan dan warisan ilmu pengetahuan. Teknologi komputer dapat juga digunakan untuk memperlancar kegiatan dan proses dalam dunia pendidikan itu sendiri seperti pengetikan, pengarsipan perpustakaan, jadwal pelajaran, pembayaran uang sekolah dan masih banyak lagi kegiatan administrasi penunjang pendidikan yang terbantu oleh teknologi komputer.

Yang lebih menakjubkan lagi, dewasa ini perkembangan komputer sudah memasuki dunia maya internet. Dengan internet segala macam informsi seakan tampa jarak sedikitpun. Orang dengan cepat dan mudah mengakses informsi dan data yang diperlukannya walaupun jaraknya sangat jauh. Selain dari itu, para ahli seakan tidak mau diam untuk mengembangkan program komputer, sehingga bermunculan program-program komputer yang dapat membantu bahkan menjadi sumber belajar bagi siswa di sekolah seperti ilmu sosial, ilmu bahasa atau humaniora, bahkan IPA dan matematika bermunculan dimana-mana. Pada akhirnya, diharapkan komputer dapat menjadi media pembelajaran yang efektif di sekolah.

Komputer sebagai media pengajaran di sekolah, harus dapat berfungsi secara optimal.  Sebagaimana di ungkapkan oleh Bovee (1997 yang dikutip oleh Ouda Teda Ena) bahwa:

“Media adalah sebuah alat yang mempunyai fungsi menyampaikan pesan. Media pembelajaran adalah sebuah alat yang berfungsi untuk menyampaikan pesan pembelajaran. Pembelajaran adalah sebuah proses komunikasi antara pembelajar, pengajar dan bahan ajar. Komunikasi tidak akan berjalan tanpa bantuan sarana penyampai pesan atau media.”5

 

artinya bahwa, komputer harus dapat berfungsi sebagai jembatan penghubung antara siswa dan guru dalam memahami pesan yang disampaikan, sehingga diharapkan dapat terjalin komunikasi yang efektif.  Disadari bahwa jika terjadi hambatan dalam proses komunikasi maka akan dapat menimbulkan kebingungan, salah pengertian, bahkan mungkin menimbulkan salah konsep (misconception). Kesalahan komunikasi dalam proses belajar mengajar akan dirasakan oleh siswa sebagai penghambat proses belajarnya sehingga akhirnya akan mengakibatkan proses belajar mengajar menjadi terganggu. Selanjutnya, yang lebih penting lagi adalah media pembelajaran yang baik harus dapat meningkatkan motivasi dalam pembelajaran, merangsang siswa untuk mengingat materi sudah dipelajari dan memberikan rangsangan belajar yang baru bagi siswa di sekolah.

 

 

D. Manfaat Komputer dalam Proses Belajar dan Mengajar di Sekolah

            Selain manfaat komputer secara umum di sekolah, secara khusus di uraikan manfaat komputer dalam proses belajar mengajar di kelas yang biasa disebut e-learning. Pola e-learning memang merupakan teknologi pembelajaran yang relatif masih baru. Di berberbagai negara memiliki istilah-istilah tersendiri bahkan dalam bahasa indonesia belum ada padanan kata yang tepat untuk e-learning. Untuk menyederhanakan istilah maka electronic learning disingkat menjadi e-learning. Kata ini terdiri dari dua bagian, yaitu ‘e’ yang merupakan singkatan dari ‘electronica’ dan ‘learning’ yang berarti ‘pembelajaran’. Jadi e-learning berarti pembelajaran dengan menggunakan jasa bantuan perangkat elektronika. Sehingga, dalam pelaksanaannya e-learning menggunakan jasa audio, video atau perangkat komputer atau kombinasi dari ketiganya. 6

Pembelajaran menggunakan komputer sebagai media pengajaran pun masih terbagi dalam dua katagori yaitu pembelajaran berbasis CD ROM dan multimedia dengan memanfaatkan perangkat lunak komputer seperti CD interaktif yang berkaitan langsung dengan mata pelajaran. Dikatakan multimedia kerena penampilannya tidak cuma dalam bentuk teks tetapi juga dalam bentuk lain seperti gambar, suara dan film.7 Sedangakan katagori kedua adalah penggunaan komputer sebagai media pembelajaran yang berbasis internet atau Web.

            Kedua katagori diatas dapat digunakan secara terpisah atau sekaligus. Penggunaan komputer dengan berbasis CD-ROM dan multimedia bisa diterapkan apabila pada sekolah yang bersangkutan memiliki perangkat komputer. Sedangkan pembelajaran yang berbasis internet selain memiliki perangkat komputer, juga harus memiliki satuan sambungan telepon sebagai basis jaringannya. Tetapi pada umum kedua katagori diatas memiliki persamaan yang bersifat umum jika dijadikan media pembelajaran bagi siswa. Beberapa manfaat komputer sebagai media pengajaran di sekolah antara lain:

 

1.        Pengajaran Lebih Interaktif dan Menarik

Manfaat yang pertama dirasakan dalam menggunakan komputer sebagai media pengajaran adalah proses belajar matematika dikelas tidak lagi kaku, kering dan membosankan. Diberbagai software pembelajaran, materi pembelajaran disajikan sangat interaktif dan menarik. Sekarang ini, kecendrungan baru para penerbit buku pelajaran sekolah adalah menyediakan Compact Disc (CD) pembelajaran yang menyertai cetakan buku yang ditawarkan disetiap sekolah. Dengan bantuan CD, siswa dapat belajar sebagaimana dalam buku pelajaran. Keunggulannya adalah selain tampilan yang menarik dengan warna dan tata suara, juga disajikan dengan pola interaktif. Misalnya dalam pengajaran matematika sebuah bangun ruang dapat dilihat dari berbagai sudut sedangkan di buku hanya dapat dilihat dari satu sisi sedangkan sisi yang lain tidak terlihat. Selanjutnya, bangun ruang tersebut dapat dibuka layaknya membuka sebuah kubus didalam kehidupan seharai-hari. Selain itu, beberapa software diluncurkan untuk memperkaya hasanah pengetahuan siswa misalnya pesona fisika dan pesona matematika untuk SMP, SMA dari Kuantum inti dinamika, belajar matematika bersama Mr.sicerdas untuk SD, SMP dan SMA yang dikeluarkan oleh Wahana Komputer, dan Software anak cerdas dari Akal Interaktif8. Kesemuanya itu adalah sumber belajar yang dapat digunakan oleh siswa dalam pembelajaran khususnya matematika di sekolah.

Yang lebih menarik lagi adalah materi pembelajaran tidak saja disajikan sebagaimana tuntutan kurikulum, tetapi terkadang disajikan dalam bentuk-bentuk lain seperti studi kasus dengan pendekatan pada kejadian sehari-hari. Bahkan sekarang disetiap software pendidikan juga dilengkapi dengan animasi dan permainan gemes yang berhubungan dengan mata pelajaran yang dapat merangsang minat siswa dalam pembelajaran.

 

2.        Siswa Dapat Belajar Secara Mandiri dan Tidak Berpusat pada Guru.

Selain pembelajaran berbasis CD-ROM, pembelajaran di sekolah pun dapat dilakukan melalui katagori berbasis internet atau web. Katagori ini, memungkinkan siswa untuk belajar mandiri dengan menjadikan internet sebagai sumber belajar dan memegang kendali dalam keberhasilan belajarnya9. Peran guru diharapkan sebagai fasilitator dalam pembelajaran di sekolah. Guru atau pun sekolah seharusnya mendorong potensi-potensi yang dimiliki oleh siswa lebih optimal dengan menyediakan sarana pengembangan diri. Sehingga diharapkan siswa yang memiliki kemampuan lebih baik dari siswa yang lain dapat menyelesaikan pendidikanya dengan lebih cepat dari waktu yang ditentukan.

Pembelajaran yang berbasis siswa memberikan peluang kepada siswa untuk menentukan kapan pembelajaran dimulai, waktu penyelesaian pembelajaran, dan bagian mana dari modul pembelajaran dipelajari terlebih dahulu.  Selanjutnya, evaluasi dari hasil pembelajaran tersebut dapat dilakukan atas kesepakatan bersama antara siswa dan guru.

Selanjutnya, masalah komunikasi antara siswa dan guru menjadi lebih mudah dengan bantuan internet. Proses belajar yang terkungkung diantara dinding-dinding sekolah dengan pola tatap muka dapat dirubah dengan proses pembelajaran diluar sekolah. Ketika siswa mendapat tugas diluar lingkungan sekolah maka siswa dapat berhubungan dengan guru ataupun siswa yang lain melalui e-mail atau chetting. Demikian juga apabila siswa yang memiliki kendala atau persoalan dalam pelajaran dapat berkomunikasi dengan guru atau pihak sekolah dengan lebih cepat, mudah dan murah.  

 

3.        Bebas dari Tekanan Psikologis

Persoalan lain yang tidak kalah pentingnya dengan pembelajaran berbasis komputer sebagai media adalah berkurangnya dominasi guru dalam proses pembelajaran. Sebagaimana di ungkapkan sebelumnya, kurangnya minat siswa pada pelajaran metemaika adalah salah satunya tidak terjalinnya komunikasi yang baik antara guru dan siswa. Sebagai manusia, guru memiliki keterbatasan dan fluktuasi emosi yang beragam. Temperamen guru yang tidak terkendali menjadi salah satu sebab menurunkan minat dan apreseasi siswa terhadap pelajaran matematika.

Hal tersebut diatas, tidak akan ditemukan apabila dominasi guru berkurang dan digantikan oleh komputer. Komputer tidak pernah memarahi atau mempelototi siswa yang salah mengerjakan suatu permasalahan yang disajikan, walaupun kesalahan itu dilakukan berkali-kali. Komputer akan membantu siswa dan menuntunnya dengan baik sepanjang mengikuti prosedur. Sehingga siswa dapat belajar dengan tenang, bebas dan tanpa tekanan psikologis dari pihak manapun, yang pada akhirnya diharapkan dapat meningkatkan minat pada pelajaran matematika.

 

 

E. Penutup

 

                Sebagai uraian penutup, dapat disimpulkan bahwa komputer memiliki banyak manfaat dalam kehidupan manusia sekarang. Khususnya dalam pendidikan dan pengajaran disekolah, manfaat komputer dapat dirasakan langsung maupun tidak langsung. Banyak pekerjaan yang awalnya dilakukan manual oleh manusia dapat diselesaikan dengan cepat dan akurat dengan bantuan komputer.

            Sedangkan manfaat langsung dari penggunaan komputer, baik yang berbasis CD- ROM maupun berbasis internet yaitu yang pertama, pembelajaran di sekolah dapat diajarkan dengan lebih menarik dan interaktif. Kedua, siswa dapat belajar mandiri dengan memanfaatkan komputer dengan basis internet sebagai sumber belajar. Ketiga, yang tidak kalah pentingnya adalah tekanan psikolagis yang bersumber dari pihak lain dalam proses belajar dapat dikurangi.

 

 

Catatan akhir:

 

1 ”Bahasa Inggris dan Matematika jeblok, nekat bakar sekolah”. Lampung Post, hari Jumat tanggal 23 juni 2006

 

2  Anton Abdulbasal Kamil, “Ilmu Matematika dan Perkembangannya”.Pikiran rakyat, Tanggal 5 Pebruari 2004

 

3  Ririn safriani, “Mengenal Komputer sejak dini”. Seputar Indonesia, Senin 4 September 2006, hlm 26

4 Ouda Teda Ena,”Membuat Media pembelajaran Interaktif dengan Piranti lunak Presentasi”, http://www.e-ducatif.net/artikel, tanggal 5 september 2006

5 Ibid.

6 Sukartawi, “Prinsip Dasar e-learning: Teori dan Aplikasinya”. Jurnal Teknodik,edisi no.12/VII/Oktober 2003

 

7 Ivan Sudirman, “Perkembangan Sofeware Komputer”, Al Manar, Copyright 2003

8 Lukas lukmana, “Dukungan Industri Software dalam Implementasi e-learning di Dunia Pendidikan”, http://www.e-dukasi.net/artikel. 5 september 2006.

9 Ouda Teda Ena , op. cit

Bibliografi

 

Abdulbasal Kamil, Anton.  “Ilmu Matematika dan Perkembangannya,”  Pikiran rakyat, tanggal 5 Pebruari 2004

Lukmana, Lukas.  “Dukungan Industri Software dalam Implementasi e-learning di Dunia Pendidikan,”  http://www.e-dukasi.net/artikel. tanggal 5 september 2006.

 

Safriani, Ririn.  “Mengenal Komputer Sejak Dini,”  Seputar Indonesia, Senin 4 September 2006, hlm 26

 

Sudirman, Ivan.  “Perkembangan Software Komputer,”  Al Manar, Copyright 2003

 

Sukartawi,  “Prinsip Dasar e-learning: Teori dan Aplikasinya,”  Jurnal Teknodik, edisi no.12/VII/Oktober 2003

 

Teda Ena, Ouda.  ”Membuat Media pembelajaran Interaktif dengan Piranti lunak Presentasi”, http://www.e-ducatif.net/artikel, tanggal 5 september 2006

 

______,  Lampung Post,   hari Jumat tanggal 23 juni 2006


 

 

 

 

 

TES PRESTASI BELAJAR MATEMATIKA

SISWA KELAS VII SEMESTER 1

MTs Negeri 4 Jakarta

 

 

 

Untuk memenuhi tugas matakuliah Konstruksi Alat Ukur  yang dibina oleh:

Ir. Rita Markus, M.Psi.T, Drs. Saryono, M.Psi.T, Muh. Yani, M.Psi.T

 

 

 

 

 

 

 

 

 

 

 

 

Disusun oleh Kelompok 1:

 

Muhammad Nursalam (0606014830)

Rahman Pujiarto (0606014963)

Adnan Syaufi (0606014332)

Jusnawing (0606014654)

 

 

 

 

 

 

 

 

 BAB I

PENDAHULUAN

 

A.  Latar Belakang

Tes hasil belajar matematika pada dasarnya dilaksanakan untuk mengukur tingkat perkembangan hasil belajar matematika peserta didik. Informasi hasil belajar ini berupa kompetensi dasar yang sudah dipahami dan yang belum dipahami oleh peserta didik.

Agar dapat menjalankan fungsinya sebagai alat ukur dengan baik maka tes hasil belajar tersebut haruslah tes yang berkualitas baik. Dan kualitas suatu tes sangat ditentukan oleh kualitas item-item soal yang disusun dalam tes tersebut. Sementara untuk memperoleh item-item soal yang berkualitas, langkah-langkah yang ditempuh dalam proses pembuatan soal harus benar, mulai dari menentukan tujuan tes, penyusunan kisi-kisi, penulisan soal, telaah diikuti dengan perbaikan soal, ujicoba, dan analisis.

Sebuah tes dengan item-item soal berkualitas baik, walaupun dengan jumlah sedikit, akan jauh lebih berguna dibandingkan dengan sebuah tes yang berisi puluhan item soal berkualitas rendah, karena item-item soal berkualitas rendah akan menurunkan fungsi tes dan memberikan hasil pengukuran yang kurang baik.

Tes tertulis, sebagai salah satu bentuk tes hasil belajar, merupakan tes yang penyajian maupun penggunaannya dalam bentuk tertulis. Peserta didik memberikan jawaban atas pertanyaan atau pernyataan maupun tanggapan atas pertanyaan dan pernyataan yang diberikan. Bentuk tes ini dapat berupa pilihan ganda, menjodohkan, benar-salah, isian singkat dan uraian.

Berdasarkan hal di atas maka kami mencoba untuk menyusun sebuah tes hasil belajar matematika untuk tingkat sekolah menengah pertama.

 

 B.  Tujauan Penyusunan

            Tujuan dari penyusun tes prestasi belajar matematika ini adalah untuk Untuk mendapatkan tes prestasi belajar  matematika yang berkualitas dalam hal reliabel dan valid.

 

C.  Manfaat Penyusunan

            Adapun manfaat dari penyusunan tes prestasi belajar matematika ini, adalah:

1.  Bagi siswa, dapat mengetahui sejauhmana kemampuannya menyerap materi yang sudah diajarkan.

2.  Bagi guru, dapat dijadikan sebagai bahan  evaluasi  terhadap  program yang sudah dilaksanakan dan menentukan proses bimbingan pada siswa selanjutnya.


BAB II

LANDASAN TEORI

 

A. Tes Prestasi Belajar Matematika

1.   Prestasi Belajar

Belajar pada dasarnya adalah perubahan tingkah laku yang relatif menetap yang dapat diperoleh, diantaranya, melalui pengalaman.  Pengalaman dapat berupa interaksi dengan lingkungan eksternal dan melibatkan proses yang tidak nampak.  Belajar merupakan proses untuk memperoleh prestasi hasil belajar.  Belajar juga merupakan perilaku aktif siswa dalam menghadapi lingkungan untuk mendapatkan pengalaman, pengetahuan, pemahaman, dan makna.  Menurut Wortman, Loftus, dan Marshall (1985), belajar merupakan kegiatan mental individu yang kompleks dan biasanya menghasilkan perubahan tingkah laku dan pola pikir pelajar, sehingga dengan adanya perubahan maka dapat dikatakan bahwa kegiatan belajar (learning) telah terjadi. 

Kegiatan belajar merupakan kegiatan utama dalam keseluruhan proses pendidikan di sekolah yang bertujuan menghasilkan perubahan-perubahan dalam bidang pengetahuan, pemahaman, penerapan, daya analisis, sintesis dan evaluasi (Woolfolk dalam Hawadi, 2001). Untuk melihat sejauh mana perubahan-perubahan pada siswa sebagai akibat dari proses pendidikan dapat dilihat melalui Prestasi belajarnya. 

            Prestasi belajar dalam Kamus Besar Bahasa Indonesia didefinisikan  sebagai penguasaan pengetahuan atau keterampilan yang dikembangkan oleh mata pelajaran, lazimnya ditunjukkan dengan nilai tes atau angka nilai yang diberikan oleh guru (Depdikbud, 1990). Definisi ini sejalan dengan Hawadi (2001) yang mengatakan bahwa prestasi belajar menggambarkan penguasaan siswa terhadap materi pelajaran yang diberikan. Demikian juga Arifin (1989), mendefinisikan prestasi belajar (achievement) sebagai kemampuan seorang siswa dalam menguasai bahan pelajaran yang telah diajarkan kepadanya.

            Dari beberapa definisi tersebut, dapat disimpulkan bahwa prestasi belajar siswa adalah

            Menurut Syah (1999) terdapat lima manfaat dari adanya prestasi belajar siswa, yaitu:

a.  Mengetahui tingkat kemajuan belajar ang dicapai siswa dalam kurun waktu tertentu.

b.   Mengetahui posisi siswa dalam kelompok kelasnya.

c.  Mengetahui tingkat usaha yang dilakukan siswa dalam belajar dimana jika hasilnya bagus, berarti menunjukkan tingkat usaha yang efisien, sedangkan hasil yang minim berarti usahanya kurang efisien.

d.  Mengetahui sejauh mana siswa telah mendayagunakan kapasitas kognitifnya untuk keperluan belajar.

e.  Mengetahui tingkat daya guna dan hasil guna metode mengajar yang telah digunakan guru dalam proses belajar mengajar untuk melihat metode yang digunakan baik atau tidak.

 

2.   Tes

            Tes adalah himpunan pertanyaan yang harus dijawab, atau pertanyaan-pertanyaan yang harus dipilih/ditanggapi, atau tugas-tugas yang harus dilakukan oleh orang yang dites dengan tujuan untuk mengukur suatu suatu aspek (perilaku) tertentu dari orang yang dites (Depdiknas, 2003).

 

3.   Tes Prestasi belajar

            Tes prestasi belajar (achievement) adalah sekumpulan butir soal yang disusun secara terencana untuk mengukur sejauh mana tingkat penguasaan peserta didik terhadap materi pelajaran yang telah diberikan guru (Pussisjian, 1993).

            Ada beberapa hal yang harus diperhatikan dalam mengukur prestasi belajar siswa, yaitu:

a.   Tes prestasi harus mengukur hasil belajar yang telah dibatasi secara jelas sesuai dengan tujuan instruksional.

b.   Tes prestasi harus mengukur suatu sampel yang representatif dari hasil belajar dan dari materi yang dicakup oleh program instruksional atau pengajaran.

c.   Tes prestasi harus berisi butir-buitr soal dengan tipe yang paling cocok guna mengukur hasil belajar yang diinginkan.

d.   tes prestasi harus dirancang sedemikian rupa agar sesuai dengan tujuan penggunaan hasilnya.

e.   Reliabilitas tes prestasi harus diusahakan setinggi mungkin dan hasil ukurnya harus ditafsirkan dengan hati-hati.

f.    Tes prestasi harus dapat digunakan untuk meningkatkan belajar para anak didik.

 

4.   Matematika

            Matematika yang diajarkan di jenjang pendidikan Sekolah Dasar, Sekolah Lanjutan Pertama dan Sekolah Menengah Umum disebut matematika sekolah. Sering juga dikatakan bahwa matematika sekolah adalah unsur-unsur atau bagian-bagian dari matematika yang dipilih berdasarkan atau berorientasi kepada kepentingan pendidikan atau perkembangan IPTEK (Soedjadi, 2000).

            Ebbutt dan Straker (1995) mendefinisikan matematika sekolah, sebagai kegiatan penulusuran pola dan hubungan, kreativitas yang memerlukan imajinasi, intuisi, dan penemuan serta sebagai kegiatan pemecahan masalah. Dimana dalam proses pemecahan maalah tersebut menggunakan informasi dan pengetahuan mengenai bentuk-bentuk dan pngukuran, serta menggunakan kemampuan untuk mengkalkulasikan, dan yang terpenting dalam melakukan semuanya itu dibutuhkan kemampuan dalam melihat dan memanfaatkan hubungan-hubungan. 

            Matematika dapat dibagi menjadi empat bidang (system), salah satunya adalah  teori bilangan (sering disebut juga “Queen of Mathematics” atau aritmatika) yaitu studi mengenai struktur, relasi, dan operasi bilangan bulat dan pecahan (Sutrisman dan Tambunan, 1987).

 

5.   Tes Prestasi Belajar Matematika

Yang dimaksud dengan tes prestasi belajar matematika adalah  sekumpulan butir soal yang tersusun secara terencana untuk mengukur tingkat kemampuan siswa dalam pelajaran matematika.

 

B.  Pengembangan Spesifikasi Tes Hasil Belajar

Langkah awal dalam mengembangkan tes adalah menetapkan spesifikasi tes, yaitu berisi uraian yang menunjukkan keseluruhan karakteristik yang harus dimiliki suatu tes. Spesifikasi yang jelas akan mempermudah dalam menulis soal, dan siapa saja yang menulis soal akan menghasilkan tingkat kesulitan yang relatif sama. Penyusunan spesifikasi tes mencakup kegiatan berikut ini: (a) menentukan tujuan tes, (b) menyusun kisi-kisi tes, (c) memilih bentuk tes, dan (d) menentukan panjang tes.

1.   Tujuan Tes

Tujuan tes yang penting adalah untuk : (a) mengetahui tingkat kemampuan peserta didik, (b) mengukur pertumbuhan dan perkembangan peserta didik, (c) mendiagnosis kesulitan belajar peserta didik, (d) mengetahui hasil pengajaran, (e) mengetahui hasil belajar, (f) mengetahui pencapaian kurikulum, (g) mendorong peserta didik belajar, dan (h) mendorong guru agar mengajar yang lebih baik. Seringkali tes digunakan untuk beberapa tujuan, namun tidak akan memiliki keefektifan yang sama untuk semua tujuan.

Ditinjau dari tujuannya, ada empat macam tes yang banyak digunakan di lembaga pendidikan, yaitu : (a) tes penempatan, (b) tes diagnostik, (c) tes formatif, dan (d) tes sumatif (Thorndike & Hagen, 1977). Tes hasil belajar pada siswa menengah pertama pada umumnya menggunakan tes diagnostik, formatif, dan sumatif.

Tes penempatan dilaksanakan pada awal pelajaran, digunakan untuk mengetahui tingkat kemampuan yang telah dimiliki peserta didik. Untuk mempelajari suatu mata pelajaran dibutuhkan pengetahuan pendukung. Pengetahuan pendukung ini diketahui dengan menelaah hasil tes penempatan, aApakah seorang peserta didik perlu matrikulasi, tambahan pelajaran atau tidak, ditentukan dari hasil tes ini.

Tes diagnostik berguna untuk mengetahui kesulitan belajar yang dihadapi peserta didik, termasuk kesalahan pemahaman konsep. Tes ini dilakukan apabila diperoleh informasi bahwa sebagian besar peserta didik gagal dalam mengikuti proses pembelajaran pada mata pelajaran tertentu. Hasil tes diagnostik memberikan informasi tentang konsep-konsep yang belum dipahami dan yang telah dipahami. Oleh karena itu, tes ini berisi materi yang dirasa sulit oleh peserta didik, namun tingkat kesulitan tes ini cenderung rendah.

Tes formatif bertujuan untuk memperoleh masukan tentang tingkat keberhasilan pelaksanaan proses pembelajaran. Masukan ini berguna untuk memperbaiki strategi mengajar. Tes ini dilakukan secara periodik sepanjang semester. Materi tes dipilih berdasarkan tujuan pembelajaran tiap pokok bahasan atau sub pokok materi. Jadi tes ini sebenarnya bukan untuk menentukan keberhasilan belajar semata, tetapi untuk mengetahui keberhasilan proses pembelajaran.

Tes sumatif diberikan di akhir suatu pelajaran, atau akhir semester. Hasilnya untuk menentukan keberhasilan belajar peserta didik. Tingkat keberhasilan ini dinyatakan dengan skor atau nilai, pemberian sertifikat, dan sejenisnya. Tingkat kesukaran soal pada tes sumatif bervariasi, sedang materinya harus mewakili bahan yang telah diajarkan.

2.   Kisi-Kisi Tes

Kisi-kisi merupakan matriks yang berisi spesifikasi soal-soal yang akan dibuat. Kisi-kisi ini merupakan acuan bagi penulis soal, sehingga siapapun yang menulis soal akan menghasilkan soal yang isi dan tingkat kesulitannya relatif sama. Matriks kisi-kisi soal terdiri dari dua jalur, yaitu kolom dan baris. Kolom menyatakan standar kompetensi, kompetensi dasar, materi pokok, indikator, jenis tagihan, bentuk soal, dan contoh soal (lihat Lampiran 1).

Ada tiga langkah dalam mengembangkan kisi-kisi tes dalam sistem penilaian berbasis kompetensi dasar, yaitu:

1)   Menulis kompetensi dasar,

2)   Menulis materi pokok,

3)   Menentukan indikator,

4)   Menentukan jumlah soal.

Penentuan indikator-indikator yang dapat diukur digunakan kompetensi dasar sebagai acuan. Hal ini dimaksudkan untuk mengurangi penyimpangan-penyimpangan dalam memilih bahan yang diujikan agar memenuhi persyaratan kesahihan isi. Hal yang penting dalam menentukan materi tes adalah kompetensi dasar yang ingin dicapai dan jenis tagihannya. Ada kompetensi dasar yang diukur melalui tugas rumah, ada yang melalui ulangan harian.

3.   Pemilihan Bentuk Tes

Pemilihan bentuk tes yang tepat ditentukan oleh tujuan tes, jumlah peserta tes, waktu yang tersedia untuk memeriksa lembar jawaban tes, cakupan materi tes, dan karakteristik mata pelajaran yang diujikan. Bentuk tes objektif pilihan ganda dan bentuk tes benar salah sangat tepat digunakan bila jumlah peserta tes banyak, waktu koreksi singkat, dan cakupan materi yang diujikan banyak. Kelebihan tes objektif bentuk pilihan adalah lembar jawaban dapat diperiksa dengan komputer, sehingga objektivitas penskoran dapat dijamin. Namun membuat tes objektif yang baik tidak mudah.

Bentuk tes uraian objektif sering digunakan pada mata pelajaran yang batasnya jelas, misalnya mata pelajaran Fisika, Matematika, Kimia, Biologi, dan sebagainya. Soal pada tes ini jawabannya hanya satu, mulai dari memilih rumus yang tepat, memasukkan angka dalam rumus, menghitung hasil, dan menafsirkan hasilnya. Pada tes bentuk uraian objektif ini, sistem penskoran dapat dibuat dengan jelas dan rinci.

4.   Panjang Tes

Panjang tes ditentukan oleh waktu yang tersedia untuk melakukan ujian dengan memperhatikan bahan yang diujikan dan tingkat kelelahan peserta tes. Pada umumnya tes dilakukan selama 90 menit sampai dengan 120 menit. Untuk tes bentuk pilihan ganda dengan tingkat kesulitan rata-rata sedang, tiap item soal memerlukan waktu pengerjaan sekitar 1 menit. Untuk bentuk uraian banyaknya item soal tergantung pada kompleksitas soal. Walau demikian disarankan menggunakan lebih banyak soal dibanding hanya beberapa soal agar kesahihan isi tes lebih baik.

Ada tiga hal utama yang harus dipertimbangkan dalam menentukan jumlah soal yang diujikan, yaitu : bobot masing-masing bagian yang telah ditentukan dalam kisi-kisi, keandalan yang diinginkan, dan waktu yang tersedia. Bobot skor tiap soal bisa ditentukan sebelum tes digunakan, yaitu berdasar tingkat kompleksitas atau kesulitannya, yang komplek atau sulit diberi bobot yang lebih tinggi dibanding dengan yang lebih mudah.

Pemberian bobot dapat pula dilakukan setelah tes digunakan, yaitu dengan menghitung simpangan baku tiap butir soal. Penentuan bobot didasarkan pada besarnya simpangan bakunya, seperti butir yang simpangan baku skornya besar diberi bobot besar. Demikian pula butir yang memiliki simpangan baku kecil diberi bobot kecil.

Jumlah soal yang diperlukan tiap jenis tes untuk suatu satuan waktu tertentu harus diperhitungkan dengan tepat. Hal ini untuk menjaga agar waktu yang disediakan tidak kurang atau berlebih. Bagi guru yang berpengalaman dapat menentukan jumlah soal dengan tepat.

 

B.  Penulisan Soal

Penulisan soal adalah karakteristik yang diuraikan dalam kisi-kisi. Soal yang digunakan dalam penilaian kelas umumnya dibedakan menjadi dua, yaitu : (1) Tes obyektif, yang umumnya sangat terstruktur dan mengharuskan peserta didik mengisi kata atau memilih jawaban yang benar dari sejumlah alternatif yang disajikan. (2) Tes subyektif, yang umumnya kurang terstruktur dan mengharuskan peserta didik memilih, mengorganisasi, dan menyajikan jawaban dengan kalimat sendiri.

1.    Bentuk Pilihan Ganda

Pedoman utama dalam pembuatan item soal bentuk pilihan ganda (Ebel, 1977) adalah :

1)    Pokok soal harus jelas.

2)    Pilihan jawaban homogen dalam arti isi.

3)    Panjang kalimat pilihan jawaban relatif sama.

4)    Tidak ada petunjuk jawaban benar.

5)    Hindari mengggunakan pilhan jawaban : semua benar atau semua salah.

6)    Pilihan jawaban angka diurutkan.

7)    Semua pilihan jawaban logis.

8)    Jangan menggunakan negatif ganda.

9)    Kalimat yang digunakan sesuai dengan tingkat perkembangan peserta tes.

10)  Bahasa Indonesia yang digunakan baku.

11)  Letak pilihan jawaban benar ditentukan secara acak.

2.    Bentuk Uraian Objektif

Pengerjaan soal ini melalui suatu prosedur atau langkah-langkah tertentu. Setiap langkah ada skornya. Objektif di sini dalam arti apabila diperiksa oleh beberapa guru dalam bidang studi tersebut hasil penskorannya akan sama. Pertanyaan pada bentuk soal ini di antaranya adalah : hitunglah, tafsirkan, buat kesimpulan dan sebagainya.

3.    Bentuk Uraian Non-objektif

Bentuk tes ini dikatakan non-objektif karena penilaian yang dilakukan cenderung dipengaruhi subjektivitas dari penilai. Bentuk tes ini menuntut kemampuan peserta didik untuk menyampaikan, memilih, menyusun, dan memadukan gagasan atau ide yang telah dimilikinya dengan menggunakan kata-katanya sendiri. Keunggulan bentuk tes ini dapat mengukur tingkat berpikir dari yang rendah sampai yang tinggi, yaitu mulai dari hapalan sampai dengan evaluasi. Namun demikian, sebaiknya hindarkan pertanyaan yang mengungkap hafalan seperti dengan pertanyaan yang dimulai dengan kata : apa, siapa, di mana. Selain itu bentuk ini relatif mudah membuatnya.

Kelemahan bentuk tes ini adalah : (1) penskoran sering dipengaruhi oleh subjektivitas penilai, (2) memerlukan waktu yang lama untuk memeriksa lembar jawaban, dan (3) cakupan materi yang diujikan sangat terbatas, (4) dan adanya efek bluffing. Untuk menghindari kelemahan tersebut cara yang ditempuh adalah : (1) jawaban tiap soal tidak panjang, sehingga bisa mencakup materi yang banyak, (2) tidak melihat nama peserta ujian, (3) memeriksa tiap butir secara keseluruhan tanpa istirahat,dan (4) menyiapkan pedoman penskoran.

Langkah membuat tes ini adalah sebagai berikut.

1)    Menulis soal berdasarkan kisi-kisi pada indikator.

2)    Mengedit pertanyaan :

a)    Apakah pertanyaan mudah dimengerti?

b)   Apakah data yang digunakan benar?

c)    Apakah tata letak keseluruhan baik?

d)   Apakah pemberian bobot skor sudah tepat?

e)    Apakah kunci jawaban sudah benar?

f)    Apakah waktu untuk mengerjakan tes cukup?

Kaidah penulisan soal bentukuraian non-objektif :

1)    Gunakan kata-kata: mengapa, uraikan, jelaskan, bandingkan, tafsirkan, hitunglah, buktikan.

2)    Hindari penggunakan pertanyaan: siapa, apa, bila.

3)    Menggunakan bahasa Indonesia yang baku.

4)    Hindari penggunaan kata-kata yang dapat ditafsirkan ganda.

5)    Buat petunjuk mengerjakan soal.

6)    Buat kunci jawaban.

7)    Buat pedoman penskoran.

Penskoran bentuk tes ini bisa dilakukan secara analitik atau global. Analitik berarti penskoran dilakukan bertahap sesuai kunci jawaban, sedang yang global dibaca secara keseluruhan untuk mengetahui ide pokok dari jawaban soal kemudian diberi skor.

4.    Bentuk jawaban Singkat

Bentuk jawaban singkat ditandai dengan adanya tempat kosong yang disediakan bagi pengambil tes untuk menuliskan jawabannya sesuai dengan petunjuk. Ada tiga jenis soal bentuk ini, yaitu: jenis pertanyaan, jenis melengkapi atau isian, dan jenis identifikasi atau asosiasi. Kaidah-kaidah utama penyusunan soal bentuk ini adalah sebagai berikut.

1)    Soal harus sesuai dengan indikator.

2)    Jawaban yang benar hanya satu.

3)    Rumusan kalimat soal harus komunikatif.

4)    Item soal menggunakan Bahasa Indonesia yang baik dan benar.

5.    Bentuk Menjodohkan

Soal bentuk menjodohkan atau memasangkan terdiri dari suatu premis, suatu daftar kemungkinan jawaban, dan suatu petunjuk untuk menjodohkan masing-masing premis itu dengan satu kemungkinan jawaban. Biasanya nama, tanggal/tahun, istilah, frase, pernyataan, bagian dari diagram, dan yang sejenisnya digunakan sebagai premis. Hal-hal yang sama dapat pula digunakan sebagai alternatif jawaban. Kaidah-kaidah pokok penulisan soal jenis menjodohkan ini adalah sebagai berikut.

1)    Soal harus sesuai dengan indikator.

2)    Jumlah alternatif jawaban lebih banyak dari pada premis.

3)    Alternatif jawaban harus "nyambung" atau berhubungan secara logis dengan premisnya.

4)    Rumusan kalimat soal harus komunikatif.

5)    Item soal menggunakan Bahasa Indonesia yang baik dan benar.

 

C.   Penelaahan Soal

Item-item soal dari suatu tes yang telah disiapkan harus ditelaah dulu sebelum digunakan. Cara menelaah butir-butir tes tersebut adalah: (1) telaah secara kualitatif, yakni telaah oleh teman sejawat dalam rumpun keahlian yang sama, dilakukan sebelum tes diujicoba atau digunakan, (2) telaah secara kuantitatif, yakni analisis berdasar hasil uji coba atau hasil penggunaaan tes, dilakukan setelah tes diujicoba atau digunakan. Hasil telaah ini merupakan masukan untuk perbaikan tes. 

 

E.   Uji Coba Tes

Setelah sejumlah besar item soal ditulis dan dikaji dalam penelaahan soal, maka langkah selanjutnya adalah pengumpulan data empiris melalui uji coba sesuai dengan tujuan pengembangan tes yang sedang dilakukan.

 

F.   Analisi Item Soal

Ujian yang diselenggarakan oleh guru mempunyai banyak kegunaan, baik bagi fihak peserta didik, sekolah, ataupun bagi guru sendiri. Bagi peserta didik, hasil tes yang diselenggarakan oleh guru tersebut mempunyai banyak kegunaan, antara lain adalah

1.    dapat mengetahui  apakah  ia sudah  menguasai  bahan yang disajikan oleh guru;

2.    dapat mengetahui bagian mana yang belum dikuasainya sehingga ia berusaha untuk mempelajarinya lagi sebagai upaya perbaikan;

3.    dapat menjadi penguatan bagi peserta didik yang sudah memperoleh skor tinggi dan menjadi dorongan untuk belajar lagi;

4.    dapat menjadi diagnosis bagi peserta didik.

 

Agar dapat memanfaatkan hasil ujian secara efektif, perlu dilakukan analisis terhadap hasil tes/hasil ujian yang telah dicapai oleh para peserta didik. Caranya yaitu dengan membuat tabel spesifikasi yang mampu menunjukkan konsep/subkonsep atau tema/subtema kompetensi dasar mana yang belum dikuasai peserta didik. Hal ini akan dapat terlihat bila item-item soal yang diujikan sudah dikelompokkan sesuai dengan penguasaan konsep/subkonsep atau tema/subtema dalam tiap indikator dan kompetensi dasar yang hendak diukur.

 

G.   Seleksi dan Perakitan Soal (Bentuk Akhir)

Setelah seluruh item soal ditelaah dari ranah materi, konstruksi, dan bahasa, kemudian di kelompokkan menjadi tiga, yaitu : (a) butir-butir tes yang dianggap baik atau diterima, (b) butir-butir tes yang tidak baik atau ditolak, dan (c) butir-butir tes yang kurang baik, diperbaiki. Butir-butir tes yang baik (memenuhi persyaratan yang ditetapkan) kemudian ditatata dirakit dengan caratertentu.

Dalam merakit tes, item-item soal dapat dikelompokkan menurut urutan kompetensi dasar, taraf kesukaran, dan format (komposisi bentuk soal). Urutan soal pada tiap kompetensi dasar diurutkan menurut tingkat kesulitannya, mulai dari yang mudah ke yang sulit. Berdasarkan format, urutan soal dimulai dari bentuk isian singkat, kemudian pilihan ganda, dan terakhir uraian.

 


BAB III

METODE PENELITIAN

 

A.  Populasi dan Sampel Penelitian

Populasi dalam penelitian ini adalah siswa kelas VII (tujuh) semester 1 pada Madrasah Tsanawiyah Negeri 4 Jakarta. Di Madrasah ini, kelas VII (tujuh) merupakan kelas paralel yang terdiri  dari 7 kelas dimana masing-masing kelas berisi 35 siswa sehingga total jumlah siswa kelas VII adalah 245 siswa.

Dalam penelitian ini populasi yang dijadikan sampel hanya 3 kelas yaitu kelas VIIA, VIIB, dan VIIC dengan jumlah 105 siswa. Alasan pengambilan sampel hanya 3 kelas, adalah: 1) Keterbatasan peneliti dari segi waktu dan biaya; 2). Pihak Madrasah hanya mengizinkan peneliti untuk mengambil sampel di 3 kelas karena mengejar target ketercapaian kurikulum yang sudah ditetapkan oleh pihak Madrasah.

 

B.  Tes Prestasi Belajar

Tes prestasi belajar yang digunakan dalam penelitian ini adalah tes yang dibuat sendiri oleh peneliti. Materi tes mengacu pada Kurikulum 2004 sesuai Kurikulum yang digunakan madrasah dan sudah diajarkan kepada siswa,  terdiri dari 30 soal dengan 4 alternatif jawaban. Waktu yang disediakan untuk menjawab saol adalah 3 menit untuk masing-masing soal sehingga untuk keseluruhan soal diperlukan waktu 90 menit.  Tes prestasi belajar yang dirumuskan, didasarkan pada ketentuan berikut:  

 

1.  Konstruk

Tes prestasi belajar matematika pada penelitian ini dikhususkan pada materi ”Pemahaman operasi bilangan bulat dan pecahan pada siswa kelas VII semester 1.”

 

2.  Definisi Operasional

 Pemahaman operasi bilangan bulat dan pecahan adalah kemampuan siswa dalam: 1) menyelesaikan operasi bilangan bulat dan mengenal sifat operasi bilangan bulat, 2) mengenal pecahan dan dapat melakukan operasi bilangan pecahan, meliputi pemahaman konsep, penalaran dan komunikasi, serta pemecahan masalah.

 

3.  Indikator

3.1. Menyelasaikan operasi bilangan bulat dan mengenal sifat operasi  bilangan bulat:

1)      Memberikan contoh bilangan bulat

2)      Menyatakan sebuah besaran sehari-hari yang menggunakan bilangan negatif

3)      Menentukan letak bilangan bulat dalam garis bilangan.

4)      Menyelesaikan operasi tambah, kurang, kali, bagi dan pangkat bilangan bulat termasuk operasi campuran.

5)      Menentukan sifat-sifat perkalian dan pembagian bilangan negatif dengan negatif dan positif dengan negatif.

6)      Menghitung kuadrat dan pangkat tiga serta akar kuadrat dan akar pangkat tiga bilangan bulat.

7)      Menaksir hasil kali perkalian dan pembagian bilangan bulat.

8)      Menemukan dan menggunakan sifat perkalian, pembagian dan perpangkatan bilangan bulat berpangkat untuk menyelesaikan masalah.

3.2.   Mengenal bilangan pecahan dan melakukan operasi bilangan pecahan

1)      Memberikan contoh berbagai bentuk dan jenis bilangan pecahan: biasa, campuran, desimal, persen dan permil.

2)      Mengubah bentuk pecahan ke bentuk yang lain.

3)      Mengurutkan pecahan dan menentukan letaknya pada garis bilangan.

4)      Menyelesaikan operasi hitung: tambah, kurang, kali, bagi, dan pangkat dengan melibatkan pecahan serta mengaitkannya dalam kejadian sehari-hari.

5)      Menuliskan bilangan pecahan bentuk baku.

6)      Melakukan pembulatan bilangan pecahan sampai satu atau dua desimal.

7)      Menaksir hasil operasi hitung bilangan pecahan.

 

C.     Prosedur Pengumpulan Data

Pengambilan data (pelaksanaan tes prestasi belajar) dilakukan sehari, dimana siswa diminta menjawab tes prestasi belajar yang sudah disiapkan oleh peneliti. Untuk tidak mengganggu proses belajar mengajar, tes dilakukan pada saat ada jam  matematika di kelas yang dijadikan sampel penelitian dan diawasi oleh guru matematika madrasah itu sendiri. 

 

D.    Teknik Analisa Data

Data hasil pengumpulan data pada penelitian ini dianalisis dengan menggunakan ITEMAN.  Analisis dengan ITEMAN dapat memberikan informasi mengenai tingkat kesukaran soal, daya pembeda, dan sebaran jawaban. Selain menghasilkan statistik butir soal, juga menghasilkan statistik tes yang meliputi reliabilitas tes, standard error dan distribusi skor.                                                                                           

 

 

 

 

 

 

 

DAFTAR PUSTAKA

 

 

Depdiknas, Kurikulum SLTP tahun 2004.

 

Depdiknas, Manual ITEM and Test Analisis (ITEMAN).

 

Depertemen Pendidikan dan Kebudayaan. Kamus Besar bahasa Indonesia. Balai Pustaka, 1990.

Ebbutt, S. & Straker, A. 1995. Children and Mathematis: Mathematics in primary School. London: Collins Educational.

Hawadi- Reni Akbar, 2001. Psikologi Perkembangan Anak. Jakarta: PT Gramedia Widiasarana Indonesia.

 

Soedjadi, R., 2000. Kiat Pendidikan Matematika di Indonesia. Jakarta: Direktorat jenderal Pendidikan Tinggi Departemen Pendidikan Nasional.

 

Syah, M., 2000. Psikologi Belajar. Jakarta: Logos.

Wortman, Camille B., Elizabeth F. Loftus and Mary E.Marshall. 1985. Psychology. New York: Alfred A. Knopt. Inc.

 

Here's a link to the site of the company I work for:

www.trellix.com

Here's a link to a friend's site:

www.myfriend.com