Testets tillförlitlighet och validitet - vad är det? a) i beskrivande statistik

Innan psykodiagnostiska tekniker kan användas i praktiska syften måste de testas mot ett antal formella kriterier som bevisar deras höga kvalitet och effektivitet. Huvudkriterierna för att utvärdera psykodiagnostiska tekniker inkluderar tillförlitlighet och validitet. Utländska psykologer gav ett stort bidrag till utvecklingen av dessa koncept (A. Anastasi, E. Ghiselli, J. Guilford, L. Cronbach, R. Thorndike, E. Hagen, etc.). De utvecklade en formell logisk och matematisk-statistisk apparat (främst korrelationsmetoden och faktaanalys) för att underbygga graden av överensstämmelse av metoderna med de noterade kriterierna.

I traditionell testning, termen "pålitlighet" betyder relativ beständighet, stabilitet, konsistens av testresultat under initial och upprepad användning på samma ämnen.

Metodens tillförlitlighet- detta är ett kriterium som indikerar noggrannheten av psykologiska mätningar, det vill säga det låter en bedöma hur trovärdiga de erhållna resultaten är.

Detta är konsistensen av resultaten från testpersoner vid olika tidpunkter, under primära och sekundära tester och med uppgifter som skiljer sig i likvärdighet och innehåll. Tillförlitlighet kännetecknar tester av egenskaper, men inte tillstånd. Egenskaper:

Reproducerbarhet av forskningsresultat.
Mätnoggrannhet.
Resultatens hållbarhet.

Graden av tillförlitlighet hos metoder beror på många skäl. Bland negativa faktorer de vanligaste är följande:

instabilitet hos den diagnostiserade egenskapen;
ofullkomlighet av diagnostiska metoder (instruktioner är slarvigt utformade, uppgifter är heterogena till sin natur, instruktioner för att presentera metoden för försökspersoner är inte tydligt formulerade, etc.);
förändrad undersökningssituation (olika tider på dygnet då experiment utförs, olika rumsbelysning, närvaro eller frånvaro av främmande ljud etc.);
skillnader i experimenterarens beteende (från experiment till experiment presenterar han instruktioner på olika sätt, stimulerar slutförandet av uppgifter på olika sätt, etc.);
fluktuationer i ämnets funktionella tillstånd (i ett experiment finns det god hälsa, i ett annat - trötthet, etc.);
inslag av subjektivitet i metoderna för att bedöma och tolka resultaten (när testpersonernas svar registreras bedöms svaren efter graden av fullständighet, originalitet etc.).

Ett av de viktigaste sätten att öka metodikens tillförlitlighet är enhetligheten i undersökningsförfarandet, dess strikta reglering: samma miljö, samma typ av instruktioner, samma tidsbegränsningar för alla, metoder och egenskaper för kontakt med ämnen, och så vidare.

Egenskaperna för metodernas tillförlitlighet påverkas i hög grad av urvalet som studeras. Det kan antingen minska eller överskatta denna indikator; till exempel kan tillförlitligheten ökas på konstgjord väg om det finns en liten spridning av resultat i provet, dvs. om resultaten ligger nära varandra i värde. Därför beskriver manualen vanligtvis provet på vilket teknikens tillförlitlighet fastställdes.

För närvarande bestäms tillförlitligheten alltmer på de mest homogena proverna, d.v.s. på urval liknande kön, ålder, utbildningsnivå, yrkesutbildning m.m.

Det finns lika många varianter av metodtillförlitlighet som det finns förhållanden som påverkar resultaten av diagnostiska tester. Eftersom alla typer av tillförlitlighet återspeglar graden av konsistens hos två oberoende erhållna serier av indikatorer, är den matematiska och statistiska tekniken med vilken metodikens tillförlitlighet fastställs korrelationer (enligt Pearson eller Spearman). Ju mer den resulterande korrelationskoefficienten närmar sig enhet, desto högre tillförlitlighet, och vice versa.

K.M. Gurevich föreslås att tolka tillförlitlighet som:

tillförlitligheten hos själva mätinstrumentet (tillförlitlighetskoefficient);
stabiliteten hos den studerade egenskapen (stabilitetskoefficient);
beständighet, dvs. relativ oberoende av resultaten från experimentatorns personlighet (konstantskoefficient).

Den indikator som kännetecknar mätinstrumentet föreslås kallas tillförlitlighetskoefficienten; en indikator som kännetecknar stabiliteten hos den uppmätta egenskapen - stabilitetskoefficient; och indikatorn för att bedöma inflytandet av experimentatorns personlighet är konstanskoefficienten. Det är i denna ordning som det rekommenderas att kontrollera metodiken: det är tillrådligt att först kontrollera mätverktyget. Om de erhållna uppgifterna är tillfredsställande, kan vi fortsätta med att fastställa ett mått på stabiliteten för den egendom som mäts, och efter det, om nödvändigt, överväga kriteriet om beständighet. (Tillförlitlighet: test-omtest, parallella former, kroppsdelar, intern konsistens, faktorvarians).

Bestämma tillförlitligheten hos ett mätinstrument. Noggrannheten och objektiviteten i mätningen beror på hur metodiken är sammanställd, hur korrekt uppgifterna är valda och hur enhetliga den är.

För att kontrollera tillförlitligheten hos ett mätinstrument, som indikerar dess homogenitet (homogenitet), används uppdelningsmetoden. Uppgifterna delas in i jämnt och udda (alla uppgifter måste slutföras), och sedan korreleras resultaten med varandra. Om tekniken är homogen så blir det ingen stor skillnad i framgång mellan dessa halvor, koefficienten blir hög. Du kan jämföra delar, men det är bättre att jämföra jämna och udda, eftersom denna metod beror inte på träning, trötthet etc.

Tekniken är tillförlitlig om koefficienten inte är lägre 0,75 - 0,85, bättre 0,90 och över.

Bestämning av stabiliteten hos den studerade egenskapen. Det är också nödvändigt att fastställa hur stabil egenskapen som forskaren avser att mäta är. Tecknet kan förändras över tiden, men dess fluktuationer bör inte vara oförutsägbara.

För att kontrollera används en teknik som kallas test-retest. Den består av att ompröva ämnena med samma teknik. Stabiliteten bedöms av korrelationskoefficienten mellan resultaten från den första och andra undersökningen. Det kommer att ange om varje försöksperson behåller eller inte behåller sitt ordningsnummer i provet.

Graden av stabilitet påverkas av olika faktorer. Enhetlighet i undersökningsförfarandet måste iakttas.

Vid bestämning av stabiliteten hos en egenskap är tidsintervallet mellan 1 och 2 undersökningar av stor betydelse. Ju kortare detta intervall är, desto större är chansen att detta tecken håller samma nivå som det första testet. Det är lämpligt att testa igen en kort tid efter testet. Experimentören själv anger denna period, men oftare i den psykologiska litteraturen indikerar de ett intervall på flera månader (men inte mer än sex månader). Frågan om stabiliteten hos den fastighet som mäts löses inte alltid enhetligt. Beslutet beror på essensen av symtomet som diagnostiseras.

Om egenskapen som mäts redan har bildats, bör koefficienten inte vara lägre än 0,80.

Definition av beständighet, dvs. resultatens relativa oberoende av experimentatorns personlighet. Eftersom tekniken utvecklas för vidare användning av andra psykodiagnostiker, är det nödvändigt att bestämma i vilken utsträckning dess resultat påverkas av experimentatorns personlighet. Konstantskoefficienten bestäms genom att korrelera resultaten från två experiment utförda på samma prov, men av olika experimentörer. Korrelationskoefficienten bör inte vara lägre än 0,80.

Giltighetsfrågan avgörs efter att tillförlitlighet har fastställts, eftersom en opålitlig teknik inte kan vara giltig.

Giltighet test - ett koncept som berättar vad testet mäter och hur bra det gör det (A. Anastasi). Giltighet i sin kärna är det en komplex egenskap som omfattar dels information om huruvida tekniken är lämplig för att mäta vad den skapades för, och dels vad dess effektivitet, effektivitet och praktiska användbarhet är.

Av denna anledning finns det ingen enskild universell metod för att fastställa giltighet. Beroende på vilken aspekt av validitet forskaren vill ta hänsyn till används olika evidensmetoder. Begreppet giltighet omfattar med andra ord dess olika typer, som har sin speciella betydelse. Att kontrollera giltigheten av en metod kallas validering.

Validitet är en viss studies överensstämmelse med accepterade standarder (ett felfritt experiment).

Validitet i sin första förståelse har med själva metodiken att göra, d.v.s. detta är mätinstrumentets giltighet. Denna typ av verifiering kallas teoretisk validering. Validitet i sin andra förståelse hänvisar inte så mycket till metodiken som till syftet med dess användning. Detta är pragmatisk validering.

Under teoretisk validering är forskaren intresserad av själva egenskapen mätt med tekniken.

Eftersom det, för att fastställa teoretisk validering, är svårt att hitta något oberoende kriterium som ligger utanför metodiken, varför ogrundade uttalanden om giltigheten av denna metod tidigare togs för givet. Eftersom teoretisk validering syftar till att bevisa att tekniken mäter exakt den egenskap som den är tänkt att mäta. För teoretisk validering är det kardinala problemet förhållandet mellan psykologiska fenomen och deras indikatorer, med hjälp av vilka dessa psykologiska fenomen försöker bli kända. Det visar att författarens avsikt och resultaten av metoden sammanfaller.

Det är inte så svårt att genomföra teoretisk validering av en ny teknik om det redan finns en teknik med känd, bevisad validitet för att mäta en given egenskap. Närvaron av en korrelation mellan en ny och en liknande gammal teknik indikerar att den utvecklade tekniken mäter samma psykologiska kvalitet som referenstekniken.

För att kontrollera teoretisk validitet är det viktigt, å ena sidan, att fastställa graden av samband med en relaterad teknik (konvergent validitet), och å andra sidan, frånvaron av detta samband med tekniker som har en annan teoretisk grund (diskriminant validitet) ).

En viktig roll för att förstå vad metodiken mäter spelas genom att jämföra dess indikatorer med praktiska former av aktivitet. Det är viktigt att metodiken utarbetas teoretiskt.

Pragmatisk validering

Metodikens praktiska effektivitet, betydelse och användbarhet kontrolleras, eftersom metodiken endast kan användas när det är bevisat att egenskapen som mäts manifesteras i vissa typer av aktiviteter.

För att testa pragmatisk giltighet används ett oberoende externt kriterium - en indikator på manifestationen av den studerade egenskapen i vardagen. Ett sådant kriterium kan vara akademisk prestation (för test av inlärningsförmåga, prestationstest, intelligenstester), produktionsprestationer (för metoder för professionell orientering), effektiviteten av verkliga aktiviteter - ritning, modellering och så vidare (för test av speciella förmågor). ), subjektiva bedömningar (för personlighetstest).

De amerikanska forskarna Tiffin och McCormick identifierade fyra typer av externa kriterier:

Prestationskriterium (mängd utfört arbete, akademisk prestation, tid, tillväxttakt av kvalifikationer).
Subjektiva kriterier (inkludera olika typer av svar som speglar en persons inställning till något, hans åsikter, åsikter).
Fysiologiskt kriterium (används när man studerar påverkan av den yttre miljön som påverkar kroppen och psyket).
Slumpmässighetskriterium (till exempel när målet gäller problemet med att välja ut de individer som är mindre olycksbenägna till arbete).

Det externa kriteriet måste ha tre huvudkrav:

Det måste vara relevant, det vill säga det måste finnas förtroende för att kriteriet involverar exakt de egenskaper hos det individuella psyket som den diagnostiska tekniken mäter. Det externa kriteriet och den diagnostiska modellen måste stå i intern semantisk korrespondens.
Måste vara fri från störningar (kontamination). Grupper av människor som befinner sig i mer eller mindre identiska förhållanden bör väljas ut för forskning.
Måste vara pålitlig. Konstans och stabilitet hos den funktion som studeras.

Bedömning av metodikens giltighet kan vara kvantitativ och kvalitativ.

För att beräkna en kvantitativ indikator (validitetskoefficient) jämförs resultaten från tillämpningen av diagnostiska tekniker med data från samma individer som erhållits med hjälp av ett externt kriterium. Olika typer av linjär korrelation används (enligt Spearman, enligt Piersen).

Kvalitativ beskrivning av essensen av den fastighet som mäts. Här används ingen statistisk bearbetning.

Det finns flera typer av giltighet, på grund av den diagnostiska teknikens särdrag, såväl som det externa kriteriets tillfälliga status:

Innehållsvaliditet (används i prestationstest): 3 - 4 frågor från ett stort ämne kan visa en elevs sanna kunskap. För att göra detta jämförs de diagnostiska resultaten med lärarens expertbedömningar.
Samtidig validitet eller aktuell validitet - data som är relevanta för nutiden samlas in: akademisk prestation, produktivitet, etc. Testresultat korrelerar med dem.
"Predictive" validitet ("prediktiv"). Det bestäms av ett tillförlitligt externt kriterium, men information om det samlas in en tid efter testet. Noggrannheten i prognosen är omvänt relaterad till den tid som anges för sådan prognos.
"Retrospektiv" giltighet. Fastställs på grundval av ett kriterium som återspeglar händelser eller tillståndet av kvalitet i det förflutna. Kan användas för att snabbt få information om teknikens prediktiva förmåga.

METOD FÖR BERÄKNING AV TESTKARAKTERISTIKA

Bovtrukevich Maria Viktorovna,

3:e års studentG.Minsk

Kireenko Anna Vladimirovna

3:e års student, Institutionen för informationsteknologi, BSU,G.Minsk

Sirotina Irina Kazimirovna

vetenskaplig handledare, senior lärare, BSU,G.Minsk

Idag är frågan om testkontroll mycket aktuell. Det används ofta när man genomför antagningskampanjer till universitet, när man testar kunskapen hos elever i skolor, lyceum, gymnasieskolor och högre utbildningsinstitutioner och vid anställning. Eftersom tester hjälper till att bestämma en persons förmågor, böjelser, böjelser såväl som nivån av kunskap, färdigheter och förmågor, då tog de en betydande position inom utbildningsområdet.

Testaär ett verktyg som består av ett kvalimetriskt verifierat system av testuppgifter, en standardiserad procedur för att genomföra och en fördesignad teknik och analys av resultat för att mäta en persons egenskaper och egenskaper, utbildningsprestationer, vars förändring är möjlig i processen av systematisk utbildning.

Pedagogiskt provär ett system av uppgifter av en specifik form, specifikt innehåll och jämnt ökande svårighetsgrad - ett system skapat med syftet att objektivt bedöma strukturen och mäta elevernas beredskapsnivå. .

Huvudproblemet med att testa kunskapskontroll är processen att skapa tester, deras enande och analys. För att få testet till full beredskap för användning är det nödvändigt att samla in statistiska data i flera år. Ganska ofta finns det betydande subjektivitet i formationen av själva provens innehåll, vid urval och formulering av provfrågor. Mycket beror också på det specifika testsystemet, på hur mycket tid som tilldelas för att testa kunskap, på strukturen på frågorna som ingår i testuppgiften etc. För att objektivt bedöma kunskapsnivån är det nödvändigt att kompetent utforma testet: det räcker inte att komma med frågor och svarsalternativ, eftersom det i det här fallet kan många motsägelser, fel och osäkerheter kan uppstå, uppgifter kan visa sig vara för enkla eller tvärtom för komplexa. Av denna anledning genomgår testuppgifter en speciell bedömningsprocess som vi kommer att beakta i vårt arbete.

Syfte Vårt arbete är att systematisera metoder som gör att vi kan beräkna testegenskaper. Efter att ha analyserat den vetenskapliga litteraturen om forskningsämnet valde vi de vanligaste testegenskaperna, samlade dem, beskrev deras tillämpning i detalj, utarbetade allmänna regler för att skapa ett högkvalitativt test och gav exempel. Vi hoppas att detta arbete kommer att förbättra en sådan form av kunskapsprövning som testkontroll, vilket i sin tur kommer att förbättra utbildningens kvalitet.

I teorin och praktiken av testmätningar identifierar anhängare en mängd olika testegenskaper: tillförlitlighet, validitet, diskriminativitet, sociokulturell anpassningsförmåga, tillförlitlighet, entydighet, standardisering, noggrannhet, komplexitet, normering, etc. I detta arbete, på grund av specifikationerna i vår studien, övervägde vi följande av dem: reliabilitet, validitet, diskriminativitet.

Diskriminering uppgifter definieras som förmågan att separera testtagare med ett högt totalt testresultat från dem som fått ett lågt betyg, eller testtagare med hög utbildningsproduktivitet från testtagare med låg produktivitet. .

För att beräkna diskriminativitet kommer vi att använda metoden för extrema grupper: när man beräknar diskriminativiteten för en testuppgift, beaktas resultaten från de mest och minst framgångsrika eleverna. Andelen medlemmar i extrema grupper kan variera kraftigt beroende på urvalets storlek. Ju större urval, desto mindre andel ämnen kan du begränsa dig till när du identifierar grupper med höga och låga resultat. Den nedre gränsen för "gruppgränsen" är 10 % av det totala antalet försökspersoner i urvalet, den övre gränsen är 33 %. I vårt arbete kommer vi att använda 27%-gruppen, eftersom med denna procentandel uppnås maximal noggrannhet vid fastställande av diskriminativitet.

Diskrimineringsindex D definieras som skillnaden mellan andelen personer som korrekt löste problemet från grupperna "mycket produktiva" och "lågt produktiva" och hittas med formeln:

Var: Nn max - antalet elever i gruppen av de bästa som utförde uppgiften korrekt; Nn min - antalet elever i den sämsta gruppen som utförde uppgiften korrekt; N max - det totala antalet ämnen i den bästa gruppen; N min - det totala antalet försökspersoner i den sämsta gruppen.

V.K. Gaida och V.P. Zakharov föreslår att man beräknar diskrimineringskoefficienten genom att beräkna måttet på överensstämmelse mellan framgången med att lösa ett problem och hela testet. Denna indikator kommer att vara diskrimineringskoefficienten; formeln används för att beräkna den:

, (2)

Var: x- aritmetiskt medelvärde av alla individuella testresultat;

x n- Det aritmetiska medelvärdet av provresultaten för de försökspersoner som korrekt löste problemet;

5 x- Standardavvikelse för individuella testresultat för provet;

n- antalet försökspersoner som korrekt löste problemet;

Nd- totalt antal ämnen.

Diskrimineringskoefficienten kan ta värden från -1 till +1. Ett högt positivt värde på diskriminativiteten hos en testuppgift indikerar effektiviteten av uppdelningen av ämnen, ett högt negativt värde indikerar olämpligheten av denna uppgift för testet, dess inkonsekvens med det totala resultatet. Resultat D≥0,3 anses vara tillfredsställande. Om koefficientvärdet är nära 0, bör uppgifterna anses vara felaktigt formulerade.

Giltighet avser testresultatens lämplighet för det ändamål för vilket testningen utfördes. Giltighetär ett kännetecken för ett tests förmåga att tjäna sitt avsedda mätningssyfte. Giltighet bestämmer hur väl ett test speglar vad det är tänkt att mäta.

Följande typer särskiljs: Medbesatt validitet - ett kännetecken för testinnehållets representativitet i förhållande till de kunskaper och färdigheter som planeras för testning; Tillkonstruktiv(konceptuell) validitet är en egenskap för adekvat mätning av en teoretisk konstruktion, dvs. e. om intelligenstestet faktiskt mäter IQ; Tillriterial validitet - bestämmer testets förmåga att fungera som en indikator på strikt definierade egenskaper och former av beteende; Tnuvarande validitet - en egenskap hos ett test som återspeglar dess förmåga att skilja mellan ämnen baserat på den egenskap som är föremål för identifiering i denna teknik; Prognostisk Validitet ger information om hur noggrant den kvalitet som identifieras i ett test kan bedömas under en tidsperiod efter mätning.

För att bedöma ett tests validitet används vanligtvis en korrelation mellan testresultat och något externt kriterium. För pedagogiska prov är de kriterier som vanligtvis används experternas bedömningar, som de ges under den traditionella prövningen av elevernas kunskaper utan användning av prov. Valideringsprocessen kompliceras av behovet av att fastställa ett mått av konsekvens i bedömningarna av experter, av vilka det vanligtvis finns minst tre personer.

Giltighet med kvantitativa metoder för bestämning bestäms huvudsakligen med hjälp av kvalitativa bedömningar, vanligtvis med inblandning av experter: o faktoriellt analys sägs när faktoranalys används för att bestämma validitet för att bestämma faktorbelastningar och faktorsammansättning för ett test; Till onsensus validitet - data från externa experter används för att erhålla den andra serien av bedömningar; eh empirisk validitet - för att erhålla den andra serien av uppskattningar används de resultat som erhållits genom att tillämpa tidigare kända metoder eller från andra källor.

I detta dokument kommer vi att titta på ett exempel på beräkning av validitet med hänsyn till testresultat och expertbedömningar:

, (3)

där: - aritmetiskt medelvärde av expertbedömningar,

Standardavvikelsen för dessa uppskattningar är:

(3.2)

På samma sätt, det aritmetiska medelvärdet av elevernas provresultat, och
- Standardavvikelsen för dessa poäng, beräknas också med formlerna (3.1), (3.2).

Pålitlighet är en egenskap hos ett test som återspeglar noggrannheten hos testmätningar, såväl som testresultatens stabilitet mot verkan av slumpmässiga faktorer.

Det finns två typer av tillförlitlighet: tillförlitlighet som stabilitet; tillförlitlighet som intern konsistens.

Tillförlitlighet som stabilitet. Stabilitet av testresultat är möjligheten att få samma resultat från försökspersoner i olika fall. Tillförlitlighet som stabilitet mäts genom att upprepa testet på samma prov av försökspersoner, vanligtvis två veckor efter det första testet. Tillförlitligheten för ett test är högre, ju mer konsekventa resultaten av samma person är när man testar kunskap igen med samma test eller motsvarande form (parallelltest). För att hitta denna egenskap föreslås att man använder Pearson-formeln:

, (4)

Var Xi- testpoäng för det i:te försökspersonen vid den första mätningen;

Y i- testresultat för samma försöksperson under upprepad mätning;

N-antal ämnen.

Den inre överensstämmelsen bestäms av varje specifikt testelements koppling till det övergripande resultatet, i vilken utsträckning varje moment står i konflikt med de andra, och i vilken utsträckning varje enskild fråga mäter den egenskap som hela testet syftar till. För att kontrollera intern konsistens övervägs följande metoder: splittringsmetod eller autonoma delarsmetod; metod av likvärdiga former; Cronbachs Alpha-metod. Uppdelningsmetoden använder följande formler: Spearman-Brown; Rulla; Kuder-Richardson; Stanley. Om koefficienten värden r faller i intervallet 0,80-0,89, då säger de att testet har god tillförlitlighet, och om denna koefficient inte är mindre än 0,90, kan tillförlitligheten kallas mycket hög. Vid tillämpning av uppdelningsmetoden är testmatrisen uppdelad i två halvor, bestående av uppgifter med jämna och udda tal.

Spearman-Brown-formeln ser ut så här:

Innan du tillämpar denna formel är det nödvändigt att tillämpa formel (3). Observera att i detta fall Xi- testresultat i-th ämne för uppgifter med ett jämnt nummer; Y i

Rulons formel ser ut så här:

Spridning av skillnaderna mellan resultaten för varje försöksperson i båda halvorna av testet S 2 d hittas av formeln:

Var: X i- testpoäng för det i-te ämnet för uppgifter med ett jämnt nummer;

Y i- provresultat av samma ämne för uppgifter med udda nummer.

Spridning av totala resultatpoäng S 2 z hittas av formeln:

, (6.2)

Var: Z i- totalpoäng för provet i eleven.

Kuder-Richardsons formel ser ut så här:

, (7)

Var: p j- andel korrekta svar på j-te uppgiften, dvs. antal korrekta svar dividerat med antal elever;

q j- andel felaktiga svar på j-th uppgift, dvs antalet felaktiga svar dividerat med antalet elever ( q j= 1 -p j);

S 2 z- spridning av resultatets totala poäng, vilket beräknas enligt formel (5.2).

Vid beräkning av tillförlitlighet med hjälp av Stanley-formeln måste eleverna delas in i två grupper. Den första gruppen kommer att inkludera 27% av "starka" elever (de som fick flest poäng), och den svaga gruppen kommer att inkludera 27% av "svaga" elever (de som fick lägst antal poäng).

Stanleys formel:

, (8)

Var W L- antalet felaktiga svar på denna fråga i den svaga gruppen;

W H- antalet felaktiga svar på denna fråga i en stark grupp;

n- antal frågor i testet;

k- antalet försökspersoner i den starka (svaga) gruppen, det vill säga 27 % av det totala antalet försökspersoner.

Cronbachs alfakoefficient visar den interna konsistensen av egenskaper som beskriver ett objekt och hittas av formeln:

, (9)

Var: S 2 Y- spridning av resultatets totala poäng, vilket beräknas enligt formel (3.2);

S 2 Yi- elementspridning i.

Vi kommer att visa metoden för att beräkna testegenskaper på en specifik exempel. Vi fick studenttestresultaten som presenteras i tabell 1.

bord 1

Första testresultaten

Student i	Expertrecension	Jobb nummer
Student i	Expertrecension		1 0

Två veckor senare upprepades testet och resultatet presenterat i tabell 2 erhölls.

Tabell 2

Resultat av det andra testet

i	Expertrecension	Jobb nummer
i	Expertrecension		1 0

Med hjälp av data från tabellerna, låt oss gå vidare till att beräkna alla ovanstående egenskaper.

Diskriminering

1. Vi beräknar antalet elever i de yttre grupperna, avrundar omedelbart till heltal:

2. Betrakta en grupp av de bästa och en grupp av de sämsta, som var och en kommer att ha 3 personer. Vi får tabell 3.

Tabell 3

Sammanfattande tabell över tester med expertbedömningar

Expertrecension, Ei

Jobb nummer

Totalt testresultat

1 0

Den bästa gruppen inkluderar alltså elever numrerade 1, 10, 4; i den sämsta gruppen: 3, 5, 2 (finns det elever med samma provpoäng tar vi hänsyn till expertbedömningar).

3. Låt oss skapa en tabell4 som endast består av elever från den bästa gruppen och elever från den sämsta gruppen, och beräknar omedelbart antalet elever i varje grupp som utförde uppgiften korrekt.

Tabell 4

Sammanfattande tabell över tester med expertbedömningar
för extrema grupper

Expertbedömning, Ei

Jobb nummer

1 0

Grupp av de bästa

Sämsta gruppen

4. Vi beräknar diskriminativitetsindexet för varje uppgift med formeln (1):

, , , , , , , , , .

Vi drar slutsatsen att uppgifterna 6 och 7 är icke-diskriminerande.

Giltighet

Tabell 6 hittades E i (expertbedömning), Z i(totalpoäng för testet), n- det är känt, i vårt fall är det lika med 10.

1. Vi finner också från formel (3.1):

2. Vi finner också från formel (3.2):

3. Giltighet beräknas med formel (3). För enkelhetens skull, låt oss beräkna separat:

Vi får: .

Tillförlitlighet som hållbarhet

1. Låt oss först bygga tabell 5.

Tabell 5

Hitta tillförlitlighet med Pearson-formeln

Studentnummer i	Första provresultatet X i	*Testa om poängenY i***	X i *Y i*	*(X i) 2*	*(Y i) 2*

2. Låt oss tillämpa formel (4):

Tillförlitlighet som intern konsekvens. Vi kommer att betrakta denna egenskap som en splittringsmetod enligt Rulon-formeln (6).

1. Låt oss först ta reda på variansen mellan skillnaderna mellan resultaten för varje försöksperson i båda halvorna av testet. Låt oss fylla i tabell 6.

Tabell 6

Beräkning av varians av resultatskillnader

i	*Poäng för uppgifter med ett jämnt talX i***	*Poäng för uppgifter med udda nummerY i***	X i *-Y jag*

2. Använd formel (6.1): .

3. Låt oss hitta spridningen av de totala poängen för resultatet genom att först konstruera Tabell 7.

Tabell 7

Beräkning av variansen av totalpoäng

*jag*	Poäng för alla uppgifter Zi

4. Genom att tillämpa formel (6.2) och sedan formel (6) får vi:

, .

Tolkning av resultat

1. Tillförlitlighet som stabilitet: eftersom koefficientvärdet är cirka 0,923 har testet en hög grad av tillförlitlighet. Det betyder att den ur denna synvinkel är mycket väl sammanställd.

2. Tillförlitlighet som intern konsistens: Korrelationskoefficientvärdet är cirka 0,198. Detta indikerar låg tillförlitlighet, så det är bättre att testa om för att avgöra vilka testartiklar som behöver bytas ut.

3. Diskriminativitet: uppgifterna 6 och 7 är icke-diskriminerande, eftersom en diskrimineringskoefficient på mindre än 0,3 anses otillfredsställande. Detta innebär att dessa föremål inte är lämpliga för testet och måste bytas ut.

4. Validitet: graden av korrelation mellan testresultaten och det externa kriteriet (expertbedömningar) är ganska hög och uppgår till 0,962823. Detta resultat indikerar den höga validiteten av det övervägda testet.

Vi uppmärksammar er speciella fall.

Ibland, när man hittar en säkerhetsfaktor, uppstår division med noll. Detta kan hända om alla elever har lika många rätta och felaktiga svar. Detta händer sällan i praktiken, sannolikt har svaren läckt ut. I detta fall bör testet upprepas.
När man ska hitta tillförlitlighet som stabilitet är det också möjligt att svaret ger osäkerhet, dvs noll divideras med noll. Detta kan hända när en elev ger samma antal rätta och felaktiga svar på det första och omprovet. Det betyder att testet utformades mycket framgångsrikt eller tvärtom mycket misslyckat. Vi råder dig att kontrollera andra testegenskaper och dra en slutsats utifrån dem.
Vid beräkning av validitet är det också möjligt att det sker en division med 0. Detta kan ske om alla elever har lika många rätta och felaktiga svar eller om alla expertbedömningar är lika. Det här fallet kommer sällan att hända i praktiken, sannolikt har svaren läckt ut och det givna resultatet är skevt.

Om vi vill skapa testobjekt som har tillfredsställande särskiljbarhet måste vi undvika följande: 1) överdriven komplexitet och förvirrande formuleringar; 2) villkorens oklarhet; 3) lösningens självklarhet; 4) resultatets beroende av minne eller andra individuella egenskaper hos ämnet, och inte av utvecklingsnivån för de färdigheter och förmågor för bedömningen av vilka testet utvecklas; 5) absurda, overkliga svarsalternativ; 6) förekomsten av två eller flera korrekta svar som inte anges i villkoret.

Det finns följande sätt att öka testets validitet: 1) val av den optimala svårighetsgraden för uppgifter för att säkerställa en normal fördelning av testresultaten; 2) undersökning av kvaliteten på testinnehållet;
3) beräkning av den optimala testexekveringstiden; 4) urval av uppgifter med hög diskriminerande karaktär.

En förstudie av källorna till opålitlighet gör det möjligt att om möjligt eliminera deras inflytande när testet konstrueras. Sådana källor inkluderar vanligtvis: 1. Subjektivitet vid bedömning av resultaten av testuppgifter. Den mest effektiva metoden för att övervinna denna nackdel är användningen av slutna uppgifter, som, på grund av möjligheten till objektiv bedömning av prestationsresultat, ceteris paribus, leder till en ökning av testets tillförlitlighet. 2. Gissa. Som specialstudier visar, minskar gissning avsevärt testets tillförlitlighet, särskilt i de fall där en grupp svaga elever testas, som vanligtvis tar till att gissa när de genomför de svåraste testmomenten. 3. Brist på logisk korrekthet i formuleringen av testobjekt. Som regel missas felaktiga uppgifter av starka elever, vilket generellt påverkar testets tillförlitlighet negativt. 4. Omotiverat val av viktningskoefficienter. I rätt läge bör valet av viktningskoefficienter vid beräkningen av individuella elevpoäng baseras på lämplig teori. 5. Degens längd. Tillförlitligheten ökar när testlängden ökar. För tillfredsställande men inte god tillförlitlighet räcker vanligtvis 30 testobjekt. 6. Brist på standardinstruktioner för testet. Testinstruktionerna måste vara extremt standardiserade och exakta. Eventuella oklarheter, oklarheter och avvikelser från standardiseringskrav i instruktionerna leder till att testets tillförlitlighet minskar. 7. Andra källor till opålitlighet avser testpersoner snarare än testobjekt. Testtagaren kan till exempel må dåligt när han arbetar med testet eller göra fel i instruktionerna. Testresultaten kan påverkas av trötthet och tristess, rumstemperatur, buller utanför fönstret etc.

Sammanfattningsvis noterar vi att inom ramen för vårt projekt, för att optimera processen för empirisk bearbetning av testegenskaper, implementerade studenter från specialiteten "Datavetenskap" Faley Alexander och Berezyuk Sergey utvecklingar onlinetjänst.Bearbetning av användardata är uppdelad i tre steg: ta emot information från klienten och generera arrayer av initiala data, bearbetning av värden med hjälp av beräkningsformler och algoritmer, layout och visning av resultat för användaren. Målgruppen för denna tjänst kan huvudsakligen vara lärare och universitetsprofessorer Projektadress: www.qualiter.com.

Bibliografi:

1. Avanesov V. S. Sammansättning av testuppgifter / V. S. Avanesov. - M.: Adept, 1998. - 217 sid.

2. Avanesov V.S. Tillämpning av uppgifter i testform i ny pedagogisk teknik / V.S. Avanesov // Skolteknik. - 2007. - Nr 3. - P. 146-163.

3. Avanesov V. S. Form av testuppgifter: lärobok. ersättning / V. S. Avanesov. M.: Testcenter, 2005. - 120 sid.

4. Gutsanovich S. A., Radkov A. M. Testning i undervisning i matematik: diagnostiska och didaktiska grunder / S. A. Gutsanovich, A. M. Radkov. - Mozyr: Publishing House "White Wind", 2001. - 168 sid.

5. Mayorov A. N. Teori och praktik för att skapa tester för utbildningssystemet. - Moskva: "Intellect-Center", 2002. - 296 s.

6. Chelyshkova, M.B. Teori och praktik för att konstruera pedagogiska prov. - Moskva: "Logos", 2002. - 432 s.

1. När man bedriver forskning uppstår ofta frågan om hur representativt materialet man använder är. Vad är namnet på korrespondensmåttet för en viss egenskap hos subjektet till den befolkning som han tillhör:
a) giltighet;
b) variation;
c) representativitet;
d) tillförlitlighet.
2. Vad heter forskningsstadiet där idéer om orsaker och konsekvenser av de fenomen som valts för forskning formuleras:
a) observationsstadium.
b) korrelationsstadium;
c) kontrollsteg;
d) stadium av hypotesbildning.
3. Vilket påstående beskriver begreppet giltighet:
a) testets förmåga att fastställa omfattningen av defekten;
b) egenskaper hos enheten av metoder för att använda testet;
c) en indikation på att testet mäter vad det är avsett att mäta;
d) ett mått på sannolikheten för att få felaktiga resultat.
4. Testets representativitet indikerar:
a) Möjligheten att tillämpa de normer som anges i testet på detta prov;
b) graden av homogenitet hos det diagnostiserade provet;
c) hur mycket resultatet av ett ämne på ett givet prov skiljer sig från resultatet för ett annat ämne.
5. Vilket påstående definierar begreppet teststandardisering:
a) få testet att överensstämma med standarderna;
b) Användning av enhetliga förfaranden för genomförande och beräkning av resultat.
c) Samordning av befolkningsstandarder med kulturella och sociala standarder.
6. Vilket påstående beskriver mest exakt vad IQ är:
a) egenskaper hos befintliga kognitiva förmågor;
b) egenskaper hos medfödda förmågor;
c) ett mått på förvärvade intellektuella färdigheter;
d) egenskaper hos den proximala utvecklingszonen.
7. Bedömning av psykologiskt tillstånd med hjälp av ett testsystem kallas:
a) psykodiagnostik;
b) diagnos;
c) mätning;
d) psykologiskt experiment.
8. Verk varav två forskare var upphovet till testmetoden:
A) E. Kraepelin och A. Binet;
b) P. Janet och F. Galton;
c) F. Galton och J. Cattell;
d) F. Galton och A. Binet.
9. Vem föreslog studien av minne med hjälp av piktogrammetoden:
a) S.L. Rubinstein;
b) A.R. Luria;
c) T. Ribot;
d) V.B. Zeigarnik.
10. Undervisningsmetoder som används i pediatrisk diagnostik av A.Ya. Ivanova syftar till att studera:
a) intellektuell nivå;
b) zoner med proximal utveckling;
c) motivation för utbildningsverksamhet;
d) känslomässiga block av intellektuellt arbete.
11. Målinställningarna för Bourdon-testet och Raven-matriserna är relaterade enligt följande:
a) förutsättningar för underrättelser - underrättelser;
b) intelligens - tänkande;
c) styvhet - flexibilitet.
12. Att något av ovanstående är en väsentlig del av den föreslagna A.F. Lazursky "naturliga experiment" i motsats till laboratoriet:
a) de experimentella förhållandena är inte förknippade med konstgjorda förhållanden och krav;
b) experimentet utförs utan användning av tekniska medel;
c) försöksledaren är involverad i att utföra uppgiften tillsammans med försökspersonen;
d) observation under naturliga förhållanden med exaktheten och vetenskapligheten av ett experiment, när försökspersonen inte är medveten om den forskning som utförs;
e) specialutrustning och tydligt planerade uppgifter används.
13. Rosenzweigs frustrationsteste tillhör en av följande grupper:
a) personlighetsfrågeformulär;
b) prestationsprov;
c) psykometriska prov;
d) projektiva metoder.
e) gratis intervju.
14. IQ-bedömning baseras på jämförelse:
a) Passets ålder och utbildningsnivå.
b) mental och känslomässig ålder;
c) intellektuell ålder och passålder.
d) Maximi- och minimiindikatorer.
e) nivån på nuvarande utveckling och potentiell kapacitet.
15. Deltagarobservation är:
a) observation med hjälp av "batterier" av psykologiska tester;
b) Långtidsobservation;
c) observation i ett laboratorium;
d) observation, där psykologen är en direkt deltagare i händelserna;
e) observation omfattar flera steg.
16. Kognitionsmetoden, som är begränsad till registrering av identifierade fakta i studien av åldersegenskaper, kallas:
a) formativt experiment;
b) observation;
c) fastställande av experiment;
d) kvasi-experiment;
d) modellering.
17. Metoden för forskarens aktiva inflytande på förändringar i barnets psyke är:
a) deltagande observation;
b) pilotexperiment;
c) kontrollexperiment;
d) formativt experiment;
d) fastställande av experiment.
18. En synonym för formativt experiment är:
a) kvasi-experiment;
b) projektivt experiment;
c) kontrollexperiment;
d) genetisk modellering;
e) laboratorieförsök.
19. Data om verkligt mänskligt beteende som erhållits genom yttre beteende kallas:
a) L-data;
b) Q-data;
c) T-data;
d) Z-data.
20. B.G. Ananyev hänvisar till den longitudinella forskningsmetoden:
a) till organisatoriska metoder;
b) till empiriska metoder;
c) till metoder för databehandling;
d) till tolkningsmetoder.
21. Den typ av resultat som registreras med frågeformulär och andra självutvärderingsmetoder kallas:
a) L-data;
b) Q-data;
c) T-data;
d) Z-data.
22. Målmedveten, systematiskt genomförd uppfattning av föremål som en person är intresserad av är:
a) experiment;
b) innehållsanalys;
c) observation;
d) Metoden för att analysera aktivitetsprodukterna.
23. Långsiktig och systematisk observation, studien av samma människor, som gör att man kan analysera psykologisk utveckling i olika skeden av livet och dra vissa slutsatser utifrån detta, brukar kallas forskning:
a) konstflyg;
b) längsgående;
c) jämförande;
d) komplex.
24. Begreppet "självobservation" är synonymt med termen:
a) introversion;
b) introjektion;
c) introspektion;
d) introskopi.
25. Ett kort, standardiserat psykologiskt test som försöker bedöma en viss psykologisk process eller personlighet som helhet är:
a) observation;
b) experiment;
c) testning;
d) själviakttagelse.
26 Subjektets mottagande av uppgifter om hans egna mentala processer och tillstånd vid tidpunkten för deras inträffande eller efter det är:
a) observation;
b) experiment;
c) testning;
d) själviakttagelse.
27. En forskares aktiva ingripande i ett ämnes verksamhet för att skapa förutsättningar för att fastställa ett psykologiskt faktum kallas:
a) kontextanalys;
b) analys av aktivitetsprodukter;
c) samtal;
d) experiment.
28. En metod för att studera strukturen och naturen hos människors mellanmänskliga relationer baserat på att mäta mellanmänskliga val kallas:
a) innehållsanalys;
b) jämförelsemetod;
c) metoden för sociala enheter;
d) sociometri.
29. Forskarens förmåga att framkalla någon mental process eller egenskap är den främsta fördelen:
a) observationer;
b) experiment;
c) innehållsanalys;
d) analys av aktivitetsprodukter.
30. En bedömning av överensstämmelsen hos indikatorer som erhållits genom upprepad testning av samma försökspersoner med samma prov eller dess likvärdiga form kännetecknar testet i termer av dess:
A) giltighet;
b) tillförlitlighet;
c) tillförlitlighet.
31. De första intelligenstesterna för barn utvecklades av:
a) Binet-Simon;
b) I.P. Pavlov;
c) Ebbinghaus.
32. Formaliserade metoder inkluderar:
a) tester;
b) frågeformulär.
c) Projektiva tekniker;
d) psykofysiologiska tekniker;
e) alla svar är korrekta;
f) alla svar är felaktiga.
33. Mindre formaliserade metoder inkluderar INTE:
A) observation;
b) samtal;
c) analys av aktivitetsprodukter;
d) frågeformulär.
d) tester.
34. Standardisering är:

35. Tillförlitlighet är:
a) enhetlighet i förfarandet för genomförande och bedömning av testet;
b) överensstämmelse mellan testresultaten under initial och upprepad användning på samma ämnen
c) ett koncept som anger vad ett test mäter och hur väl det gör det
36. Giltigheten är:
a) enhetlighet i förfarandet för genomförande och bedömning av testet;
b) överensstämmelse mellan testresultaten under initial och upprepad användning på samma ämnen
c) ett koncept som anger vad ett test mäter och hur väl det gör det
37. Tekniken som används för upprepad undersökning av försökspersoner som använder samma teknik för att kontrollera stabiliteten hos det symptom som diagnostiseras kallas:
a) beständighet;
b) innehållsanalys;
c) test-omtest.
38. Schulte-bord är designade för att studera uppmärksamhetsförmåga, och Schulte-Gorbov-bord är designade för att studera:
a) stabilitet i uppmärksamheten;
b) koncentration;
c) växling av uppmärksamhet;
d) dynamisk asymmetri av uppmärksamhet.
39. Vilket stycke indikerar de metoder som bäst identifierar mångfald av tänkande:
a) Klassificering och tillägg av siffror.
b) lägga till figurer och eliminera föremål;
c) Piktogram och tillägg av siffror.
d) Klassificering och uteslutning av föremål;
e) Piktogram och klassificering.
40. Dembo-Rubinstein-tekniken är:
a) självkänslastest;
b) experimentella psykologiska metoder för att studera personlighetsdrag enligt självkänsla;
c) experimentella psykologiska metoder för att studera självkänsla.
41. Vilket av följande påståenden återspeglar INTE de grundläggande reglerna för bedömning av MMPI-profilen:
a) profilen måste bedömas som en helhet;
b) vid bedömning av profilen är det mest betydande värdet T-normen på varje skala, jämförelse med vilken återspeglar graden av svårighetsgrad av psykopatologi;
c) profilen kännetecknar personlighetsegenskaper och nuvarande mentala tillstånd;
d) när man bedömer en profil är det viktigaste förhållandet mellan nivån på varje skala och den genomsnittliga nivån för profilen som helhet och särskilt i förhållande till angränsande skalor.
42. "Ink blot"-testet skapades av G. Rorschach:
a) 1912;
b) 1921;
c) 1935;
d) 1951
43. Minimiåldern från vilken A.M.-färgförhållandetestet kan användas. Etkinda:
a) 3-4 år;
b) 5-6 år;
c) 7-8 år;
d) 9-10 år.
44. "Koos-kuber", "länkkub" är metoder för forskning:
a) processen att lösa konstruktiva problem;
b) abstrakt logiskt tänkande;
c) diskursivt tänkande;
d) RAM.
45. I vuxen- och barnversionerna av Wechsler-testet är testresultaten mest kulturellt beroende:
a) saknade delar;
b) aritmetik;
c) labyrint;
d) medvetenhet.
46. Vilken av följande faktorer kan leda till en minskning av prestanda på Wechslers verbala test:
a) hög nivå av ångest;
b) stort behov av självförverkligande;
c) hög uppmärksamhetsnivå;
d) hög självkänsla.
47. Vilket av följande test är INTE projektivt:
a) TAT;
b) Rorschach-test;
c) Spielberg-Hanin ångesttest;
d) test av ofullbordade fraser.
48. Vilket av följande test är INTE avsett att bedöma intellektuella förmågor:
a) TAT;
b) Wechsler-test;
c) allmänt förmågasprov;
d) Stanford-Binet-test.
49. Spielberg-Khanins frågeformulär låter dig:
a) bedöma nivån av depression;
b) identifiera en tendens till polära fluktuationer av affekt;
c) jämföra sann och situationsbetingad självkänsla;
d) jämföra situations- och konstitutionell ångest.
50. Vilket test låter dig jämföra verbala och ickeverbala förmågor:
a) Rorschach-test;
b) Wechsler-test;
c) Böjningstest;
d) Cattells test.
51. Personlighetsfrågeformuläret med 16 faktorer har utvecklats av…..
a) Cattell
b) Rorschich
c) Wexler
d) Bender
52. Vilket test innehåller 3 validitetsskalor och 10 kliniska skalor:
a) Wechsler-test för vuxna;
b) Eysenck-test;
c) MMPI;
d) Cattells test.
53. Lämplighetstester visar:
a) nivå av tidigare utbildning;
b) graden av ärftlighets bidrag till förmågor;
c) möjligheter till framgång inom ett visst område;
d) allmän nivå av mentala förmågor.
54. Vilken av färgerna i Luscher-testet är INTE en primärfärg:
en blå;
b) gul;
c) lila;
d) blågrön.
55. Testets tillförlitlighet visar:
a) vilken stabilitet hos mätresultaten som säkerställs av själva testet;
b) hur stabila är de egenskaper och kvaliteter som mäts med hjälp av testet;
c) hur stabil är förfarandet för att beräkna totalpoängen för provet.
56. Vad är det ursprungliga syftet med T. Learys frågeformulär:
a) studie av gruppdynamik;
b) studie av relationer i familjen;
c) studie av individuella rollidentifieringar;
d) studie av sociala konflikter.
57. Vilket uttalande beskriver syftet med Rosenzweig-testet korrekt:
a) identifiera aggressiva reaktioner på stress;
b) bestämning av nivån av spänningsmotstånd;
c) bestämma typen av reaktion på frustration;
d) diagnos av kliniska typer av aggressivitet.
58. Den metodologiska grunden för psykodiagnostik är:
a) välutvecklad psykologisk teori;
b) psykometri;
c) praktiskt tillämpningsområde för psykodiagnostiska metoder.
59. Den sociala önskvärdhetsfaktorn har störst inflytande i:
a) kundens situation;
b) undersökningssituationer;
c) patopsykologisk diagnos.
60. Innehållsvaliditeten i ett test är:
b) reflektion i testinnehållet av nyckelaspekterna av det psykologiska fenomen som studeras;
c) En indikator på testets inre homogenitet (konsistens).
61. Om urvalet är representativt för ett tvärsnitt av populationen, då:
a) resultaten av provtagningsfördelningen kan beskrivas med en fördelning nära normal;
b) resultaten av provtagningsfördelningen kan beskrivas med vilken matematisk fördelning som helst;
c) Baserat på resultaten av urvalsfördelningen är det i allmänhet omöjligt att bedöma provets representativitet.
62. Icke-linjär transformation av standardindikatorer är nödvändig för att:
a) Lätt att tolka de erhållna resultaten;
b) uppnå jämförbarhet av resultat som hör till fördelningarna som erhållits från olika tester;
c) uppnå jämförbarhet av resultat som hör till fördelningar av olika former.
63. Den sociopsykologiska standarden är:
a) en statistisk norm erhållen empiriskt från ett urval;
b) systemet för samhällets krav på individen;
c) en individuell norm beräknad för en given individ.
64. Idén med att standardisera metoder och tester tillhör:
a) J. Kettelu;
b) W. Wundt;
skåp.
65. Projektiva tester och tekniker skiljer sig från objektiva tester och standardiserade självrapporter genom att:
a) inte kan ge objektiva och tillförlitliga resultat;
b) testresultaten kan inte formaliseras;
c) tolkningen av testresultaten beror på psykodiagnostikerns kompetens och kvalifikationsnivå.
66. Expertempirisk validering avser:
a) teoretisk typ av validering;
b) Praktisk typ av validering;
c) teoretiska och praktiska typer av validering.
67. Konstruktionsvaliditeten för ett test är:
a) graden av representation (representation) av den psykologiska konstruktionen som studeras i testresultaten;
b) En indikator på testets inre homogenitet (konsistens).
c) reflektion i testinnehållet av nyckelaspekterna av den mentala egenskapen som studeras.
68. Förhållandet mellan giltighet och tillförlitlighet är följande:
a) validitet ≤ reliabilitet;
b) validitet ≥ tillförlitlighet;
c) validitet = tillförlitlighet;
69. Testtillförlitligheten är:
a) dess skydd mot förfalskning av resultat av en psykodiagnostiker;
b) dess skydd mot påverkan på resultatet av olika yttre påverkan;
c) dess skydd mot förfalskning av resultat av testpersonen;
70. Testets giltighet bevisas av:
a) oberoende av testresultaten från psykodiagnostikerns åsikt;
b) om detta test kan användas i praktiken;
c) om testet mäter det mentala fenomen som det är tänkt att mäta.

Testet övervägs vanligtvis pålitlig, om med dess hjälp samma indikatorer erhålls för varje ämne under upprepade tester.

intern konsistens tillförlitlighet: Om en viss variabel mäts av en del av ett test, så mäter andra delar, som inte är förenliga med den första, något annat.

Test-omtest tillförlitlighet- innebär upprepad presentation av samma test för samma försökspersoner och under ungefär samma förhållanden som det första, och sedan upprättandet av en korrelation mellan två serier av data (minst 1 månad efter 1, korkoefficient större än 0,7).

Tillförlitlighet av parallella former innebär att man skapar likvärdiga former av frågeformuläret och presenterar dem för samma ämnen för att sedan bedöma sambandet mellan de erhållna resultaten (SVÅRHET, 2 uppsättningar uppgifter).

Tillförlitlighet hos testdelar bestäms genom att enkäten delas upp i två delar (oftast jämna och udda uppgifter), varefter korrelationen mellan dessa delar beräknas. Vanligtvis rekommenderas denna metod för att bestämma tillförlitlighet endast i fall där det är nödvändigt att snabbt få resultat.

Det bästa förfarandet för att fastställa tillförlitlighet är att utföra upprepade studier med mer eller mindre signifikanta tidsintervall.

Alla reliabilitetsstudier måste utföras på tillräckligt stora (200 eller fler försökspersoner rekommenderas) och representativa prover. Tillförlitlighet är en viktig egenskap hos ett test, men är inte av värde i sig. Det är nödvändigt för att uppnå giltighet.

7. Testets giltighet

Testet kallas giltigt, om den mäter vad den är avsedd att mäta.

Synbar giltighet- beskriver testtagarens idé om testet.

Samtidig giltighet bedöms genom korrelationen av det utvecklade testet med andra, vars validitet i förhållande till den uppmätta parametern har fastställts

Prediktiv validitet fastställs med hjälp av en korrelation mellan testindikatorer och något kriterium som kännetecknar egenskapen som mäts, men vid ett senare tillfälle.

Inkrementell giltighet har begränsat värde och hänvisar till fallet där ett test i ett batteri av tester kan ha låg korrelation med ett kriterium men inte överlappa med andra test i det batteriet. I det här fallet har testet inkrementell giltighet. Detta kan vara användbart när man gör professionellt urval med hjälp av psykologiska tester.

Differentiell validitet kan illustreras med hjälp av intressetester som exempel. Intressetest korrelerar i allmänhet med akademisk prestation, men på olika sätt över discipliner.

empirisk – storleken på det statistiska sambandet mellan resultaten av att undersöka samma ämnen med denna teknik och kända tekniker som mäter denna egenskap beräknas.

Konstruera giltighet test demonstreras genom att så fullständigt som möjligt beskriva den variabel testet är avsett att mäta.

kriterierl– ett kvantitativt mått på sambandet mellan erhållna testresultat och externa kriterier för bedömning av den egendom som diagnostiseras.

En viktig skillnad mellan psykometriska test är att de standardiserad, och detta låter dig jämföra indikatorerna som erhållits av ett ämne med dem i den allmänna befolkningen eller motsvarande grupper.

Teststandardisering är viktigast i de fall där jämförelse av ämnenas indikatorer.

Detta introducerar konceptet normer eller normativa indikatorer. För att få standardnormer måste ett större antal ämnen väljas noggrant enligt tydligt definierade kriterier. Vid bildandet av ett standardiseringsprov bör det beaktas volym och representativitet.

I vissa fall är det nödvändigt att bilda flera standardiseringsgrupper eller stratifiera standardiseringsgruppen vad gäller parametrar som ålder, kön, social status. Att sätta standarder är inte alltid nödvändigt. När man använder psykologiska tester i vetenskaplig forskning är normer inte så viktiga och "råa" testindikatorer är tillräckliga.

Normer för varje grupp ska presenteras i medelvärden och standardavvikelse.

Idag används i praktiken denna typ av derivatbedömning alltmer, som t.ex standardindikatorer, som uppfyller de flesta kraven för psykologisk mätning. Sådana indikatorer uttrycker skillnaden mellan det individuella resultatet av ämnet och genomsnittet i enheter av standardavvikelse för motsvarande fördelning.

Skapandet av ett standardiserat test och dess publicering slutför vanligtvis en psykologs arbete. Man bör dock komma ihåg att en revision (revision) av testet med tiden är nödvändig.

När du skapar ett test kan du använda faktoranalys att komprimera information eller kompakt beskriva de fenomen som studeras i närvaro av många observationer eller variabler. att hitta några grundläggande faktorer som skulle förklara det mesta av variansen i en grupp av poäng på olika tester eller andra psykometriska mått.

Det finns flera faktoranalysprocedurer, men de involverar alla två steg: 1) faktorisering av korrelationsmatrisen för att erhålla den initiala faktormatrisen; 2) rotation av faktormatrisen för att upptäcka den enklaste konfigurationen av faktorbelastningar.

Omvandlingen av psykodiagnostiska förfaranden och tekniker till ett tillförlitligt verktyg för vetenskap och praktik beror på ansträngningarna från många specialister inom psykometrisk felsökning, som designar tester som uppfyller de grundläggande psykometriska kraven: tillförlitlighet, validitet, standardisering. De grundläggande principerna för att testa och bestämma tillförlitligheten, konstruktionen och valideringen av psykodiagnostiska tekniker täcks i ett antal specialarbeten om psykodiagnostik (A. Anastasi, A. Bodalsi, V. Stolin, A. Shmelev, K. Gurevich, V. Melnikov , etc.). I denna handledning kommer vi att beskriva de grundläggande begreppen och principerna för att genomföra en psykodiagnostisk undersökning, vars kunskap är ett oumbärligt villkor för en praktisk psykologs yrkeskvalifikationer.

Psykodiagnostik som en vetenskaplig disciplin omfattar tre områden av psykologisk kunskap:

ämnesområdet psykologi som studerar dessa mentala fenomen;

psykometri - vetenskapen om att mäta individuella skillnader och diagnoserbara variabler;

praktisk användning av psykologisk kunskap i syfte att få adekvat psykologiskt inflytande och hjälpa människor att lösa sina problem.

Den metodologiska grunden för psykodiagnostik är psykometri. Det är denna vetenskap som utvecklar tekniken för att skapa specifika psykodiagnostiska tekniker och bestämmer metoden för att säkerställa vetenskapliga krav för dem:

tillförlitlighet - intern konsistens av delar av testet och reproducerbarhet av resultat under upprepad testning;

validitet – reflektion i testresultaten av exakt den egenskap för vilken den är avsedd att diagnostisera;

tillförlitlighet - skydd av testet från påverkan på resultaten av testtagarens önskan att ändra dem i önskad riktning;

representativitet - förekomsten av normer för resultaten av en massundersökning i befolkningen för vilken testet är utformat, vilket gör att man kan bedöma graden av avvikelse från medelvärdena för varje enskild indikator.

Dessa psykometriska krav gäller för olika grupper av test, med störst omfattning till objektiva test och personlighetsenkäter, och i minsta utsträckning projektiva tekniker.

En objektiv bedömning av psykologiska tekniker och tester innebär att bestämma deras tillförlitlighet. I psykometri hänvisar termen "tillförlitlighet" alltid till konsistensen av poäng erhållna från samma ämnen.

Hur användbart är detta test? Fyller den verkligen sina funktioner? Dessa frågor kan och ibland orsaka långa, fruktlösa diskussioner. Fördomar, subjektiva slutsatser och personliga fördomar leder, som A. Anastasi anser, å ena sidan till en överskattning av förmågan hos ett visst test, och å andra sidan till dess ihållande förkastande. Det enda sättet att besvara sådana frågor är genom empiriska tester. Objektiv bedömning psykologiska tester innebär först och främst att bestämma deras tillförlitlighet och giltighet i specifika situationer.

Testa tillförlitlighet det är konsekventa poäng som erhålls från samma ämnen när de testas om med samma prov eller motsvarande form.

Om ett barns IQ är 110 på måndag och 80 på fredag, är det uppenbart att denna indikator knappast kan tas med tillförsikt. På liknande sätt, om en individ korrekt identifierade 40 ord i en serie på 50 ord och 20 i en annan likvärdig serie, kan ingen av dessa indikatorer betraktas som ett mått på hans verbala förståelse. Naturligtvis är det i båda exemplen möjligt att endast en av de två indikatorerna är felaktig, men endast efterföljande testning kan bekräfta detta; Av de presenterade uppgifterna följer endast att indikatorerna tillsammans inte kan vara korrekta.

Innan ett psykologiskt test görs tillgängligt för allmänheten måste ett grundligt, objektivt test av dess tillförlitlighet genomföras. Tillförlitligheten kan testas med avseende på förändringar över tid, valet av specifika uppgifter eller testprover, experimenterarens eller testprocessorns personlighet och andra aspekter av testning. Det är mycket viktigt att precisera vilken typ av tillförlitlighet och hur den bestäms, eftersom samma test kan variera i olika aspekter. Det är också tillrådligt att ha information om antalet och egenskaperna hos individer på vilka testets tillförlitlighet testades.

Sådan information kommer att göra det möjligt för användaren av testet att bestämma hur tillförlitligt testet är för den grupp som han avser att tillämpa det på.

Den mest kompletta förklaringen av testmetodernas tillförlitlighet ges av A. Anastasi. Tillförlitlighet avser konsistensen av testresultat som erhålls när det upprepas på samma ämnen vid olika tidpunkter, med olika uppsättningar av likvärdiga uppgifter eller när andra undersökningsförhållanden ändras. Beräkningen baseras på tillförlitlighet mätfel, som tjänar till att indikera de sannolika gränserna för fluktuationer av den uppmätta kvantiteten som uppstår under påverkan av främmande slumpmässiga faktorer. I dess vidaste mening avser reliabilitet i vilken utsträckning individuella skillnader i testresultat visar sig vara "sanna" och i vilken utsträckning de kan hänföras till slumpmässiga fel. Om vi översätter detta till språket med speciella termer, kan vi genom att mäta ett tests tillförlitlighet uppskatta värdet av den totala spridningen av testindikatorer, vilket är felavvikelse. Frågan är dock vad som ska räknas som felvarians. Samma faktorer, som är främmande i förhållande till vissa problem, anses redan vara källor till "sanna" skillnader när man löser andra problem. Om vi till exempel är intresserade av humörsvängningar, kan dagliga förändringar i testresultaten för känslotillstånd vara relaterade till syftet med testet och därför till den sanna variansen mellan poängen. Men om testet är utformat för att mäta mer stabila personlighetsegenskaper, kan samma dagliga fluktuationer tillskrivas felvarians.

Det viktiga är att eventuella förändringar i de förhållanden under vilka testet genomförs, om de inte är relevanta för dess syfte, kommer att öka felvariansen. Därför, genom att följa enhetliga testförhållanden (kontrollera den allmänna miljön, tidsbegränsningar, instruktioner till försökspersonen, kontakt med honom och andra liknande faktorer), minskar försöksledaren felvariansen och ökar testets tillförlitlighet. Men även under optimala förhållanden är inget test ett absolut tillförlitligt verktyg. Därför bör en standarduppsättning testdata innehålla ett mått på tillförlitlighet. Detta mått kännetecknar testet när det administreras under standardförhållanden och administreras till försökspersoner liknande de som deltog i det normativa urvalet. Därför är det också nödvändigt att ge information om detta prov.

K. M. Gurevich definierar tillförlitlighet som "ett extremt komplext och mångfacetterat koncept, vars en av huvudfunktionerna är att bedöma konsekvensen av testprestandaindikatorer" [Gurevich, 1981].

I princip kan vi säga att tillförlitlighet ska motivera mätfel — den ska visa hur mycket av variabiliteten i mått som beror på fel. Det finns flera huvudfaktorer som bestämmer tillförlitlighetsnivån. Sålunda kommer tillförlitligheten alltid att tendera att öka om villkoren för testproceduren hålls konstanta, eftersom detta minskar variabilitetsfelet hos den uppmätta parametern. Samtidigt tenderar mångfalden av mål, problemets komplexitet och variabiliteten i situationer att öka mätfelen och därigenom minska tillförlitligheten.

Det finns lika många varianter av testtillförlitlighet som det finns förhållanden som påverkar testresultaten, så alla sådana förhållanden kan visa sig vara främmande för syftet, och sedan

variansen som orsakas av dem bör inkluderas i felvariansen. Men endast ett fåtal typer av tillförlitlighet finner praktisk tillämpning. Eftersom alla typer av tillförlitlighet återspeglar graden av konsistens eller konsekvens hos två oberoende erhållna serier av indikatorer, kan deras mått vara korrelationskoefficient. En mer specialiserad diskussion om korrelation med en detaljerad beskrivning av beräkningsprocedurer ges i läroböcker om statistik för lärare och psykologer (V. Avanesov, A. Gusev, Ch. Izmailov, M. Mikhalevskaya, etc.).

I praktiken används tre huvudmetoder för att bedöma testernas tillförlitlighet:

1) omtestning;

2) parallell testning;

3) uppdelningsmetod.

Låt oss överväga var och en av dem separat.

Testar om Det är en av de viktigaste metoderna för att mäta tillförlitlighet. Upprepad

testning av ett prov av försökspersoner utförs med samma test efter ett visst tidsintervall under samma förhållanden. Omtestning brukar kallas testa om, och tillförlitlighet mätt på detta sätt är test-retest reliabilitet. Schemat för test-omtest-tillförlitlighetsbedömning ser ut så här:

I detta fall tas korrelationskoefficienten mellan resultaten av två test som tillförlitlighetsindex.

Den upprepade testmetoden har både fördelar och nackdelar. Fördelarna inkluderar naturligheten och enkelheten att bestämma tillförlitlighetskoefficienten. Nackdelar inkluderar osäkerheten i valet av intervall mellan två mätningar. Uppkomsten av tillfällig osäkerhet beror på att omtestning skiljer sig från den ursprungliga. Försökspersonerna är redan bekanta med provets innehåll, kommer ihåg sina första svar och vägleds av dem när de upprepar provet. Under upprepade tester observerar man därför ofta antingen "anpassning" till de initiala resultaten, eller, som en konsekvens av negativism, demonstration av "nya" resultat. För att undvika detta, när du ger test-omtest-tillförlitlighet i testmanualen, bör du ange vilket tidsintervall det motsvarar. På grund av att test-omtest-tillförlitligheten minskar med ökande tidsintervall, är de mest tillförlitliga höga tillförlitlighetskoefficienter som erhålls med klart stora intervall mellan testerna. Otillräckligt höga tillförlitlighetskoefficienter kan vara en konsekvens av suboptimal bestämning av tidsintervall.

Parallell testning I det här fallet organiseras flera mätningar med hjälp av parallella eller likvärdiga tester. Parallella tester är tester som mäter samma mentala egenskap med samma fel. I det här fallet utför samma individer flera versioner av samma test eller likvärdiga tester. Som regel är den praktiska användningen av denna typ av tillförlitlighet förknippad med betydande svårigheter, eftersom det är extremt svårt att konstruera flera versioner av ett test på ett sådant sätt att försökspersonen inte kan upptäcka deras psykologiska homogenitet. Och det snedvridande inflytandet av träning i det här fallet är inte helt borttaget. Dessutom uppstår frågan: är alternativa typer av tillförlitlighet egenskaper hos testtillförlitlighet och inte testekvivalensparametrar? När allt kommer omkring, om två former av testning utförs under samma typ av konstanta förhållanden, studeras sannolikt ekvivalensindikatorerna för de två testformerna, och inte tillförlitlighetsindikatorerna för själva testerna. Mätfelet i detta fall bestäms av fluktuationer i testutförandet och inte av fluktuationer i teststrukturen.

Schemat för att använda parallella tester för att mäta tillförlitlighet är som följer:

Korrelationskoefficienten som beräknas mellan två test kallas motsvarande tillförlitlighet.

Klyvningsmetod Det är en utveckling av den parallella testmetoden och bygger på antagandet om parallellitet inte bara av individuella testformer, utan även av individuella uppgifter inom ett test. Detta är ett av de enklaste testerna av ett test, när korrelationskoefficienten mellan dess halvor beräknas. Hur delar man upp testet i två halvor för att kunna anpassa båda halvorna på en eller annan specifik basis? Oftast är testuppgifter uppdelade i jämna och udda, vilket gör att man i viss mån kan eliminera eventuella brister. Den största fördelen med denna typ av tillförlitlighet är oberoendet av testresultat från sådana element av aktivitet som utveckling, träning, övning, trötthet, etc. När testet delas upp i två delar beräknas tillförlitlighetsindexet med Spearman-Brown-formeln, som föreslog det oberoende av varandra. Deras artiklar publicerades i samma nummer av en psykologisk tidskrift med slutsatser och formler [Avanesov , 1982]. I deras formel

R(x, 0=2 RJ\ + R, y

där R är korrelationskoefficienten för testets två halvor. Medelmodulen för korrelationskoefficienten för alla testobjekt eller den genomsnittliga bestämningskoefficienten betraktas som en tillförlitlighetsindexkoefficient.

Hittills har vi tittat på tre empiriska metoder för att bedöma testtillförlitlighet: omtestning med samma test, omtestning med en parallell form av testet och dela upp testet.

Vilken av dessa metoder ger en sann uppskattning av testets tillförlitlighet? Vilken metod ska du använda? Svaret på denna fråga beror på personliga preferenser och studiens mål.

Vid användning av den upprepade testmetoden får vi en bedömning av graden av stabilitet hos resultaten över tid och beroende på testförhållandena. Därför kallas även test-retest reliabilitetskoefficienten stabilitetskoefficient eller stabilitet testa. Vid användning av parallellformmetoden och klyvningsmetoden bedöms graden av inbördes överensstämmelse mellan testdelarna. Därför tolkas tillförlitlighetskoefficienterna som erhålls med dessa två metoder som svängda och homogenitet, homogenitet tester.

Förutom indikatorer på stabilitet och homogenitet anser R. B. Cattell att det är nödvändigt att överväga indikatorn överförbarhet. Det är en bedömning av ett tests förmåga att upprätthålla mätnoggrannhet över olika prover, subkulturer och populationer. Tillsammans bildar stabilitet, homogenitet och portabilitet en komplex egenskap hos tillförlitlighet, som R. B. Cattell kallar konsistens och definierar det som "i vilken grad ett test fortsätter att förutsäga vad det en gång förutspådde trots förändringar (inom vissa gränser): a) i vilken utsträckning testet tillämpas; b) de förhållanden under vilka den användes. c) Sammansättningen av provet i vilket det appliceras.”

Slutligen finns det en typ av reliabilitet som direkt relaterar till reliabiliteten hos den person som administrerar testet. En uppskattning av tillförlitligheten hos den person som administrerar testet erhålls genom att oberoende simulera testet av två olika experimentörer.

Testresultatens tillförlitlighet beror inte bara på tillförlitligheten hos själva testet och förfarandet för att genomföra det. En viktig faktor som påverkar resultaten av datatolkningen är specificiteten hos ett visst urval. De viktigaste egenskaperna hos provet, ur denna synvinkel, bör erkännas som sociopsykologisk homogenitet i olika parametrar; ålder och kön beaktas också.

A.G. Shmelev föreslår att man ska utföra sekvensen av åtgärder vid kontroll av tillförlitlighet enligt följande [General psychodiagnostics, 1987]:

1. Ta reda på om det finns data om tillförlitligheten hos det test som föreslagits för användning, om vilken population och i vilken diagnostisk situation det testades. Om det inte fanns någon kontroll eller om funktionerna i den nya populationen och situationerna är tydligt specifika, kontrollera tillförlitligheten igen med hänsyn till alternativen som anges nedan.

2. Om möjligheterna tillåter, testa sedan om på hela standardiseringsprovet och beräkna alla koefficienter som ges både för hela testet och för enskilda poster. Analys av de erhållna koefficienterna kommer att hjälpa till att förstå hur försumbart mätfelet är.

3. Om möjligheterna är begränsade, upprepa testning endast på en del av provet (minst 30 försökspersoner), beräkna rankkorrelationen manuellt för att bedöma den interna

konsistens (genom klyvningsmetod) och stabilitet för hela testet.

Naturligtvis är de övervägda begreppen psykodiagnostik dess viktigaste egenskaper. Höga tillförlitlighetsindikatorer i sig avgör dock inte testets praktiska värde. Den ledande faktorn som låter dig mäta målresultaten för psykologiska tester är validitet.