موثوقية وصلاحية الاختبار - ما هو؟ أ) في الإحصاء الوصفي

قبل أن يتم استخدام تقنيات التشخيص النفسي لأغراض عملية، يجب اختبارها وفقًا لعدد من المعايير الرسمية التي تثبت جودتها وفعاليتها العالية. تشمل المعايير الرئيسية لتقييم تقنيات التشخيص النفسي الموثوقية والصلاحية. قدم علماء النفس الأجانب مساهمة كبيرة في تطوير هذه المفاهيم (A. Anastasi، E. Ghiselli، J. Guilford، L. Cronbach، R. Thorndike، E. Hagen، إلخ). لقد طوروا جهازًا إحصائيًا منطقيًا ورياضيًا رسميًا (في المقام الأول طريقة الارتباط والتحليل الواقعي) لإثبات درجة امتثال الأساليب للمعايير المذكورة.

في الاختبار التقليدي، هذا المصطلح "مصداقية"يعني الثبات النسبي والاستقرار واتساق نتائج الاختبار أثناء الاستخدام الأولي والمتكرر على نفس المواضيع.

موثوقية الطريقة- وهذا معيار يدل على دقة القياسات النفسية، أي أنه يسمح بالحكم على مدى مصداقية النتائج التي تم الحصول عليها.

هذا هو اتساق نتائج الأشخاص الذين تم اختبارهم في نقاط زمنية مختلفة، أثناء الاختبار الابتدائي والثانوي واستخدام المهام التي تختلف في التكافؤ والمحتوى. الموثوقية تميز اختبارات الخصائص، ولكن ليس الحالات. ملكيات:

    1. استنساخ نتائج البحوث.
    2. دقة القياس.
    3. استدامة النتائج.

تعتمد درجة موثوقية الأساليب على عدة أسباب. ضمن العوامل السلبيةالأكثر ذكرًا هي ما يلي:

    1. عدم استقرار الممتلكات التي تم تشخيصها.
    2. النقص في طرق التشخيص (يتم وضع التعليمات بلا مبالاة، والمهام غير متجانسة بطبيعتها، ولم يتم صياغة تعليمات تقديم الطريقة للمواضيع بشكل واضح، وما إلى ذلك)؛
    3. تغيير حالة الفحص (أوقات مختلفة من اليوم عند إجراء التجارب، إضاءة مختلفة للغرفة، وجود أو عدم وجود ضوضاء غريبة، وما إلى ذلك)؛
    4. الاختلافات في سلوك المجرب (من تجربة إلى أخرى يقدم التعليمات بشكل مختلف، ويحفز إكمال المهام بشكل مختلف، وما إلى ذلك)؛
    5. تقلبات في الحالة الوظيفية للموضوع (في تجربة واحدة هناك صحة جيدة، في تجربة أخرى - التعب، وما إلى ذلك)؛
    6. عناصر الذاتية في أساليب تقييم النتائج وتفسيرها (عندما يتم تسجيل إجابات أفراد الاختبار، يتم تقييم الإجابات حسب درجة الاكتمال والأصالة وما إلى ذلك).

إحدى أهم وسائل زيادة موثوقية المنهجية هي توحيد إجراءات الفحص، وتنظيمها الصارم: نفس البيئة، ونفس نوع التعليمات، ونفس القيود الزمنية للجميع، وطرق وميزات الاتصال بالمواضيع، وما إلى ذلك وهلم جرا.

وتتأثر خصائص ثبات الأساليب بشكل كبير بالعينة قيد الدراسة. ويمكن أن تقلل أو تبالغ في تقدير هذا المؤشر؛ على سبيل المثال، يمكن تضخيم الموثوقية بشكل مصطنع إذا كان هناك تشتت صغير في النتائج في العينة، أي. إذا كانت النتائج متقاربة في القيمة لبعضها البعض. لذلك، يصف الدليل عادةً العينة التي تم تحديد مدى موثوقية التقنية عليها.

حاليا، يتم تحديد الموثوقية بشكل متزايد على العينات الأكثر تجانسا، أي. على عينات متشابهة من حيث الجنس والعمر ومستوى التعليم والتدريب المهني وما إلى ذلك.

هناك العديد من أنواع موثوقية الطريقة حيث توجد ظروف تؤثر على نتائج الاختبارات التشخيصية. وبما أن جميع أنواع الموثوقية تعكس درجة اتساق سلسلتين من المؤشرات التي تم الحصول عليها بشكل مستقل، فإن التقنية الرياضية والإحصائية التي يتم من خلالها تحديد موثوقية المنهجية هي الارتباطات (وفقًا لبيرسون أو سبيرمان). وكلما اقترب معامل الارتباط الناتج من الوحدة، زادت الثبات، والعكس صحيح.

كم. جورفيتشيقترح تفسير الموثوقية على النحو التالي:

    1. موثوقية أداة القياس نفسها (معامل الموثوقية)؛
    2. ثبات الصفة المدروسة (معامل الثبات)؛
    3. الثبات، أي الاستقلال النسبي للنتائج عن شخصية المجرب (معامل الثبات).

يُقترح أن يُطلق على المؤشر الذي يميز أداة القياس اسم معامل الموثوقية؛ مؤشر يميز استقرار الممتلكات المقاسة - معامل الاستقرار؛ ومؤشر تقييم تأثير شخصية المجرب هو معامل الثبات. وبهذا الترتيب يوصى بالتحقق من المنهجية: يُنصح بالتحقق أولاً من أداة القياس. إذا كانت البيانات التي تم الحصول عليها مرضية، فيمكننا المضي قدمًا في إنشاء مقياس لاستقرار الخاصية التي يتم قياسها، وبعد ذلك، إذا لزم الأمر، النظر في معيار الثبات. (الثبات: الاختبار-إعادة الاختبار، الأشكال المتوازية، أجزاء الجسم، الاتساق الداخلي، التباين العاملي).

تحديد موثوقية أداة القياس.تعتمد دقة وموضوعية القياس على كيفية تجميع المنهجية، ومدى صحة اختيار المهام، ومدى توحيدها.

للتحقق من موثوقية أداة القياس، مما يدل على تجانسها (التجانس)، يتم استخدام طريقة الانقسام. يتم تقسيم المهام إلى زوجية وفردية (يجب إكمال جميع المهام)، ثم يتم ربط النتائج مع بعضها البعض. إذا كانت التقنية متجانسة، فلن يكون هناك فرق كبير في النجاح بين هذين النصفين، سيكون المعامل مرتفعا. يمكنك مقارنة الأجزاء، لكن من الأفضل المقارنة بين الأجزاء الزوجية والفردية، لأن ولا تعتمد هذه الطريقة على التدريب والتعب وما إلى ذلك.

تكون هذه التقنية موثوقة إذا لم يكن المعامل أقل 0,75 - 0,85, أفضل 0.90 وما فوق.

تحديد ثبات الصفة المدروسة.ومن الضروري أيضًا تحديد مدى استقرار السمة التي ينوي الباحث قياسها. قد تتغير العلامة مع مرور الوقت، ولكن لا ينبغي أن تكون تقلباتها غير متوقعة.

للتحقق، يتم استخدام تقنية تسمى اختبار إعادة الاختبار. وهو يتألف من إعادة فحص المواضيع باستخدام نفس التقنية. ويتم الحكم على الثبات من خلال معامل الارتباط بين نتائج الاختبارين الأول والثاني. وسيشير إلى ما إذا كان كل موضوع يحتفظ أو لا يحتفظ برقمه الترتيبي في العينة.

تتأثر درجة الاستقرار بمجموعة متنوعة من العوامل. ويجب مراعاة توحيد إجراءات الفحص.

عند تحديد استقرار السمة، فإن الفاصل الزمني بين الفحص الأول والثاني له أهمية كبيرة. وكلما كانت هذه الفترة أقصر، زادت فرصة احتفاظ هذه الإشارة بمستوى الاختبار الأول. ومن المستحسن إعادة الاختبار بعد وقت قصير من الاختبار. يحدد المجرب نفسه هذه الفترة، ولكن في كثير من الأحيان في الأدب النفسي يشيرون إلى فاصل زمني لعدة أشهر (ولكن ليس أكثر من ستة أشهر). لا يتم دائمًا حل مسألة استقرار الممتلكات التي يتم قياسها بشكل موحد. يعتمد القرار على جوهر الأعراض التي يتم تشخيصها.

إذا كانت الخاصية التي يتم قياسها قد تم تشكيلها بالفعل، فيجب ألا يقل المعامل عن 0.80.

تعريف الثبات، أي. الاستقلال النسبي للنتائج عن شخصية المجرب. نظرًا لأنه يتم تطوير هذه التقنية لمزيد من الاستخدام من قبل أخصائيي التشخيص النفسي الآخرين، فمن الضروري تحديد مدى تأثر نتائجها بشخصية المجرب. يتم تحديد معامل الثبات من خلال ربط نتائج تجربتين أجريتا على نفس العينة، ولكن من قبل مجربين مختلفين. يجب ألا يقل معامل الارتباط عن 0.80.

يتم تحديد مسألة الصلاحية بعد إثبات الموثوقية، حيث أن التقنية غير الموثوقة لا يمكن أن تكون صالحة.

صلاحيةالاختبار - مفهوم يخبرنا بما يقيسه الاختبار ومدى نجاحه (أ. أناستاسي). صلاحيةوهي في جوهرها خاصية معقدة تتضمن، من ناحية، معلومات حول ما إذا كانت التقنية مناسبة لقياس ما أنشئت من أجله، ومن ناحية أخرى، ما هي مدى فعاليتها وكفاءتها وفائدتها العملية.

ولهذا السبب، لا يوجد نهج عالمي واحد لتحديد الصلاحية. اعتمادًا على جانب الصحة الذي يريد الباحث أخذه في الاعتبار، يتم استخدام طرق مختلفة للأدلة. وبعبارة أخرى، فإن مفهوم الصلاحية يشمل أنواعه المختلفة، التي لها معنى خاص بها. التحقق من صحة المنهجية يسمى التحقق من الصحة.

الصلاحية هي امتثال دراسة معينة للمعايير المقبولة (تجربة لا تشوبها شائبة).

فالصلاحية في فهمها الأول تتعلق بالمنهجية نفسها، أي بالمنهجية. هذه هي صلاحية أداة القياس. ويسمى هذا النوع من التحقق التحقق النظري. ولا تشير الصلاحية في فهمها الثاني إلى المنهجية بقدر ما تشير إلى الغرض من استخدامها. هذا هو التحقق العملي.

أثناء التحقق النظري، يهتم الباحث بالخاصية نفسها المقاسة بهذه التقنية.

نظرًا لأنه، لتحديد التحقق النظري، من الصعب العثور على أي معيار مستقل يقع خارج المنهجية، وبالتالي فإن البيانات التي لا أساس لها من الصحة حول صحة هذه المنهجية كانت تعتبر في السابق أمرًا مفروغًا منه. حيث أن التحقق النظري يهدف إلى إثبات أن التقنية تقيس بالضبط الخاصية التي من المفترض أن تقيسها. ومن أجل التحقق النظري، فإن المشكلة الأساسية هي العلاقة بين الظواهر النفسية ومؤشراتها، والتي نحاول من خلالها معرفة هذه الظواهر النفسية. ويظهر أن نية المؤلف ونتائج المنهجية متطابقة.

ليس من الصعب إجراء التحقق النظري لتقنية جديدة إذا كانت هناك بالفعل تقنية ذات صلاحية معروفة ومثبتة لقياس خاصية معينة. إن وجود علاقة ارتباط بين تقنية جديدة وتقنية قديمة مشابهة يدل على أن التقنية المطورة تقيس نفس الجودة النفسية كالتقنية المرجعية.

للتحقق من الصلاحية النظرية، من المهم، من ناحية، تحديد درجة الارتباط بتقنية ذات صلة (الصلاحية المتقاربة)، ومن ناحية أخرى، عدم وجود هذا الارتباط مع التقنيات التي لها أساس نظري مختلف (الصلاحية التمييزية ).

دور مهم في فهم ما تلعبه مقاييس المنهجية من خلال مقارنة مؤشراتها بالأشكال العملية للنشاط. ومن المهم أن يتم وضع المنهجية من الناحية النظرية.

التحقق العملي

يتم التحقق من الفعالية العملية للمنهجية وأهميتها وفائدتها، حيث لا يمكن استخدام المنهجية إلا عندما يثبت أن الخاصية التي يتم قياسها تتجلى في أنواع معينة من الأنشطة.

لاختبار الصلاحية الواقعية، يتم استخدام معيار خارجي مستقل - وهو مؤشر لمظهر الخاصية المدروسة في الحياة اليومية. يمكن أن يكون هذا المعيار الأداء الأكاديمي (لاختبارات قدرات التعلم، واختبارات التحصيل، واختبارات الذكاء)، وإنجازات الإنتاج (لأساليب التوجيه المهني)، وفعالية الأنشطة الحقيقية - الرسم والنمذجة وما إلى ذلك (لاختبارات القدرات الخاصة )، التقييمات الذاتية (لاختبارات الشخصية).

حدد الباحثون الأمريكيون تيفين وماكورميك 4 أنواع من المعايير الخارجية:

    1. معيار الأداء (كمية العمل المنجز، الأداء الأكاديمي، الوقت، معدل نمو المؤهلات).
    2. المعايير الذاتية (تشمل أنواعًا مختلفة من الإجابات التي تعكس موقف الشخص تجاه شيء ما وآرائه ووجهات نظره).
    3. المعيار الفسيولوجي (يستخدم عند دراسة تأثير البيئة الخارجية على الجسم والنفسية).
    4. معيار العشوائية (على سبيل المثال، عندما يتعلق الهدف بمشكلة اختيار الأفراد الأقل عرضة للحوادث للعمل).

يجب أن يحتوي المعيار الخارجي على 3 متطلبات رئيسية:

    1. ويجب أن يكون ذا صلة، أي أنه يجب أن تكون هناك ثقة في أن المعيار يتضمن بالضبط سمات النفس الفردية التي تقيسها تقنية التشخيص. يجب أن يكون المعيار الخارجي والنموذج التشخيصي في المراسلات الدلالية الداخلية.
    2. يجب أن تكون خالية من التداخل (التلوث). يجب اختيار مجموعات من الأشخاص الذين هم في ظروف متطابقة إلى حد ما للبحث.
    3. يجب أن تكون موثوقة. ثبات واستقرار الوظيفة قيد الدراسة.

يمكن أن يكون تقييم صلاحية المنهجية كميًا ونوعيًا.

لحساب المؤشر الكمي (معامل الصلاحية)، تتم مقارنة النتائج التي تم الحصول عليها من تطبيق تقنيات التشخيص مع بيانات نفس الأفراد التي تم الحصول عليها باستخدام معيار خارجي. يتم استخدام أنواع مختلفة من الارتباط الخطي (حسب سبيرمان، حسب بيرسن).

وصف نوعي لجوهر الممتلكات التي يتم قياسها. لا يتم استخدام المعالجة الإحصائية هنا.

هناك العديد أنواع الصلاحية، بسبب خصوصيات تقنية التشخيص، فضلا عن الوضع المؤقت للمعيار الخارجي:

    1. صلاحية المحتوى (المستخدمة في الاختبارات التحصيلية): 3 - 4 أسئلة من موضوع كبير يمكن أن تظهر المعرفة الحقيقية للطالب. وللقيام بذلك، تتم مقارنة نتائج التشخيص مع تقييمات الخبراء التي أجراها المعلم.
    2. الصلاحية المعاصرة أو الصلاحية الحالية - يتم جمع البيانات ذات الصلة بالوقت الحاضر: الأداء الأكاديمي، والإنتاجية، وما إلى ذلك. نتائج نجاح الاختبار ترتبط بها.
    3. الصلاحية "التنبؤية" ("التنبؤية"). يتم تحديده من خلال معيار خارجي موثوق، ولكن يتم جمع المعلومات عنه بعد فترة من الاختبار. ترتبط دقة التنبؤ عكسيا بالوقت المحدد لهذا التنبؤ.
    4. الصلاحية "بأثر رجعي". يتم تحديدها على أساس معيار يعكس الأحداث أو حالة الجودة في الماضي. يمكن استخدامها للحصول بسرعة على معلومات حول القدرات التنبؤية لهذه التقنية.

طريقة لحساب خصائص الاختبار

بوفتروكيفيتش ماريا فيكتوروفنا,

طالب في السنة الثالثةز.مينسك

كيرينكو آنا فلاديميروفنا

طالب في السنة الثالثةقسم تكنولوجيا المعلومات، جامعة BSU،ز.مينسك

سيروتينا إيرينا كازيميروفنا

مشرف علمي، كبير مدرس,ز.مينسك

اليوم، مسألة مراقبة الاختبار ذات أهمية كبيرة. يتم استخدامه على نطاق واسع عند إجراء حملات القبول في الجامعات، عند اختبار معرفة الطلاب في المدارس والمدارس الثانوية ومؤسسات التعليم الثانوي الخاص والعالي، وعند التوظيف، حيث تساعد الاختبارات في تحديد قدرات الشخص وميوله وميوله وكذلك مستواه. بالمعرفة والمهارات والقدرات، ثم احتلوا مكانة هامة في مجال التعليم.

امتحانهي أداة تتكون من نظام تم التحقق منه نوعياً لمهام الاختبار، وإجراءات موحدة للتنفيذ وتقنية مصممة مسبقًا وتحليل النتائج لقياس صفات وخصائص الشخص، والإنجازات التعليمية التي يمكن تغييرها في العملية من التدريب المنهجي.

اختبار تربويهو نظام مهام ذو شكل محدد ومحتوى محدد وصعوبة متزايدة بالتساوي - نظام تم إنشاؤه بهدف التقييم الموضوعي للهيكل وقياس مستوى استعداد الطلاب. .

المشكلة الرئيسية في اختبار التحكم في المعرفة هي عملية إنشاء الاختبارات وتوحيدها وتحليلها. ولجعل الاختبار جاهزًا للاستخدام بالكامل، من الضروري جمع البيانات الإحصائية لعدة سنوات. في كثير من الأحيان، هناك ذاتية كبيرة في التكوين لمحتوى الاختبارات نفسها، في اختيار وصياغة أسئلة الاختبار. يعتمد الكثير أيضًا على نظام الاختبار المحدد، وعلى مقدار الوقت المخصص لاختبار المعرفة، وعلى بنية الأسئلة المدرجة في مهمة الاختبار، وما إلى ذلك. ولتقييم مستوى المعرفة بشكل موضوعي، من الضروري تصميم الاختبار بكفاءة: لا يكفي طرح الأسئلة وخيارات الإجابة، لأنه في هذه الحالة قد تنشأ العديد من التناقضات والأخطاء والشكوك، وقد يتبين أن المهام بسيطة للغاية أو على العكس من ذلك معقدة للغاية. ولهذا السبب، تخضع مهام الاختبار لعملية تقييم خاصة، والتي سنأخذها في الاعتبار في عملنا.

غاية عملنا هو تنظيم الأساليب التي تسمح لنا بحساب خصائص الاختبار. بعد تحليل الأدبيات العلمية حول موضوع البحث، اخترنا خصائص الاختبار الأكثر شيوعًا، وجمعناها معًا، ووصفنا تطبيقها بالتفصيل، ووضعنا قواعد عامة لإنشاء اختبار عالي الجودة، وأعطينا أمثلة. نأمل أن يؤدي هذا العمل إلى تحسين هذا النوع من اختبار المعرفة مثل التحكم في الاختبار، والذي بدوره سيؤدي إلى تحسين جودة التعليم.

في نظرية وممارسة قياسات الاختبار، يحدد المتابعون مجموعة متنوعة من خصائص الاختبار: الموثوقية، والصلاحية، والتمييز، والقدرة على التكيف الاجتماعي والثقافي، والموثوقية، وعدم الغموض، والتوحيد القياسي، والدقة، والتعقيد، ووضع المعايير، وما إلى ذلك. في هذا العمل، نظرًا لمواصفات لدينا وفي الدراسة أخذنا بعين الاعتبار ما يلي: الثبات، الصدق، التمييز.

تمييز يتم تعريف المهام على أنها القدرة على فصل المتقدمين للاختبار الحاصلين على درجة اختبار إجمالية عالية عن أولئك الذين حصلوا على درجة منخفضة، أو المتقدمين للاختبار ذوي الإنتاجية التعليمية العالية من المتقدمين للاختبار ذوي الإنتاجية المنخفضة. .

لحساب التمييز، سنستخدم طريقة المجموعات المتطرفة: عند حساب التمييز لمهمة الاختبار، يتم أخذ نتائج الطلاب الأكثر والأقل نجاحًا في الاعتبار. ويمكن أن تختلف نسبة أعضاء الجماعات المتطرفة بشكل كبير تبعا لحجم العينة. كلما كبرت العينة، قلت نسبة الموضوعات التي يمكنك قصر نفسك عليها عند تحديد المجموعات ذات النتائج العالية والمنخفضة. الحد الأدنى لـ "قطع المجموعة" هو 10% من إجمالي عدد الأشخاص في العينة، والحد الأعلى هو 33%. سنستخدم في عملنا مجموعة 27%، حيث أنه بهذه النسبة يتم تحقيق أقصى قدر من الدقة في تحديد التمييز.

مؤشر التمييز ديتم تعريفه على أنه الفرق بين نسبة الأشخاص الذين قاموا بحل المشكلة بشكل صحيح من المجموعتين "عالية الإنتاجية" و"منخفضة الإنتاجية"، ويتم العثور عليه باستخدام الصيغة:

أين: نالحد الأقصى - عدد الطلاب في مجموعة الأفضل الذين أكملوا المهمة بشكل صحيح؛ نالحد الأدنى - عدد الطلاب في المجموعة الأسوأ الذين أكملوا المهمة بشكل صحيح؛ نالحد الأقصى - العدد الإجمالي للموضوعات في أفضل مجموعة؛ نالحد الأدنى - إجمالي عدد الأشخاص في المجموعة الأسوأ.

يقترح VK Gaida و V. P. Zakharov حساب معامل التمييز من خلال حساب مقياس المراسلات بين نجاح حل مشكلة واحدة والاختبار بأكمله. سيكون هذا المؤشر هو معامل التمييز، وتستخدم الصيغة لحسابه:

, (2)

أين: س- المتوسط ​​الحسابي لجميع درجات الاختبارات الفردية؛

س ن- المتوسط ​​الحسابي لدرجات الاختبار لأولئك الذين قاموا بحل المشكلة بشكل صحيح؛

×- الانحراف المعياري لدرجات الاختبارات الفردية للعينة؛

ن- عدد الأشخاص الذين قاموا بحل المشكلة بشكل صحيح؛

اختصار الثاني- العدد الإجمالي للمواد.

يمكن أن يأخذ معامل التمييز القيم من -1 إلى +1. تشير القيمة الإيجابية العالية لتمييز مهمة الاختبار إلى فعالية تقسيم الموضوعات، وتشير القيمة السلبية العالية إلى عدم ملاءمة هذه المهمة للاختبار، وعدم توافقها مع النتيجة الإجمالية. نتيجة د≥0.3 تعتبر مرضية. إذا كانت قيمة المعامل قريبة من 0، فيجب اعتبار المهام تمت صياغتها بشكل غير صحيح.

صلاحية يقصد بها مدى ملاءمة نتائج الاختبار للغرض الذي تم إجراء الاختبار من أجله. صلاحيةهي سمة من سمات قدرة الاختبار على خدمة غرض القياس المقصود. صلاحيةيحدد مدى يعكس الاختبار ما يفترض أن يقيسه.

تتميز الأنواع التالية: معالوسواسالصلاحية - خاصية تمثيل محتوى الاختبار فيما يتعلق بالمعرفة والمهارات المخطط لها للاختبار؛ لبناءالصلاحية (المفاهيمية) هي سمة من سمات القياس المناسب للبناء النظري، أي. ه. ما إذا كان اختبار الذكاء يقيس معدل الذكاء بالفعل؛ لطقوسالصلاحية - تحدد قدرة الاختبار على العمل كمؤشر لخصائص وأشكال السلوك المحددة بدقة؛ تحاضِرالصلاحية - خاصية الاختبار التي تعكس قدرته على التمييز بين المواضيع بناءً على الخاصية التي هي موضوع التعريف في هذه التقنية؛ صروجنوستيكتوفر الصلاحية معلومات حول مدى دقة الحكم على الجودة المحددة في الاختبار على مدى فترة زمنية بعد القياس.

لتقييم صلاحية الاختبار، عادة ما يتم استخدام الارتباط بين درجات الاختبار وبعض المعايير الخارجية. بالنسبة للاختبارات التربوية، فإن المعايير المتخذة عادة هي تقييمات الخبراء التي يقدمونها أثناء الاختبار التقليدي لمعارف الطلاب دون استخدام الاختبارات. وتتسم عملية التحقق من الصحة بالتعقيد بسبب الحاجة إلى إنشاء قدر من الاتساق في تقييمات الخبراء، الذين عادة ما يكون عددهم ثلاثة أشخاص على الأقل.

يتم تحديد الصلاحية من خلال طرق التحديد الكمية في الغالب باستخدام التقييمات النوعية، وعادةً ما يتم ذلك بمشاركة الخبراء: o مضروبيقال التحليل عندما يتم استخدام التحليل العاملي لتحديد الصلاحية لتحديد تحميلات العوامل وتكوين العوامل للاختبار؛ ل إجماعالصلاحية - يتم استخدام البيانات الواردة من خبراء خارجيين للحصول على السلسلة الثانية من التقييمات؛ أوه تجريبيالصلاحية - للحصول على السلسلة الثانية من التقديرات، يتم استخدام النتائج التي تم الحصول عليها من خلال تطبيق الطرق المعروفة مسبقًا أو من مصادر أخرى.

سننظر في هذه الورقة إلى مثال لحساب الصلاحية مع مراعاة نتائج الاختبار وتقييمات الخبراء:

, (3)

حيث: - المتوسط ​​الحسابي لتقييمات الخبراء،

الانحراف المعياري لهذه التقديرات هو:

(3.2)

وبالمثل، فإن المتوسط ​​الحسابي لدرجات اختبار الطلاب، و
- الانحراف المعياري لهذه الدرجات، ويتم حسابه أيضًا باستخدام الصيغ (3.1)، (3.2).

مصداقية هي إحدى خصائص الاختبار التي تعكس دقة قياسات الاختبار، وكذلك ثبات نتائج الاختبار لفعل العوامل العشوائية.

هناك نوعان من الموثوقية: الموثوقية كاستقرار؛ الموثوقية كالاتساق الداخلي.

الموثوقية كاستقرار.ثبات نتائج الاختبار هو إمكانية الحصول على نفس النتائج من الأشخاص في حالات مختلفة. يتم قياس الموثوقية والثبات من خلال تكرار الاختبار على نفس العينة من الأشخاص، عادة بعد أسبوعين من الاختبار الأول. كلما زادت ثبات الاختبار، كلما كانت نتائج نفس الشخص أكثر اتساقًا عند اختبار المعرفة مرة أخرى باستخدام نفس الاختبار أو ما يعادله (الاختبار الموازي). للعثور على هذه الخاصية يقترح استخدام صيغة بيرسون:

, (4)

أين Xأنا- درجة اختبار الموضوع الأول في القياس الأول؛

ص ط- درجة اختبار نفس الموضوع أثناء القياس المتكرر؛

ن-عدد المواضيع.

ويتم تحديد الاتساق الداخلي من خلال ارتباط كل عنصر محدد من عناصر الاختبار بالنتيجة الإجمالية، ومدى تعارض كل عنصر مع العناصر الأخرى، ومدى قياس كل سؤال فردي للخاصية التي يستهدفها الاختبار بأكمله. للتحقق من الاتساق الداخلي، يتم أخذ الطرق التالية بعين الاعتبار: طريقة التقسيم أو طريقة الأجزاء المستقلة؛ طريقة الأشكال المتكافئة؛ طريقة ألفا كرونباخ. تستخدم طريقة التقسيم الصيغ التالية: Spearman-Brown؛ لفافة؛ كودر ريتشاردسون. ستانلي. إذا كانت قيم المعامل صيقع في نطاق 0.80-0.89، ثم يقولون إن الاختبار يتمتع بموثوقية جيدة، وإذا كان هذا المعامل لا يقل عن 0.90، فيمكن تسمية الموثوقية بأنها عالية جدًا. عند تطبيق طريقة التقسيم، يتم تقسيم مصفوفة الاختبار إلى نصفين، يتكونان من المهام ذات الأرقام الزوجية والفردية.

تبدو صيغة سبيرمان-براون كما يلي:

قبل تطبيق هذه الصيغة، من الضروري تطبيق الصيغة (3). يرجى ملاحظة أنه في هذه الحالة Xأنا- نتيجة اختبار أنا- الموضوع للمهام ذات الرقم الزوجي؛ ص ط

تبدو صيغة Rulon كما يلي:

تشتت الفروق بين نتائج كل مادة في نصفي الاختبار س 2 دتم العثور عليه بواسطة الصيغة:

أين: العاشر ط- درجة اختبار الموضوع الأول للمهام ذات الرقم الزوجي؛

ص ط- درجة اختبار نفس الموضوع للمهام ذات العدد الفردي.

تشتت مجموع درجات النتائج س 2 ضتم العثور عليه بواسطة الصيغة:

, (6.2)

أين: ض ط- الدرجة الإجمالية للاختبار أناالطالب ال.

تبدو صيغة Kuder-Richardson كما يلي:

, (7)

أين: ص ي- حصة الإجابات الصحيحة ل ي-المهمة، أي. عدد الإجابات الصحيحة مقسوما على عدد الطلاب؛

س ي- نسبة الإجابات غير الصحيحة ل ي-المهمة الرابعة، أي عدد الإجابات الخاطئة مقسوما على عدد الطلاب ( س ي= 1 -ص ي);

س 2 ض- تشتت مجموع نقاط النتيجة والذي يتم حسابه وفق الصيغة (5.2).

عند حساب الموثوقية باستخدام صيغة ستانلي، يجب تقسيم الطلاب إلى مجموعتين. ستضم المجموعة الأولى 27% من الطلاب “الأقوياء” (الذين حصلوا على أكبر عدد من النقاط)، والمجموعة الضعيفة ستضم 27% من الطلاب “الضعفاء” (الذين حصلوا على أقل عدد من النقاط).

صيغة ستانلي:

, (8)

أين دبليو إل- عدد الإجابات غير الصحيحة على هذا السؤال في المجموعة الضعيفة؛

هل- عدد الإجابات غير الصحيحة على هذا السؤال في المجموعة القوية؛

ن- عدد الأسئلة في الاختبار.

ك- عدد المواد في المجموعة القوية (الضعيفة) أي 27% من إجمالي عدد المواد.

يُظهر معامل ألفا كرونباخ الاتساق الداخلي للخصائص التي تصف كائنًا واحدًا ويتم العثور عليه بواسطة الصيغة:

, (9)

أين: س 2 ي- تشتت مجموع نقاط النتيجة والذي يتم حسابه وفق الصيغة (3.2)؛

س 2 يي- تشتت العنصر أنا.

وسوف نعرض طريقة حساب خصائص الاختبار على مادة محددة مثال. لقد تلقينا نتائج اختبار الطلاب المبينة في الجدول 1.

الجدول 1

نتائج الاختبار الأول

شارعudent

أنا

مراجعة الخبراء

رقم الوظيفة

1 0

وبعد أسبوعين، تم تكرار الاختبار وتم الحصول على النتيجة المعروضة في الجدول 2.

الجدول 2

نتائج الاختبار الثاني

أنا

مراجعة الخبراء

رقم الوظيفة

1 0

باستخدام البيانات الواردة في الجداول، دعنا ننتقل إلى حساب جميع الخصائص المذكورة أعلاه.

تمييز

1. نحسب عدد الطلاب في المجموعات الخارجية، ونقربه فورًا إلى أعداد صحيحة:

2. فكر في مجموعة من الأفضل ومجموعة من الأسوأ، كل منهما سيكون 3 أشخاص. نحصل على الجدول 3.

الجدول 3

جدول ملخص للاختبار مع تقييمات الخبراء

أنا

مراجعة الخبراء، إي

رقم الوظيفة

مجموع درجات الاختبار

1 0

وبالتالي فإن أفضل مجموعة تضم الطلاب المرقمة 1، 10، 4؛ في أسوأ مجموعة: 3، 5، 2 (إذا كان هناك طلاب لديهم نفس درجة الاختبار، فإننا نأخذ في الاعتبار تقييمات الخبراء).

3. لنقم بإنشاء جدول 4 يتكون فقط من الطلاب من أفضل مجموعة والطلاب من أسوأ مجموعة، ونحسب على الفور عدد الطلاب في كل مجموعة الذين أكملوا المهمة بشكل صحيح.

الجدول 4

جدول ملخص للاختبار مع تقييمات الخبراء
للجماعات المتطرفة

أنا

تقييم الخبراء، EI

رقم الوظيفة

1 0

مجموعة من الأفضل

أسوأ مجموعة

4. نحسب مؤشر التمييز لكل مهمة باستخدام الصيغة (1):

, , , , , , , , , .

نستنتج أن المهام 6 و 7 غير تمييزية.

صلاحية

تم العثور على الجدول 6 هأنا (تقييم الخبراء)، ض ط(الدرجة الإجمالية للاختبار)، ن- معلوم أنه في حالتنا يساوي 10.

1. نجد أيضاً من الصيغة (3.1):

2. ونجد أيضاً من الصيغة (3.2):

,.

3.يتم حساب الصلاحية باستخدام الصيغة (3). للراحة، دعونا نحسب بشكل منفصل:

نحن نحصل: .

الموثوقية والاستدامة

1. أولاً، لنبني الجدول 5.

الجدول 5

إيجاد الموثوقية باستخدام صيغة بيرسون

رقم الطالب ط

درجة الاختبار الأول X أنا

إعادة اختبار النتيجةص ط

X أنا ص ط

(العاشر ط) 2

(ص ط) 2

2. لنطبق الصيغة (4):

الموثوقية كالاتساق الداخلي.وسنعتبر هذه الخاصية طريقة تقسيم حسب صيغة رولون (6).

1. أولا، دعونا نوجد تباين الفروق بين نتائج كل مادة في نصفي الاختبار. دعونا نملأ الجدول 6.

الجدول 6

حساب التباين في فروق النتائج

أنا

نقاط للمهام ذات رقم زوجيالعاشر ط

يسجل للمهام ذات الأرقام الفرديةص ط

X أنا -ي ط

2. تطبيق الصيغة (6.1): .

3. دعنا نوجد تشتت إجمالي الدرجات للنتيجة من خلال إنشاء الجدول 7 أولاً.

الجدول 7

حساب التباين في مجموع الدرجات

أنا

النتيجة لجميع المهام Zأنا

4. بتطبيق الصيغة (6.2) ثم الصيغة (6) نحصل على:

, .

تفسير النتائج

1. الثبات كثبات: بما أن قيمة المعامل تقارب 0.923، فإن الاختبار يتمتع بدرجة عالية من الثبات. وهذا يعني أنه من وجهة النظر هذه تم تجميعها بشكل جيد للغاية.

2. الوثوقية كالاتساق الداخلي: قيمة معامل الارتباط 0.198 تقريباً. يشير هذا إلى موثوقية منخفضة، لذا من الأفضل إعادة الاختبار لتحديد عناصر الاختبار التي يجب استبدالها.

3. التمييز: المهمتان 6 و7 غير تمييزيتين، حيث أن معامل التمييز الأقل من 0.3 يعتبر غير مرضي. وهذا يعني أن هذه العناصر غير مناسبة للاختبار ويجب استبدالها.

4. الصدق: درجة الارتباط بين نتائج الاختبار والمعيار الخارجي (تقييمات الخبراء) عالية جدًا وتبلغ 0.962823. تشير هذه النتيجة إلى صلاحية عالية للاختبار المدروس.

نلفت انتباهكم إلى حالات خاصة.

  • في بعض الأحيان، عند العثور على عامل الأمان، تحدث القسمة على صفر. يمكن أن يحدث هذا إذا كان لدى جميع الطلاب نفس العدد من الإجابات الصحيحة وغير الصحيحة. نادرا ما يحدث هذا في الممارسة العملية، وعلى الأرجح، تم تسريب الإجابات. وفي هذه الحالة يجب تكرار الاختبار.
  • عند إيجاد الموثوقية كاستقرار، فمن الممكن أيضًا أن تعطي الإجابة عدم اليقين، أي أن الصفر مقسوم على صفر. يمكن أن يحدث هذا عندما يعطي الطالب نفس العدد من الإجابات الصحيحة وغير الصحيحة في الاختبار الأول ثم يعيد الاختبار. وهذا يعني أن الاختبار قد تم تصميمه بنجاح كبير، أو على العكس من ذلك، كان فاشلاً للغاية. ننصحك بالتحقق من خصائص الاختبار الأخرى واستخلاص النتائج بناءً عليها.
  • عند حساب الصلاحية، من الممكن أيضًا حدوث القسمة على 0. يمكن أن يحدث هذا إذا كان لدى جميع الطلاب نفس عدد الإجابات الصحيحة وغير الصحيحة أو إذا كانت جميع تقييمات الخبراء متماثلة. ومن النادر أن تحدث هذه الحالة في الممارسة العملية؛ وعلى الأرجح أن الإجابات قد تسربت والنتيجة المعطاة منحرفة.

إذا أردنا إنشاء عناصر اختبار ذات قابلية تمييزية مرضية، فيجب علينا تجنب ما يلي: 1) التعقيد المفرط والصياغات المربكة؛ 2) غموض الشروط. 3) وضوح الحل. 4) اعتماد النتيجة على الذاكرة أو على الخصائص الفردية الأخرى للموضوع، وليس على مستوى تطوير تلك المهارات والقدرات التي يتم تطوير الاختبار لتقييمها؛ 5) سخافة، عدم واقعية خيارات الإجابة؛ 6) ظهور إجابتين أو أكثر من الإجابات الصحيحة غير المحددة في الشرط.

هناك الطرق التالية لزيادة صلاحية الاختبار: 1) اختيار الصعوبة المثلى للمهام لضمان التوزيع الطبيعي لدرجات الاختبار؛ 2) فحص جودة محتوى الاختبار؛
3) حساب الوقت الأمثل لتنفيذ الاختبار؛ 4) اختيار المهام ذات التمييز العالي.

إن الدراسة الأولية لمصادر عدم الموثوقية تجعل من الممكن، إن أمكن، القضاء على تأثيرها عند إنشاء الاختبار. تتضمن هذه المصادر عادة ما يلي: 1. الذاتية عند تقييم نتائج مهام الاختبار. الطريقة الأكثر فعالية للتغلب على هذا العيب هي استخدام المهام المغلقة، والتي، بسبب إمكانية التقييم الموضوعي لنتائج الأداء، مع ثبات العوامل الأخرى، تؤدي إلى زيادة موثوقية الاختبار. 2. التخمين. وكما أظهرت الدراسات الخاصة، فإن التخمين يقلل بشكل كبير من ثبات الاختبار، خاصة في الحالات التي يتم فيها اختبار مجموعة من الطلاب الضعفاء، والذين عادة ما يلجأون إلى التخمين عند إكمال فقرات الاختبار الأكثر صعوبة. 3. عدم وجود صحة منطقية في صياغة فقرات الاختبار. كقاعدة عامة، يفتقد الطلاب الأقوياء المهام غير الصحيحة، مما يؤثر سلبًا بشكل عام على موثوقية الاختبار. 4. الاختيار غير المبرر لمعاملات الترجيح. في الحالة الصحيحة، يجب أن يعتمد اختيار معاملات الترجيح في عملية حساب درجات الطلاب الفردية على النظرية المناسبة. 5. طول العجينة. تزداد الموثوقية مع زيادة طول الاختبار. للحصول على موثوقية مرضية ولكنها ليست جيدة، عادةً ما يكون 30 عنصر اختبار كافيًا. 6. عدم وجود تعليمات معيارية للاختبار. يجب أن تكون تعليمات الاختبار موحدة ودقيقة للغاية. أي غموض وغموض وانحرافات عن متطلبات التقييس في التعليمات تؤدي إلى انخفاض في موثوقية الاختبار. 7. تتعلق المصادر الأخرى لعدم الموثوقية بالمتقدمين للاختبار وليس بعناصر الاختبار. على سبيل المثال، قد يشعر المتقدم للاختبار بتوعك أثناء العمل على الاختبار أو قد يخطئ في التعليمات. قد تتأثر نتائج الاختبار بالتعب والملل ودرجة حرارة الغرفة والضوضاء خارج النافذة وما إلى ذلك.

في الختام، نلاحظ أنه في إطار مشروعنا، من أجل تحسين عملية المعالجة التجريبية لخصائص الاختبار، قام طلاب تخصص "علوم الكمبيوتر" فالي ألكسندر وبيريزيوك سيرجي بتنفيذ التطورات خدمة الإنترنتتنقسم معالجة بيانات المستخدم إلى ثلاث مراحل: تلقي المعلومات من العميل وإنشاء صفائف من البيانات الأولية، ومعالجة القيم باستخدام صيغ الحساب والخوارزميات، وتخطيط النتائج وعرضها للمستخدم. الجمهور المستهدف من هذه الخدمة يمكن أن يكون بشكل رئيسي معلمي المدارس وأساتذة الجامعات عنوان المشروع: www.qualitester.com.

فهرس:

1. Avanesov V. S. تكوين مهام الاختبار / V. S. Avanesov. - م: بارع، 1998. - 217 ص.

2. Avanesov V.S. تطبيق المهام في شكل اختبار في التقنيات التعليمية الجديدة / V.S. أفانيسوف // تقنيات المدرسة. - 2007. - العدد 3. - ص146-163.

3. Avanesov V. S. نموذج مهام الاختبار: كتاب مدرسي. بدل / V. S. Avanesov. م: مركز الاختبارات، 2005. - 120 ص.

4. Gutsanovich S. A.، Radkov A. M. اختبار في تدريس الرياضيات: أسس تشخيصية وتعليمية / S. A. Gutsanovich، A. M Radkov. - موزير: دار النشر "الريح البيضاء"، 2001. - 168 ص.

5. Mayorov A. N. نظرية وممارسة إنشاء اختبارات لنظام التعليم. - موسكو: "مركز الفكر"، 2002. - 296 ص.

6. تشيليشكوفا، م.ب. النظرية والتطبيق في بناء الاختبارات التربوية. - موسكو: "الشعارات"، 2002. - 432 ص.

1. عند إجراء البحث، غالبًا ما يُطرح السؤال حول مدى تمثيل المادة التي تستخدمها. ما هو اسم مقياس المراسلات لخاصية معينة للموضوع مع السكان الذين ينتمي إليهم:
أ) الصلاحية؛
ب) التقلب.
ج) التمثيل;
د) الموثوقية.
2. ما اسم مرحلة البحث التي يتم فيها صياغة الأفكار حول أسباب وعواقب الظواهر المختارة للبحث:
أ) مرحلة المراقبة؛
ب) مرحلة الارتباط.
ج) مرحلة المراقبة؛
د) مرحلة تكوين الفرضية.
3. ما العبارة التي تصف مفهوم الصلاحية:
أ) قدرة الاختبار على تحديد مدى الخلل.
ب) خصائص وحدة طرق استخدام الاختبار؛
ج) الإشارة إلى أن الاختبار يقيس ما يهدف إلى قياسه.
د) مقياس لاحتمال الحصول على نتائج خاطئة.
4. تشير تمثيلية الاختبار إلى:
أ) إمكانية تطبيق المعايير المحددة في الاختبار على هذه العينة؛
ب) درجة تجانس العينة المشخصة؛
ج) مدى اختلاف نتيجة مادة واحدة في اختبار معين عن نتيجة مادة أخرى.
5. ما هي العبارة التي تحدد مفهوم توحيد الاختبار:
أ) جعل الاختبار متوافقًا مع المعايير؛
ب) استخدام إجراءات موحدة لإجراء وحساب النتائج؛
ج) تنسيق المعايير السكانية مع المعايير الثقافية والاجتماعية.
6. ما هي العبارة الأكثر دقة التي تصف معدل الذكاء:
أ) خصائص القدرات المعرفية الموجودة؛
ب) خصائص القدرات الفطرية.
ج) مقياس المهارات الفكرية المكتسبة.
د) خصائص منطقة التطور القريبة.
7. تقييم الحالة النفسية باستخدام نظام اختبار يسمى:
أ) التشخيص النفسي.
ب) التشخيص.
ج) القياس.
د) التجربة النفسية.
8. أعمال قام بها باحثان في أصول طريقة الاختبار:
أ) إي كريبيلين وأ. بينيت؛
ب) P. جانيت وF. جالتون؛
ج) ف. جالتون وجي. كاتيل؛
د) ف. جالتون وأ. بينيت.
9. من اقترح دراسة الذاكرة باستخدام طريقة الصور التوضيحية:
أ) س.ل. روبنشتاين.
حاجِز. لوريا.
ج) ت. ريبوت؛
د) ف.ب. زيجارنيك.
10. طرق التدريس المستخدمة في تشخيص أمراض الأطفال بواسطة أ.يا. تهدف إيفانوفا إلى الدراسة:
أ) المستوى الفكري.
ب) مناطق التنمية القريبة؛
ج) الدافع للأنشطة التعليمية؛
د) الكتل العاطفية للعمل الفكري.
11. ترتبط الإعدادات المستهدفة لاختبار بوردون ومصفوفات رافين على النحو التالي:
أ) الشروط المسبقة للذكاء - الذكاء؛
ب) الذكاء - التفكير؛
ج) الصلابة - المرونة.
12. أن واحداً مما سبق هو عنصر أساسي في مشروع التمويل الإضافي المقترح. "تجربة لازورسكي الطبيعية" على عكس التجربة المخبرية:
أ) لا ترتبط الظروف التجريبية بالشروط والمتطلبات المصطنعة؛
ب) يتم إجراء التجربة دون استخدام الوسائل التقنية؛
ج) يشارك المجرب في أداء المهمة مع الموضوع؛
د) المراقبة في الظروف الطبيعية بدقة وعلمية التجربة، عندما لا يكون الموضوع على علم بالبحث الجاري؛
ه) يتم استخدام المعدات الخاصة والمهام المخططة بوضوح.
13. ينتمي اختبار روزنزويج للإحباط إلى إحدى المجموعات التالية:
أ) استبيانات الشخصية؛
ب) الاختبارات التحصيلية.
ج) الاختبارات النفسية.
د) الأساليب الإسقاطية.
د) مقابلة مجانية.
14. تقييم الذكاء يعتمد على المقارنة:
أ) عمر جواز السفر ومستوى التعليم؛
ب) العمر العقلي والعاطفي.
ج) العمر الفكري وجواز السفر؛
د) المؤشرات القصوى والدنيا؛
هـ) مستوى التطوير الحالي والقدرات المحتملة.
15. ملاحظة المشاركين هي:
أ) الملاحظة باستخدام "بطاريات" الاختبارات النفسية؛
ب) المراقبة طويلة المدى؛
ج) المراقبة في المختبر.
د) الملاحظة التي يكون فيها عالم النفس مشاركًا مباشرًا في الأحداث؛
ه) تشمل المراقبة عدة مراحل.
16. طريقة الإدراك التي تقتصر على تسجيل الحقائق المحددة في دراسة خصائص العمر تسمى:
أ) التجربة التكوينية؛
ب) الملاحظة؛
ج) التحقق من التجربة؛
د) شبه التجربة.
د) النمذجة.
17. أما أسلوب التأثير الفعال للباحث في التغيرات في نفسية الطفل فهو:
أ) ملاحظة المشاركين؛
ب) التجربة التجريبية؛
ج) تجربة السيطرة؛
د) التجربة التكوينية.
د) التحقق من التجربة.
18. مرادف التجربة التكوينية هو:
أ) شبه التجربة؛
ب) التجربة الإسقاطية.
ج) تجربة السيطرة؛
د) النمذجة الجينية.
ه) التجارب المعملية.
19. تسمى البيانات المتعلقة بالسلوك الإنساني الحقيقي التي يتم الحصول عليها من خلال السلوك الخارجي:
أ) بيانات L؛
ب) Q- البيانات؛
ج) بيانات T؛
د) بيانات Z.
20. يشير بي جي أنانييف إلى طريقة البحث الطولي:
أ) للأساليب التنظيمية؛
ب) إلى الأساليب التجريبية؛
ج) لأساليب معالجة البيانات؛
د) إلى الأساليب التفسيرية.
21. يسمى نوع النتائج المسجلة باستخدام الاستبيانات وطرق التقييم الذاتي الأخرى:
أ) بيانات L؛
ب) Q- البيانات؛
ج) بيانات T؛
د) بيانات Z.
22. الإدراك الهادف والمنفذ بشكل منهجي للأشياء التي يهتم الشخص بمعرفتها هو:
أ) التجربة؛
ب) تحليل المحتوى؛
ج) الملاحظة؛
د) طريقة تحليل منتجات النشاط.
23. المراقبة طويلة المدى والمنهجية، دراسة نفس الأشخاص، والتي تسمح للمرء بتحليل التطور النفسي في مراحل مختلفة من الحياة واستخلاص استنتاجات معينة بناءً على ذلك، تسمى عادةً بحثًا:
أ) الأكروبات.
ب) طولية.
ج) المقارنة.
د) معقدة.
24. مفهوم "الملاحظة الذاتية" مرادف لمصطلح:
أ) الانطواء.
ب) المقدمة.
ج) الاستبطان;
د) التنظير.
25. الاختبار النفسي الموجز والموحد الذي يحاول تقييم عملية نفسية معينة أو شخصية معينة ككل هو:
أ) الملاحظة؛
ب) التجربة؛
ج) الاختبار.
د) الملاحظة الذاتية.
26- تلقي الموضوع لبيانات عن عملياته العقلية وحالاته وقت حدوثها أو بعدها هو:
أ) الملاحظة؛
ب) التجربة؛
ج) الاختبار.
د) الملاحظة الذاتية.
27. يسمى التدخل النشط للباحث في أنشطة موضوع ما من أجل تهيئة الظروف لإثبات حقيقة نفسية بما يلي:
أ) تحليل السياق؛
ب) تحليل منتجات النشاط؛
ج) محادثة؛
د) التجربة.
28. تسمى طريقة دراسة بنية وطبيعة العلاقات الشخصية بين الأشخاص بناءً على قياس الاختيار بين الأشخاص بما يلي:
أ) تحليل المحتوى؛
ب) طريقة المقارنة؛
ج) طريقة الوحدات الاجتماعية.
د) القياس الاجتماعي.
29. إن قدرة الباحث على استحضار بعض العمليات أو الخصائص العقلية هي الميزة الرئيسية:
أ) الملاحظات؛
ب) التجربة؛
ج) تحليل المحتوى؛
د) تحليل منتجات النشاط.
30. إن تقييم اتساق المؤشرات التي تم الحصول عليها عن طريق الاختبار المتكرر لنفس الأشخاص بنفس الاختبار أو ما يعادله من أشكاله يميز الاختبار من حيث:
أ) صلاحية؛
ب) الموثوقية.
ج) الموثوقية.
31. أول اختبارات الذكاء للأطفال تم تطويرها بواسطة :
أ) بينيه سيمون؛
ب) ا.ب. بافلوف.
ج) إبنجهاوس.
32. تشمل الأساليب الرسمية ما يلي:
أ) الاختبارات؛
ب) الاستبيانات.
ج) التقنيات الإسقاطية.
د) التقنيات الفيزيولوجية النفسية.
ه) جميع الإجابات صحيحة؛
و) جميع الإجابات غير صحيحة.
33. الأساليب الأقل رسمية لا تشمل:
أ) ملاحظة؛
ب) المحادثة؛
ج) تحليل منتجات النشاط.
د) الاستبيانات.
د) الاختبارات.
34. التقييس هو:


35. الموثوقية هي:
أ) توحيد إجراءات إجراء الاختبار وتقييمه؛
ب) اتساق نتائج الاختبار أثناء الاستخدام الأولي والمتكرر على نفس المواضيع
ج) مفهوم يشير إلى ما يقيسه الاختبار ومدى نجاحه
36. الصلاحية هي:
أ) توحيد إجراءات إجراء الاختبار وتقييمه؛
ب) اتساق نتائج الاختبار أثناء الاستخدام الأولي والمتكرر على نفس المواضيع
ج) مفهوم يشير إلى ما يقيسه الاختبار ومدى نجاحه
37. التقنية المستخدمة في الفحص المتكرر للأشخاص الذين يستخدمون نفس التقنية للتحقق من استقرار الأعراض التي يتم تشخيصها تسمى:
أ) الثبات؛
ب) تحليل المحتوى؛
ج) إعادة الاختبار.
38. صممت جداول شولت لدراسة مدى الانتباه، كما صممت جداول شولت-جوربوف لدراسة:
أ) استقرار الاهتمام؛
ب) التركيز.
ج) تبديل الاهتمام؛
د) عدم التماثل الديناميكي في الاهتمام.
39. ما هي الفقرة التي تشير إلى الأساليب التي تحدد تنوع التفكير بشكل أفضل:
أ) تصنيف وإضافة الأرقام؛
ب) إضافة الأشكال وإزالة الكائنات؛
ج) الرسم التخطيطي وإضافة الأشكال؛
د) تصنيف واستبعاد العناصر؛
ه) الرسم التخطيطي والتصنيف.
40. تقنية ديمبو روبنشتاين هي:
أ) اختبار احترام الذات؛
ب) الأساليب النفسية التجريبية لدراسة سمات الشخصية على ضوء تقدير الذات.
ج) الأساليب النفسية التجريبية لدراسة تقدير الذات.
41. أي من العبارات التالية لا تعكس القواعد الأساسية لتقييم ملف تعريف MMPI:
أ) يجب تقييم الملف الشخصي ككل؛
ب) عند تقييم الملف الشخصي، فإن القيمة الأكثر أهمية هي معيار T في كل مقياس، والذي تعكس المقارنة به درجة شدة المرض النفسي؛
ج) يصف الملف الشخصي خصائص الشخصية والحالة العقلية الحالية؛
د) عند تقييم ملف التعريف، فإن الشيء الأكثر أهمية هو نسبة مستوى كل مقياس إلى المستوى المتوسط ​​للملف التعريفي ككل، وخاصة فيما يتعلق بالمقاييس المجاورة.
42. تم إنشاء اختبار "بقعة الحبر" بواسطة ج. رورشاخ:
أ) في عام 1912؛
ب) في عام 1921؛
ج) في عام 1935؛
د) في عام 1951
43. الحد الأدنى للعمر الذي يمكن من خلاله استخدام اختبار علاقة الألوان صباحا. إتكيندا:
أ) 3-4 سنوات؛
ب) 5-6 سنوات؛
ج) 7-8 سنوات؛
د) 9-10 سنوات.
44. "مكعبات Koos" و"Link cube" من طرق البحث:
أ) عملية حل المشكلات البناءة؛
ب) التفكير المنطقي المجرد.
ج) التفكير الخطابي.
د) ذاكرة الوصول العشوائي.
45. في إصدارات البالغين والأطفال من اختبار Wechsler، تعتمد نتائج الاختبار بشكل كبير على الثقافة:
أ) الأجزاء المفقودة؛
ب) الحساب.
ج) المتاهة.
د) الوعي.
46. ​​أي من العوامل التالية يمكن أن يؤدي إلى انخفاض الأداء في اختبار وكسلر اللفظي:
أ) مستوى عال من القلق.
ب) الحاجة العالية لتحقيق الذات؛
ج) مستوى عال من الاهتمام؛
د) ارتفاع احترام الذات.
47. أي من الاختبارات التالية ليس إسقاطيا:
أ) تات؛
ب) اختبار رورشاخ.
ج) اختبار القلق سبيلبرج-حنين؛
د) اختبار العبارات غير المكتملة.
48. أي من الاختبارات التالية لا يهدف إلى تقييم القدرات الفكرية:
أ) تات؛
ب) اختبار وكسلر.
ج) اختبار القدرة العامة.
د) اختبار ستانفورد بينيه.
49. يتيح لك استبيان سبيلبرج-خانين ما يلي:
أ) تقييم مستوى الاكتئاب.
ب) تحديد الميل إلى التقلبات القطبية في التأثير؛
ج) مقارنة احترام الذات الحقيقي والظرفي؛
د) مقارنة القلق الظرفي والدستوري.
50. ما هو الاختبار الذي يسمح لك بمقارنة القدرات اللفظية وغير اللفظية:
أ) اختبار رورشاخ؛
ب) اختبار وكسلر.
ج) اختبار بندر.
د) اختبار كاتيل.
51. تم تطوير استبيان الشخصية المكون من 16 عاملاً بواسطة .....
أ) كاتيل
ب) رورشيتش
ج) ويكسلر
د) بندر
52. ما هو الاختبار الذي يحتوي على 3 مقاييس صلاحية و 10 مقاييس سريرية:
أ) اختبار وكسلر للبالغين؛
ب) اختبار آيسنك.
ج) MMPI.
د) اختبار كاتيل.
53. تظهر اختبارات الكفاءة:
أ) مستوى التدريب السابق؛
ب) درجة مساهمة الوراثة في القدرات؛
ج) فرص النجاح في مجال معين؛
د) المستوى العام للقدرات العقلية.
54. أي من الألوان في اختبار Luscher ليس لونًا أساسيًا:
ازرق؛
ب) أصفر.
ج) الأرجواني.
د) الأزرق والأخضر.
55. تظهر ثبات الاختبار:
أ) ما هو استقرار نتائج القياس الذي يضمنه الاختبار نفسه؛
ب) ما مدى ثبات تلك الخصائص والصفات التي يتم قياسها باستخدام الاختبار؛
ج) ما مدى استقرار إجراء حساب الدرجة الإجمالية للاختبار.
56. ما هو الغرض الأصلي من استبيان ت. ليري:
أ) دراسة ديناميات المجموعة.
ب) دراسة العلاقات في الأسرة؛
ج) دراسة تحديد الأدوار الفردية؛
د) دراسة الصراع الاجتماعي.
57. ما هي العبارة التي تصف بشكل صحيح الغرض من اختبار روزنزويج:
أ) تحديد ردود الفعل العدوانية للإجهاد.
ب) تحديد مستوى مقاومة الإجهاد.
ج) تحديد أنواع الاستجابة للإحباط.
د) تشخيص الأنواع السريرية للعدوانية.
58. الأساس المنهجي للتشخيص النفسي هو:
أ) نظرية نفسية متطورة؛
ب) القياسات النفسية.
ج) المجال العملي لتطبيق أساليب التشخيص النفسي.
59- إن عامل الرغبة الاجتماعية له التأثير الأكبر في:
أ) حالة العميل؛
ب) حالات الفحص.
ج) التشخيص المرضي النفسي.
60. صلاحية محتوى الاختبار هي:
ب) الانعكاس في محتوى الاختبار للجوانب الرئيسية للظاهرة النفسية قيد الدراسة؛
ج) مؤشر التجانس الداخلي (الاتساق) للاختبار.
61. إذا كانت العينة ممثلة لقطاع عرضي من السكان، فإن:
أ) يمكن وصف نتائج توزيع العينات بتوزيع قريب من الطبيعي؛
ب) يمكن وصف نتائج توزيع العينات بأي توزيع رياضي؛
ج) استنادا إلى نتائج توزيع العينات، من المستحيل عموما الحكم على تمثيلية العينة.
62. يعد التحويل غير الخطي للمؤشرات القياسية ضروريًا من أجل:
أ) سهولة تفسير النتائج التي تم الحصول عليها؛
ب) تحقيق مقارنة النتائج المتعلقة بالتوزيعات التي تم الحصول عليها من الاختبارات المختلفة؛
ج) تحقيق المقارنة بين النتائج التي تنتمي إلى توزيعات ذات أشكال مختلفة.
63. المعيار الاجتماعي النفسي هو:
أ) معيار إحصائي تم الحصول عليه تجريبيا من العينة؛
ب) نظام متطلبات المجتمع للفرد؛
ج) معيار فردي محسوب لفرد معين.
64. تعود فكرة توحيد الطرق والاختبارات إلى:
أ) ج.كيتيلو؛
ب) دبليو وندت؛
خزانة.
65. تختلف الاختبارات والتقنيات الإسقاطية عن الاختبارات الموضوعية والتقارير الذاتية الموحدة في ما يلي:
أ) لا يمكن أن يعطي نتائج موضوعية وموثوقة؛
ب) لا يمكن إضفاء الطابع الرسمي على نتائج الاختبار؛
ج) يعتمد تفسير نتائج الاختبار على كفاءة ومستوى تأهيل أخصائي التشخيص النفسي.
66. يشير التحقق التجريبي من الخبراء إلى:
أ) النوع النظري للتحقق من الصحة؛
ب) النوع العملي للتحقق من الصحة؛
ج) الأنواع النظرية والعملية للتحقق من الصحة.
67. بناء صلاحية الاختبار هو:
أ) درجة تمثيل (تمثيل) البناء النفسي محل الدراسة في نتائج الاختبار؛
ب) مؤشر التجانس الداخلي (الاتساق) للاختبار؛
ج) الانعكاس في محتوى الاختبار للجوانب الرئيسية للملكية العقلية محل الدراسة.
68. العلاقة بين الصحة والموثوقية هي كما يلي:
أ) الصلاحية ≥ الموثوقية؛
ب) الصلاحية ≥ الموثوقية؛
ج) الصلاحية = الموثوقية؛
69. موثوقية الاختبار هي:
أ) حمايتها من تزوير النتائج من قبل أخصائي التشخيص النفسي؛
ب) حمايتها من التأثير على نتائج التأثيرات الخارجية المختلفة؛
ج) حمايتها من تزوير النتائج من قبل موضوع الاختبار؛
70. يتم إثبات صحة الاختبار من خلال:
أ) استقلال نتائج الاختبار عن رأي طبيب التشخيص النفسي؛
ب) ما إذا كان يمكن استخدام هذا الاختبار في الممارسة العملية؛
ج) ما إذا كان الاختبار يقيس الظاهرة العقلية المراد قياسها.

عادة ما يتم أخذ الاختبار بعين الاعتبار موثوق، إذا تم بمساعدتها الحصول على نفس المؤشرات لكل موضوع أثناء الاختبار المتكرر.

موثوقية الاتساق الداخلي:إذا تم قياس متغير معين بجزء من الاختبار، فإن الأجزاء الأخرى، التي لا تتوافق مع الأول، تقيس شيئًا آخر.

موثوقية الاختبار وإعادة الاختبار- يتضمن العرض المتكرر لنفس الاختبار لنفس الأشخاص وتحت نفس الظروف تقريبًا مثل الاختبار الأولي، ثم إنشاء ارتباط بين سلسلتين من البيانات (على الأقل شهر واحد بعد 1، معامل كور أكبر من 0.7).

موثوقية الأشكال المتوازيةيتضمن إنشاء نماذج مكافئة من الاستبيان وعرضها على نفس الأشخاص من أجل تقييم الارتباط بين النتائج التي تم الحصول عليها (الصعوبة، مجموعتان من المهام).

موثوقية أجزاء الاختباريتم تحديده من خلال تقسيم الاستبيان إلى قسمين (عادة مهام زوجية وفردية)، وبعد ذلك يتم حساب الارتباط بين هذه الأجزاء. عادة، يوصى بهذه الطريقة لتحديد الموثوقية فقط في الحالات التي يكون فيها من الضروري الحصول على النتائج بسرعة.

أفضل إجراء لتحديد الموثوقية هو إجراء دراسات متكررة على فترات زمنية أكثر أو أقل أهمية.

يجب إجراء جميع دراسات الموثوقية على عينات تمثيلية كبيرة بما فيه الكفاية (يوصى بـ 200 موضوع أو أكثر). تعد الموثوقية سمة مهمة للاختبار، ولكنها ليست ذات قيمة في حد ذاتها. من الضروري تحقيق الصلاحية.

7. صلاحية الاختبار

الاختبار يسمى صالحإذا كان يقيس ما يراد قياسه.

الصلاحية الظاهرة- يصف فكرة المتقدم للاختبار عن الاختبار.

صالحة لمرات عديدةيتم تقييمه من خلال ارتباط الاختبار المطور مع الاختبارات الأخرى، والتي تم إثبات صحتها فيما يتعلق بالمعلمة المقاسة

صحة التنبؤيةيتم تأسيسها باستخدام الارتباط بين مؤشرات الاختبار وبعض المعايير التي تميز الخاصية التي يتم قياسها، ولكن في وقت لاحق.

صلاحية متزايدةله قيمة محدودة ويشير إلى الحالة التي قد يكون فيها لاختبار واحد في مجموعة من الاختبارات ارتباطًا منخفضًا بمعيار ما ولكنه لا يتداخل مع اختبارات أخرى في تلك البطارية. وفي هذه الحالة، يكون للاختبار صلاحية تدريجية. يمكن أن يكون هذا مفيدًا عند إجراء الاختيار المهني باستخدام الاختبارات النفسية.

الصلاحية التفاضليةيمكن توضيحها باستخدام اختبارات الفائدة كمثال. ترتبط اختبارات الاهتمام عمومًا بالأداء الأكاديمي، ولكن بطرق مختلفة عبر التخصصات.

تجريبي -يتم حساب حجم العلاقة الإحصائية بين نتائج فحص نفس المواضيع باستخدام هذه التقنية والتقنيات المعروفة التي تقيس هذه الخاصية.

بناء صلاحيةيتم توضيح الاختبار من خلال وصف المتغير الذي يهدف الاختبار إلى قياسه بشكل كامل قدر الإمكان.

معايير– مقياس كمي للعلاقة بين نتائج الاختبار التي تم الحصول عليها والمعايير الخارجية لتقييم الخاصية التي يتم تشخيصها.

أحد الاختلافات المهمة بين الاختبارات النفسية هو أنها موحدة، وهذا يسمح لك بمقارنة المؤشرات التي حصل عليها موضوع واحد مع تلك الموجودة في عموم السكان أو المجموعات المقابلة.

توحيد الاختبار هو الأكثر أهمية في الحالات التي مقارنة مؤشرات المواضيع.

هذا يقدم المفهوم المعايير أو المؤشرات المعيارية.للحصول على معايير قياسية، يجب اختيار عدد أكبر من المواضيع بعناية وفقًا لمعايير محددة بوضوح. عند تشكيل عينة التقييس يجب أن تؤخذ بعين الاعتبار الحجم والتمثيل.

في بعض الحالات، من الضروري تشكيل عدة مجموعات توحيد أو تقسيم مجموعة التقييس إلى طبقات فيما يتعلق بمعلمات مثل العمر والجنس والحالة الاجتماعية. وضع المعايير ليس ضروريا دائما. عند استخدام الاختبارات النفسية في البحث العلمي، فإن المعايير ليست مهمة جدًا وتكون مؤشرات الاختبار "الخام" كافية.

أعرافيجب تقديم كل مجموعة في القيم المتوسطة والانحراف المعياري.

اليوم، في الممارسة العملية، يتم استخدام هذا النوع من التقييم المشتق بشكل متزايد، مثل المؤشرات القياسية، مستوفياً معظم متطلبات القياس النفسي. تعبر هذه المؤشرات عن الفرق بين النتيجة الفردية للموضوع والمتوسط ​​بوحدات الانحراف المعياري للتوزيع المقابل.

عادةً ما يكمل إنشاء اختبار موحد ونشره عمل الطبيب النفسي.ومع ذلك، يجب أن نتذكر أنه مع مرور الوقت، من الضروري إجراء مراجعة (تدقيق) للاختبار.

عند إنشاء اختبار، يمكنك استخدام تحليل العوامللضغط المعلومات أو وصف الظواهر التي تتم دراستها بشكل مضغوط في ظل وجود العديد من الملاحظات أو المتغيرات. للعثور على بعض العوامل الأساسية التي من شأنها أن تفسر معظم التباين في مجموعة من الدرجات في اختبارات مختلفة أو مقاييس نفسية أخرى.

هناك العديد من إجراءات التحليل العاملي، ولكنها جميعها تتضمن مرحلتين: 1) تحليل مصفوفة الارتباط للحصول على مصفوفة العامل الأولية؛ 2) تدوير مصفوفة العوامل من أجل اكتشاف أبسط تكوين لتحميلات العوامل.

يعتمد تحويل إجراءات وتقنيات التشخيص النفسي إلى أداة موثوقة للعلم والممارسة على جهود العديد من المتخصصين في تصحيح الأخطاء النفسية، وتصميم الاختبارات التي تلبي المتطلبات النفسية الأساسية: الموثوقية، والصلاحية، والتوحيد. تمت تغطية المبادئ الأساسية لاختبار وتحديد موثوقية طرق التشخيص النفسي وبنائها والتحقق من صحتها في عدد من الأعمال الخاصة في التشخيص النفسي (A. Anastasi، A. Bodalsi، V. Stolin، A. Shmelev، K. Gurevich، V. Melnikov ، إلخ.). سنصف في هذا البرنامج التعليمي المفاهيم والمبادئ الأساسية لإجراء الفحص التشخيصي النفسي، والتي تعد معرفتها شرطًا لا غنى عنه للمؤهلات المهنية لطبيب نفساني عملي.

يشمل التشخيص النفسي كنظام علمي ثلاثة مجالات من المعرفة النفسية:

مجال علم النفس الذي يدرس هذه الظواهر العقلية؛

القياسات النفسية - علم قياس الفروق الفردية والمتغيرات القابلة للتشخيص؛

الاستخدام العملي للمعرفة النفسية لغرض التأثير النفسي المناسب ومساعدة الناس على حل مشاكلهم.

الأساس المنهجي للتشخيص النفسي هو القياس النفسي. هذا العلم هو الذي يطور التكنولوجيا لإنشاء تقنيات تشخيصية نفسية محددة ويحدد منهجية ضمان المتطلبات العلمية لها:

الموثوقية - الاتساق الداخلي لأجزاء الاختبار وتكرار النتائج أثناء الاختبار المتكرر؛

الصلاحية - الانعكاس في نتائج الاختبار للخاصية التي تم تصميمها لتشخيصها؛

الموثوقية - حماية الاختبار من التأثير على نتائج رغبة المتقدم في تغييرها في الاتجاه المطلوب؛

التمثيلية - وجود معايير لنتائج المسح الشامل بين السكان الذين تم تصميم الاختبار من أجلهم، مما يسمح بتقييم درجة الانحراف عن القيم المتوسطة لأي مؤشر فردي.

تنطبق هذه المتطلبات السيكومترية على مجموعات مختلفة من الاختبارات، إلى حد كبير على الاختبارات الموضوعية واستبيانات الشخصية، وإلى حد أقل على التقنيات الإسقاطية.

التقييم الموضوعي للتقنيات والاختبارات النفسية يعني تحديد مدى موثوقيتها. في القياس النفسي، يشير مصطلح "الموثوقية" دائمًا إلى اتساق الدرجات التي تم الحصول عليها من نفس المواضيع.

ما مدى فائدة هذا الاختبار؟ هل يؤدي حقا وظائفه؟ قد تؤدي هذه الأسئلة، وفي بعض الأحيان، إلى مناقشات مطولة وغير مثمرة. تؤدي الأحكام المسبقة والاستنتاجات الذاتية والتحيزات الشخصية، كما يعتقد أ. أناستاسي، من ناحية، إلى المبالغة في تقدير قدرات اختبار معين، ومن ناحية أخرى، إلى رفضه المستمر. الطريقة الوحيدة للإجابة على مثل هذه الأسئلة هي من خلال الاختبار التجريبي. تقييم موضوعيتعني الاختبارات النفسية في المقام الأول تحديد مدى موثوقيتها وصلاحيتها في مواقف محددة.



موثوقية الاختبارهناك اتساق في الدرجات التي تم الحصول عليها من نفس المواضيع عند إعادة الاختبار بنفس الاختبار أو نموذج معادل.

إذا كان معدل ذكاء الطفل يوم الاثنين 110 ويوم الجمعة 80، فمن الواضح أن هذا المؤشر لا يمكن أن يؤخذ بثقة. وبالمثل، إذا حدد الفرد بشكل صحيح 40 كلمة في سلسلة مكونة من 50 كلمة، و20 في سلسلة أخرى مكافئة، فلا يمكن اعتبار أي من هذه المؤشرات مقياسًا لفهمه اللفظي. وبطبيعة الحال، في كلا المثالين من الممكن أن يكون واحد فقط من المؤشرين خاطئا، ولكن الاختبارات اللاحقة فقط هي التي يمكن أن تؤكد ذلك؛ ويترتب على البيانات المقدمة أن المؤشرات مجتمعة لا يمكن أن تكون صحيحة.

قبل إتاحة الاختبار النفسي للجمهور، يجب إجراء اختبار شامل وموضوعي لمدى موثوقيته. يمكن اختبار الموثوقية فيما يتعلق بالتغيرات بمرور الوقت، واختيار مهام محددة أو عينات اختبار، وشخصية المجرب أو معالج الاختبار، وجوانب أخرى من الاختبار. من المهم جدًا تحديد نوع الموثوقية بالضبط وكيفية تحديدها، نظرًا لأن نفس الاختبار يمكن أن يختلف في جوانب مختلفة. ومن المستحسن أيضًا الحصول على معلومات حول عدد وخصائص الأفراد الذين تم اختبار موثوقية الاختبار عليهم.

وستمكن هذه المعلومات مستخدم الاختبار من تحديد مدى موثوقية الاختبار بالنسبة للمجموعة التي ينوي تطبيقه عليها.

التفسير الأكثر اكتمالا لموثوقية طرق الاختبار قدمه أ. أناستاسي. تشير الموثوقية إلى اتساق نتائج الاختبار التي تم الحصول عليها عند تكرارها على نفس الأشخاص في نقاط زمنية مختلفة، باستخدام مجموعات مختلفة من المهام المكافئة، أو عند تغيير شروط الاختبار الأخرى. يعتمد الحساب على الموثوقية أخطاء القياس،والذي يعمل على الإشارة إلى الحدود المحتملة لتقلبات الكمية المقاسة التي تنشأ تحت تأثير العوامل العشوائية الدخيلة. في أوسع معانيها، تشير الموثوقية إلى المدى الذي تصبح فيه الفروق الفردية في درجات الاختبار "حقيقية" وإلى أي مدى يمكن أن تعزى إلى أخطاء عشوائية. وإذا ترجمنا ذلك إلى لغة المصطلحات الخاصة فإن قياس ثبات الاختبار يسمح لنا بتقدير قيمة التشتت الكلي لمؤشرات الاختبار وهو تباين الخطأ.لكن السؤال هو ما الذي يمكن اعتباره تباينًا في الخطأ. نفس العوامل الدخيلة فيما يتعلق ببعض المشكلات تعتبر بالفعل مصادر للاختلافات "الحقيقية" عند حل المشكلات الأخرى. على سبيل المثال، إذا كنا مهتمين بالتقلبات المزاجية، فإن التغيرات اليومية في درجات اختبار الحالة العاطفية يمكن أن تكون مرتبطة بغرض الاختبار وبالتالي بالتباين الحقيقي للدرجات. ولكن إذا كان الاختبار مصممًا لقياس خصائص شخصية أكثر استقرارًا، فيمكن أن تعزى نفس التقلبات اليومية إلى تباين الأخطاء.

والمهم أن أي تغير في الظروف التي يتم فيها إجراء الاختبار، إذا لم تكن ذات صلة بالغرض منه، سيؤدي إلى زيادة تباين الخطأ. ولذلك فمن خلال الالتزام بشروط الاختبار الموحدة (التحكم في البيئة العامة، القيود الزمنية، التعليمات للموضوع، الاتصال به وغيرها من العوامل المشابهة)، يقلل المجرب من تباين الخطأ ويزيد من ثبات الاختبار. ولكن حتى في ظل الظروف المثالية، لا يوجد اختبار يمكن الاعتماد عليه بشكل مطلق. لذلك، يجب أن تتضمن المجموعة القياسية لبيانات الاختبار مقياسًا للموثوقية. يميز هذا المقياس الاختبار عندما يتم إجراؤه في ظل ظروف قياسية ويتم تطبيقه على موضوعات مماثلة لأولئك الذين شاركوا في العينة المعيارية. لذلك، من الضروري أيضًا تقديم معلومات حول هذه العينة.

يُعرّف K. M. Gurevich الموثوقية بأنها "مفهوم معقد للغاية ومتعدد الأوجه، وتتمثل إحدى وظائفه الرئيسية في تقييم اتساق مؤشرات أداء الاختبار" [Gurevich، 1981).

من حيث المبدأ، يمكننا القول إن الموثوقية يجب أن تبرر خطأ القياس، إذ يجب أن توضح مقدار التباين في القياسات الذي يرجع إلى الخطأ. هناك العديد من العوامل الرئيسية التي تحدد مستوى الموثوقية. وبالتالي، تميل الموثوقية دائمًا إلى الزيادة إذا ظلت شروط إجراء الاختبار ثابتة، لأن هذا يقلل من خطأ تباين المعلمة المقاسة. وفي الوقت نفسه، فإن تعدد الأهداف، وتعقيد المشكلة، وتنوع المواقف، يؤدي إلى زيادة خطأ القياس، وبالتالي تقليل الموثوقية.

هناك العديد من أنواع موثوقية الاختبار بقدر ما توجد شروط تؤثر على نتائج الاختبار، لذلك فإن أي من هذه الشروط قد يتبين أنها غريبة عن الغرض، وبعد ذلك

وينبغي إدراج التباين الناجم عنها في تباين الخطأ. ومع ذلك، هناك أنواع قليلة فقط من الموثوقية تجد تطبيقًا عمليًا. نظرًا لأن جميع أنواع الموثوقية تعكس درجة الاتساق أو الاتساق بين سلسلتين من المؤشرات التي تم الحصول عليها بشكل مستقل، فيمكن قياسها معامل الارتباط.يتم تقديم مناقشة أكثر تخصصًا حول الارتباط مع وصف تفصيلي للإجراءات الحسابية في الكتب المدرسية حول الإحصائيات للمعلمين وعلماء النفس (V. Avanesov، A. Gusev، Ch. Izmailov، M. Mikhalevskaya، إلخ).

ومن الناحية العملية، يتم استخدام ثلاث طرق رئيسية لتقييم موثوقية الاختبارات:

1) إعادة الاختبار؛

2) الاختبار الموازي؛

3) طريقة التقسيم.

دعونا نفكر في كل واحد منهم على حدة.

إعادة الاختبارإنها إحدى الطرق الرئيسية لقياس الموثوقية. معاد

يتم إجراء اختبار عينة من الأشخاص بنفس الاختبار بعد فترة زمنية معينة وفي نفس الظروف. عادة ما يتم استدعاء إعادة الاختبار إعادة الاختبار،والموثوقية تقاس بهذه الطريقة موثوقية الاختبار وإعادة الاختبار.يبدو نظام تقييم موثوقية الاختبار وإعادة الاختبار كما يلي:

في هذه الحالة، يتم أخذ معامل الارتباط بين نتائج اختبارين كمؤشر الموثوقية.

طريقة الاختبار المتكررة لها مزايا وعيوب. تشمل المزايا الطبيعة والبساطة في تحديد معامل الموثوقية. تشمل العيوب عدم اليقين في اختيار الفاصل الزمني بين قياسين. يرجع ظهور عدم اليقين المؤقت إلى حقيقة أن إعادة الاختبار تختلف عن الاختبار الأولي. يكون المشاركون على دراية بمحتوى الاختبار بالفعل، ويتذكرون إجاباتهم الأولية ويسترشدون بها عند تكرار الاختبار. لذلك، أثناء الاختبار المتكرر، غالبا ما يلاحظ إما "تعديل" للنتائج الأولية، أو نتيجة للسلبية، إظهار النتائج "الجديدة". لتجنب ذلك، عند إعطاء موثوقية الاختبار وإعادة الاختبار في دليل الاختبار، يجب عليك الإشارة إلى الفاصل الزمني الذي يتوافق معه. نظرًا لأن موثوقية الاختبار وإعادة الاختبار تتناقص مع زيادة الفاصل الزمني، فإن الأكثر موثوقية هي معاملات الموثوقية العالية التي يتم الحصول عليها بفواصل زمنية كبيرة بشكل واضح بين الاختبارات. قد تكون معاملات الموثوقية العالية غير الكافية نتيجة لتحديد الفترات الزمنية دون المستوى الأمثل.

الاختبار الموازيفي هذه الحالة، يتم تنظيم قياسات متعددة باستخدام اختبارات متوازية أو مكافئة. الاختبارات الموازية هي اختبارات تقيس نفس الخاصية العقلية مع نفس الخطأ. في هذه الحالة، يقوم نفس الأفراد بإجراء إصدارات متعددة من نفس الاختبار أو اختبارات مكافئة. كقاعدة عامة، يرتبط الاستخدام العملي لهذا النوع من الموثوقية بصعوبات كبيرة، لأنه من الصعب للغاية بناء عدة إصدارات من اختبار واحد بطريقة لا يستطيع الموضوع اكتشاف تجانسها النفسي. ولا تتم إزالة التأثير المشوه للتدريب في هذه الحالة بالكامل. بالإضافة إلى ذلك، يطرح السؤال: هل هناك أنواع بديلة من خصائص الموثوقية لموثوقية الاختبار، وليست معلمات تكافؤ الاختبار؟ بعد كل شيء، إذا تم إجراء شكلين من الاختبارات في ظل نفس النوع من الظروف الثابتة، فمن المرجح أن تتم دراسة مؤشرات التكافؤ في شكلين من الاختبارات، وليس مؤشرات موثوقية الاختبارات نفسها. يتم تحديد خطأ القياس في هذه الحالة من خلال التقلبات في تنفيذ الاختبار، وليس من خلال التقلبات في بنية الاختبار.

مخطط استخدام الاختبارات المتوازية لقياس الموثوقية هو كما يلي:

يسمى معامل الارتباط المحسوب بين اختبارين موثوقية مكافئة.

طريقة الانقساموهو تطوير لطريقة الاختبار المتوازي ويعتمد على افتراض التوازي ليس فقط لنماذج الاختبار الفردية، ولكن أيضًا للمهام الفردية ضمن اختبار واحد. ويعد هذا من أبسط اختبارات الاختبار، حيث يتم حساب معامل الارتباط بين نصفيه. كيفية تقسيم الاختبار إلى نصفين حتى تتمكن من محاذاة كلا النصفين على أساس محدد أو آخر؟ في أغلب الأحيان، يتم تقسيم مهام الاختبار إلى زوجية وفردية، مما يسمح إلى حد ما بالقضاء على أوجه القصور المحتملة. الميزة الرئيسية لهذا النوع من الموثوقية هي استقلالية نتائج الاختبار عن عناصر النشاط مثل التطوير والتدريب والممارسة والتعب وما إلى ذلك. عند تقسيم الاختبار إلى قسمين، يتم حساب مؤشر الثبات باستخدام صيغة سبيرمان-براون، التي اقترحتها بشكل مستقل عن بعضها البعض. نُشرت مقالاتهم في نفس العدد من مجلة نفسية مع الاستنتاجات والصيغ [Avanesov , 1982]. في صيغتهم

ص (س، 0=2 RJ\ + R، ذ

حيث R هو معامل الارتباط لنصفي الاختبار. ويعتبر متوسط ​​معامل الارتباط لجميع فقرات الاختبار أو متوسط ​​معامل التحديد بمثابة معامل موثوقية.

لقد نظرنا حتى الآن في ثلاث طرق تجريبية لتقييم موثوقية الاختبار: إعادة الاختبار بنفس الاختبار، وإعادة الاختبار بشكل موازٍ للاختبار، وتقسيم الاختبار.

أي من هذه الطرق توفر تقديرًا حقيقيًا لموثوقية الاختبار؟ ما هي الطريقة التي يجب أن تستخدمها؟ تعتمد الإجابة على هذا السؤال على التفضيل الشخصي وأهداف الدراسة.

عند استخدام طريقة الاختبار المتكرر نحصل على تقييم لدرجة ثبات النتائج مع مرور الوقت وحسب ظروف الاختبار. لذلك، يسمى أيضًا معامل موثوقية الاختبار وإعادة الاختبار معامل الاستقرارأو استقرارامتحان. عند استخدام طريقة الأشكال المتوازية وطريقة التقسيم، يتم تقييم درجة الاتساق المتبادل لأجزاء الاختبار. لذلك، يتم تفسير معاملات الوثوقية التي تم الحصول عليها بواسطة هاتين الطريقتين على أنها متأرجحة و التجانس والتجانسالاختبارات.

بالإضافة إلى مؤشرات الاستقرار والتجانس، يرى R. B. Cattell أنه من الضروري النظر في المؤشر قابلية النقل.إنه تقييم لقدرة الاختبار على الحفاظ على دقة القياس عبر العينات والثقافات الفرعية والمجموعات السكانية المختلفة. يشكل الاستقرار والتجانس وقابلية النقل معًا خاصية معقدة للموثوقية، وهو ما يسميه آر بي كاتيل تناسقويعرفها بأنها "الدرجة التي يستمر بها الاختبار في التنبؤ بما تنبأ به سابقًا على الرغم من التغييرات (ضمن حدود معينة): أ) مدى تطبيق الاختبار؛ ب) الظروف التي تم استخدامها فيها؛ ج) تكوين العينة التي تم تطبيقه فيها."

وأخيرًا، هناك نوع من الموثوقية يرتبط بشكل مباشر بموثوقية الشخص الذي يدير الاختبار. يتم الحصول على تقدير لموثوقية الشخص الذي يدير الاختبار من خلال محاكاة الاختبار بشكل مستقل بواسطة مجربين مختلفين.

لا تعتمد موثوقية نتائج الاختبار فقط على موثوقية الاختبار نفسه وإجراءات إجرائه. أحد العوامل المهمة التي تؤثر على نتائج تفسير البيانات هو خصوصية عينة معينة. وينبغي التعرف على أهم خصائص العينة، من وجهة النظر هذه، على أنها التجانس الاجتماعي والنفسي في مختلف المعايير؛ كما يتم أخذ العمر والجنس بعين الاعتبار.

يقترح A. G. Shmelev تنفيذ تسلسل الإجراءات عند التحقق من الموثوقية على النحو التالي [التشخيص النفسي العام، 1987]:

1. معرفة ما إذا كانت هناك بيانات حول موثوقية الاختبار المقترح استخدامه، وعن عدد السكان وفي أي حالة تشخيصية تم اختباره. إذا لم يكن هناك فحص أو إذا كانت سمات السكان والمواقف الجديدة محددة بشكل واضح، فأعد التحقق من الموثوقية مع مراعاة الخيارات الموضحة أدناه.

2. إذا سمحت الفرص، قم بإعادة الاختبار على عينة التقييس بأكملها واحسب جميع المعاملات المعطاة للاختبار بأكمله وللعناصر الفردية. سيساعد تحليل المعاملات التي تم الحصول عليها على فهم مدى ضآلة خطأ القياس.

3. إذا كانت الإمكانيات محدودة، كرر الاختبار فقط على جزء من العينة (30 شخصًا على الأقل)، واحسب ارتباط الرتبة يدويًا لتقييم الارتباط الداخلي

اتساق (بطريقة التقسيم) وثبات الاختبار بأكمله.

وبطبيعة الحال، فإن المفاهيم المدروسة في التشخيص النفسي هي أهم سماتها. ومع ذلك، فإن مؤشرات الموثوقية العالية في حد ذاتها لا تحدد القيمة العملية للاختبار. العامل الرئيسي الذي يسمح لك بقياس النتائج المستهدفة للاختبار النفسي هو الصلاحية.