یکبار اجرا
همسانی درونی
گوتمان
رولون
اسپیرمن- براون
KR21
کودر ریچاردسون
KR20
آلفای کرونباخ
دو نیمه کردن
فرم های موازی
روشهای برآورد اعتبار آزمون های هنجار مرجع
در آزمونهای هنجار مرجع، عملکرد هر آزمودنی با متوسط عملکرد افراد گروه هنجار، مقایسه و تفسیر می شود.
روش بازآزمایی[۱۱۵]
در این روش، آزمون یکسانی را در دو زمان مختلف بر روی گروه واحدی از آزمودنیها اجرا میکنند. ضریب همبستگی بین نمرات به دست آمده از دو بار اجرای آزمون، ضریب اعتبار آزمون است. این ضریب اعتبار برای بررسی ثبات صفت اندازه گیری شده در طول زمان به کار میرود. در این روش خطای ناشی از تفاوت شرایط وابسته به دو موقعیت زمانی برآورد می شود اما خطای ناشی از منابع خطای درونی به حساب نمیآید. چالشی که محققان در این روش با آن رو به رو هستند انتخاب فاصله زمانی مناسب میان دو اجر است که در این فاصله، تغییر واقعی رخ ندهد و همچنین اولین اندازه گیری، دومین اندازه گیری را تحت تأثیر قرار ندهد. فاصلهای که بیش از حد کوتاه است (به علت انتقال اثر و اثر تمرین) تمایل به بیش برآورد اعتبار خواهد داشت و فاصلهای که خیلی زیاد باشد طوری که افراد در این فاصله تغییری داشته باشند (مثل یادگیری و رشد) ممکن است به زیربرآوردی از اعتبار منجر شود. یک فاصله معمولی، چند هفته (۴ – ۲ هفته) است. این روش برای سازه هایی که در طول زمان گرایش به تغییر دارند (مانند خلق و خو) مناسب نیست ولی برای صفات و خصایصی که معمولاً در طول زمان پایدار هستند (مانند شخصیت و هوش بزرگسالان) مناسب است (اسکولتز و همکاران، ۲۰۱۱؛ یانگ و گرین، ۲۰۱۱؛ میلر،۲۰۱۰).
روش آزمون های موازی[۱۱۶]
دو فرم موازی یک آزمون بر روی گروه واحدی از آزمودنیها با فاصله زمانی یا بدون فاصله زمانی اجرا می شود. ضریب همبستگی میان نمره ها در دو فرم، ضریب اعتبار آن ها محسوب می شود. لازم به ذکر است که دو فرم یک آزمون در صورتی موازی هستند که میانگینها و واریانسهای برابر داشته باشند. مشکل اصلی این روش، این است که تهیه فرمهای موازی به سادگی امکان پذیر نیست. در روش اعتبار آزمونهای موازی بدون فاصله زمانی، واریانس خطای ناشی از نمونه های مختلف سوالات مورد بررسی قرار میگیرد. در روش اعتبار آزمونهای موازی با فاصله زمانی (که اعتبار بازآزمایی فرم موازی نیز نامیده می شود) هم خطای ناشی از نمونه های مختلف سوالات و هم خطای ناشی از نمونه گیری زمانی در نظر گرفته می شود. به همین دلیل، مقدار این نوع اعتبار کمتر از اعتبار فرم موازی بدون فاصله زمانی یا بازآزمایی خواهد بود که هر کدام تنها یک نوع خطای تصادفی را تعیین میکنند و این خود گویای مطلوبتر بودن این روش است (میلر، ۲۰۱۰؛ رین اسکاف[۱۱۷]، ۲۰۰۱؛ مگنوسون، ۱۹۶۷، ترجمه براهنی،۱۳۵۱).
روش همسانی درونی[۱۱۸]
به این دلیل که اجرای دو آزمون محدودیتهای عملی دارد و پیدا کردن آزمون معادل کار دشواری است محققان به استفاده از روشهایی در برآورد اعتبار که مستلزم یکبار اجراست تمایل دارند. به این روشها در کل،روشهای مبتنی بر همسانی درونی گفته می شود. همسانی درونی جهت اندازه گیری همسانی سوالات در یک فرم آزمون به کار میرود و روشهای زیر را در بر میگیرد.
روش دو نیمه کردن[۱۱۹]
این روش برای اندازه گیری همسانی درونی در یکبار اجرای آزمون جهت بررسی روابط بین دو نیمه همان آزمون به کار میرود. روش کار به این قرار است، ابتدا آزمون واحدی بر روی گروهی از آزمودنیها اجرا می شود. سپس آن را با بهره گرفتن از روشهای موجود (فرد و زوج، از وسط دو نیمه کردن، زیر مجموعه های جور شده تصادفی) به دو نیمه که از نظر محتوای آزمون و مشخصه های آماری سوال معادل هستند، تقسیم میکنند (میلر، ۲۰۱۰).
الف) دو نیمه کردن متداول
در صورت یکسانی واریانس دو نیمه، ضریب همبستگی دو نیمه محاسبه می شود. این ضریب، اعتبار یکی از دو نیمه آزمون است. برای محاسبه ضریب اعتبار کل آزمون از فرمول پیشگویی اسپیرمن – براون استفاده می شود.
: ضریب اعتبار دو نیمه آزمون (همبستگی دو نیمه آزمون)
: ضریب اعتبار کل آزمون
ب) روش رولون[۱۲۰]
در صورت عدم یکسانی واریانس دو نیمه آزمون، میتوان ضریب اعتبار آزمون را با بهره گرفتن از واریانس
تفاوت نمرات دو نیمه آزمون حساب کرد. این روش بیان می کند که چقدر از واریانس مشاهده شده ناشی از واریانس تفاوت نمرات بین دو نیمه (که ناشی از خطا قلمداد می شود) است.
می توان این معادله را برحسب کواریانس دو نیمه آزمون نیز نوشت:
ج) روش گوتمان[۱۲۱]
این روش نیز مستلزم یکسانی واریانس دو نیمه نمی باشد و از لحاظ ریاضی با معادله رولون برابر ولی از نظر محاسبه سادهتر است.
= ۲
: واریانس نمرات یک نیمه آزمون
: واریانس نمرات نیمه دیگر آزمون
واریانس نمرات کل آزمون (مگنوسون، ۱۹۶۷، ترجمه براهنی،۱۳۵۱، ص ۱۴۶ و ۱۴۸).
روش ضریب آلفا[۱۲۲]
ضریب آلفا، کلیترین روش پیدا کردن برآوردهای اعتبار از طریق همسانی درونی است. به گفتهی یانگ و گرین[۱۲۳](۲۰۱۱)، ضریب آلفا تقریباً به طور فراگیری برای سنجش اعتبار مقیاسها در روانشناسی به کار میرود و برای تأیید اعتبار یک مقیاس، مقبولترین ضریب گزارش شده است. محققان جهت سنجش اعتبار بر اساس یکبار اجرای مقیاس هم برای داده های دو ارزشی و هم برای داده های چند ارزشی می توانند ضریب آلفا را محاسبه کنند. همچنین، اظهار داشتند که محققان باید تحلیلهای مقدماتی(از قبیل مدلسازی معادله ساختاری) جهت اطلاع از ساختار درونی یک مقیاس اجرا کنند قبل از اینکه برآورد همسانی درونی از اعتبار انتخاب شود. تحلیلهای مقدماتی ممکن است محققان را به انتخاب ضریب آلفا منجر کند یا نکند. برای مثال اگر تشخیص داده شود که یک اندازه چند بعدی است آنگاه ضریب آلفا نامناسب خواهد بود. همچنین، بیان داشتند مفروضههای ضریب آلفا (مفروضه کلاسیک نمره – سوال، مفروضه تائو معادل، مفروضه ناهمبستگی خطا) در عمل تا حدی نقض میشوند، بنابرین دقت ضریب آلفا به عنوان برآوردی از اعتبار مسئلهساز می شود.
فرمولهای محاسباتی ضریب آلفا جهت سنجش اعتبار به قرار زیر است؛
الف) اگر واحد محاسبه ضریب اعتبار، واریانس نمرات هر بخش از آزمون (مثل آزمونی که از تعدادی خرده آزمون تشکیل شده) باشد:
j : تعداد بخش های آزمون
واریانس نمرات کل آزمون
: واریانس نمرات هر بخش آزمون
ب) اگر واحد محاسبه ضریب اعتبار، واریانس سوالات مختلف آزمون باشد:
: تعداد سوالات
: واریانس نمرات هر یک از سوالات
در این حالت اگر سوالات به صورت دو ارزشی باشند، KR20 با ضریب آلفا برابر است.
ج) اگر واحد محاسبه ضریب اعتبار، همبستگی هر سوال آزمون با سوال دیگر باشد:
: میانگین همه ضریب های همبستگی میان سوالات
د) اگر واحد محاسبه ضریب اعتبار، کواریانس میان جفت سوالات باشد: