= ()
() : احتمال پاسخ صحیح آزمودنی با توانایی () که به طور تصادفی انتخاب شده است به سوال i
b : پارامتر دشواری
() : پارامتر توانایی
e: مبنای لگاریتم طبیعی که مقدار آن برابر ۷۱۸/۲ است
D : عامل مقیاس است. برای نزدیک کردن تابع لوجیستیک به تابع اجایو نرمال در نظر گرفته می شود که مقدار آن برابر ۷/۱ است.
در این مدل، ICC ها موازی هستند و فقط از نظر مکانی با هم متفاوت هستند. به بیانی دیگر در این مدل فرض می شود که تنها توانایی آزمودنیها و دشواری سوال، عملکردشان را متأثر میسازد. همچنین، فرض می شود تمام سوالات پارامتر تشخیص یکسانی دارند. و نیز مجانب پایینی ICC، یعنی © برابر با ۰ است.
مدل دو پارامتری[۱۰۰]
این مدل را با نماد (۲PL) نشان می دهند. تنها تفاوتی که مدل دو پارامتری با مدل یک پارامتری دارد، وجود پارامتر تشخیص در این مدل است. در مدل دو پارامتری چون سوالات دارای قدرت تشخیص متفاوتی هستند، بنابرین پاسخ دادن به هر سوال اهمیت متفاوتی در توانایی و نمره کل فرد دارد. احتمال پاسخ صحیح به سوال در این مدل از طریق معادله زیر برآورد می شود:
= ()
در این مدل بیانگر پارامتر تشخیص است. سایر نمادهای به کار رفته در این مدل همان نمادهای مدل یک پارامتری است. ICC ها در این مدل هم از نظر جایگاهشان در مقیاس توانایی و هم از نظر شیب با هم تفاوت دارند. ICC ها ممکن است همدیگر را قطع کنند که این پیامد داشتن شیبهای متفاوت است. به این علت که در مدلهای یک پارامتری و دو پارامتری، عامل حدس وجود ندارد، این مدلها برای سوالات تشریحی یا باز پاسخ مناسب هستند.
مدل سه پارامتری[۱۰۱]
با تغییری که توسط برن بام[۱۰۲] ( ۱۹۶۸) در مدل منطقی دو پارامتری ایجاد شد، پارامتر حدس نیز به دیگر
پارامترها افزوده گردید. معادله ریاضی این مدل (۳PL) به این صورت است:
c + = ()
C در این مدل بیانگر پارامتر حدس (مجانب پایین) است. در مدل سه پارامتری، همه پارامترهای سوال دخالت دارند و ICC ها در این مدل نه تنها از نظر مکان و شیب، بلکه از نظر مجانب پایین © نیز با هم تفاوت دارند. به دلیل وجود پارامتر حدس، انتهای پایین خم ویژه سوال در این مدل صفر نیست بلکه برابر با مقدار c است. از این رو در این مدل پارامتر دشواری سوال، نقطه ای در مقیاس توانایی است که احتمال پاسخ صحیح در آن برابر میانگین (c و۱) باشد. این مدل برای سوالات بسته پاسخ که آزمودنیها با بهره گرفتن از عامل حدس می توانند به جواب برسند، بسیار مناسب است.
نظریه تعمیمپذیری در مقابل نظریه کلاسیک آزمون
برنان (b2010) از شباهتهای دو نظریه تعمیمپذیری و کلاسیک آزمون به موارد زیر اشاره می کند؛ هر دو نظریه نمره واقعی (یا جهان) را به عنوان یک ارزش مورد انتظار از نمرات مشاهده شده تعریف میکنند. هر دو نظریه به وضوح خطاهای اندازه گیری تصادفی را شامل میشوند و مفاهیم اعتبار( یا تعمیمپذیری) در هر دو نظریه به خوبی تعریف شده است.
این دو نظریه به رغم شباهتهایی که دارند، تفاوتهای بسیار مهمی نیز دارند که در زیر به شرح مواردی از آن پرداخته می شود.
- چارچوب مفهومی : GT نسبت به CTT چارچوب مفهومی قدرتمندتری دارد که منجر به برطرف کردن
تعدادی از تناقضات آشکار در چند بحث CTT از اعتبار شده است. دو ویژگی مهم GT که به حل تناقضات
کمک می کند عبارتند از: تمایز گذاشتن GT میان رویه های اندازه گیری ثابت و تصادفی و همچنین قابلیت این نظریه در پرداختن به طرحهای مختلف مطالعه D ( برنان، b2010).
- مفروضات زیربنایی آماری: در CTT مفروضات آزمونهای موازی و آزمونهای اساساً تائو معادل،
اغلب غیرقابل دفاع هستند. در حالی که GTفرض می کند که آزمونها تصادفی موازی هستند و محتوای آزمون یک نمونه تصادفی از حیطه یا جهان تعریف شده در نظر گرفته می شود. برنان (b2010) بیان می کند که هر دو نوع موازی بودن ایده آل هستند و هیچگاه احتمال اینکه کاملاً واقعیت داشته باشد، نیست. اگر چه یکی یا دیگری ممکن است در زمینهای خاص مناسبتر باشد.
- مدلسازی نمرات مشاهده شده: در CTT نمره ی مشاهده شده یک فرد در آزمون مبتنی بر نمره واقعی
شخص در آزمون و خطای اندازه گیری است. در GT هر نمره مشاهده شده معرف یک نمونه از تمام نمرات ممکن فرض می شود و در قالب یک یا چند مؤلفه واریانس بیان می شود. نمره مشاهده شده در یک آزمون از رویه های مختلف مورد استفاده در آزمون تأثیر میپذیرد و با توجه به رویه های مورد استفاده در آزمون معرف عملکرد فرد در همان رویههاست.
- منابع چندگانهی خطای اندازه گیری: همانطور که سوئن و لی (۲۰۰۷) مطرح کرده اند؛ در وضعیتهای
اندازه گیری پیچیده که با منابع چندگانهای از خطای اندازه گیری (رویه ها) روبهرو است، نمرهی مشاهده شده نتیجه نمرهی واقعی باضافهی اثرات و تعاملات این منابع چندگانه خطاهای اندازه گیری است. روش معمول CTT در چنین وضعیتهای اندازه گیری برای برآورد اعتبار این است که از روشهای مختلفی (همچون بازآزمایی، بین ارزیابان، همسانی درونی،… ) استفاده می کند. روشهای مختلف، ضرایب اعتبار مختلفی را به دنبال دارند که این نیز به نوبه خود منجر به خطاهای استاندارد اندازه گیری متفاوتی می شود. مسئلهای که اینجا پیش می آید این است که در چنین وضعیتی دقیقترین برآورد ضریب اعتبار کدام است؟ و به منظور ساخت فاصلههای اطمینان حول نمرات مشاهده، کدام خطای استاندارد اندازه گیری را باید به کار برد؟ متأسفانه CTT قادر به پاسخگویی به این سوالات نیست. در حالی که در GT میتوان منابع چندگانه خطا را همزمان در ترکیبهای متفاوتی از تصادفی یا ثابت در نظر گرفت. با تشخیص اینکه آیا یک رویه تصادفی یا ثابت باشد امکان برآورد اعتبار و خطای استاندارد ناشی از منابع معین خطا در GT وجود دارد. به بیانی دیگر، GT سهم هر منبع خطا (رویه) را در واریانس نمرات آزمون تعیین می کند و فرصت محاسبه برآوردهای متفاوتی از اعتبار را میدهد که بستگی به این دارد کدام منبع خطا برای هر استفاده ی خاص از آزمون مهم در نظر گرفته می شود. فن و سان (۲۰۱۳) بیان میکنند که در چنین وضعیتهای اندازه گیری، CTT قادر به برآورد اعتبار نیست زیرا شیوه های سنتی اعتبار تنها برای یک رویه طراحی شدهاند. از این رو CTT نمیتواند به بررسی منابع چندگانه خطای اندازه گیری بپردازد. سوئن و لی[۱۰۳](۲۰۰۷) نیز اذعان داشتند، این گونه نیست که CTT وجود منابع چندگانه خطاهای اندازه گیری را انکار کند، بلکه حقیقت این است که این نظریه نمیتواند از لحاظ مفهومی و آماری آن را در خود جای دهد در حالی که، GT نه تنها می تواند از نظر مفهومی تصور داشتن انواع مختلفی از ضریب اعتبار را در خود لحاظ کند، بلکه می تواند یک مکانیسم عملی برای انجام آن نیز داشته باشد.