درصد سؤالات بیش مواجهه شده
نرخ‌ مواجهه‌ی یک سؤال را می‌توان به عنوان نسب تعداد مشاهده شده‌ی اجراهای سؤال به تعداد کل آزمودنی‌ها در نظر گرفت. درمجموع، سطح متوسط نرخ مواجهه‌ی سؤال مناسب می‌باشد. نرخ بالای مواجهه‌ی یک سؤال بدین معناست که خطر فاش شدن سؤال برای آزمودنی‌های بعدی افزایش می‌یابد. اگر این چنین باشد، هم امنیت و هم اعتبار آزمون به دلیل نرخ بالای مواجهه‌ی سؤال مورد تهدید قرار می‌گیرد. بنابراین، درصد سؤالات بیش مواجهه شده، به‌عنوان ملاک مهمی برای ارزیابی موفقیت برنامه‌ی CAT در نظرگرفته‌می‌شود (هاو و چانگ، 2001).
درصد سؤالات کم مواجهه شده
نرخ کم مواجهه شدن یک سؤال بدین معناست که یک سؤال بندرت در برنامه‌ی CAT مورد استفاده قرار‌گیرد. خزانه‌ی سؤالی که دارای سؤالات بسیار زیادی می‌باشد که نرخ خیلی پایینی از مواجهه دارد، نشانه‌ای از فایده‌ی کم خزانه می‌باشد. دو موضوع به‌صرفه‌بودن طراحی سؤالات و مناسب بودن شیوه‌ی انتخاب سؤالات، به دلیل نرخ مواجهه کم سؤال به چالش کشیده می‌شوند. نرخ مواجهه پایین‌تر از 02/0 به عنوان سؤال کم مواجهه شده درنظرگرفته می‌شود(هاو و چانگ، 2001).
نرخ همپوشی آزمون
نرخ همپوشی آزمون، عبارت است از، تعداد مورد انتظار سؤالات مشترکی که به دو آزمودنی که به‌طور تصادفی نمونه‌گیری شدند، ارائه می‌شود، تقسیم بر طول مورد انتظار آزمون. به‌طورایده‌آل، تعداد سؤالات مشترک بین دو آزمودنی که به طور تصادفی نمونه‌گیری شدند، باید حداقل باشد. نرخ همپوشی آزمون می‌تواند به شیوه‌ی زیر محاسبه شود:
(1) شمارش تعداد سؤالات مشترک برای هر جفت از آزمودنی‌ها. (2) محاسبه‌ی مجموع تمام. (3). تقسیم تعداد کل شمارش‌ها بر ، (چانگ و یینگ، 1999). معادله‌ی (2-38) محاسبات بالا را خلاصه می‌کند ( چن، آنکنمان، اسپری، 1999):
(2-38)
N تعداد طول ثابت CAT هایی که اجرا می‌شود را نشان می‌دهد، L، تعداد سؤالات در هر یک از CAT ها می‌باشد، n، تعداد سؤالات در خزانه می‌باشد، تعداد دفعاتی است که سؤال برای همه‌ی N تعداد CAT اجرا می‌شود.
فصل سوم
روش‌شناسی پژوهش
روششناسی پژوهش و طرح تحقیق
در این قسمت مدل CAT، طرح شبیه‌سازی CAT، شیوه‌ی انجام تحقیق، جامعه و نمونه هم در مطالعه‌ی عملیاتی و هم شبیه‌سازی‌شده، مجموعه‌ای از ملاک‌های استفاده شده برای ارزیابی عملکرد خزانه‌ی سؤال بهینه‌ی موردنظر، نرم افزار‌های مورد استفاده به منظور شبیه‌سازی خزانه‌ی سؤال بهینه و نرم افزار‌های مورد استفاده برای مدرج کردن سؤالات شرح داده می‌شود.
مدل CAT عملیاتی
یک مدل CAT عملیاتی در یک مقیاس بزرگ به عنوان الگو یا محک ساخته شده است. این مدل از ویژگی‌های زیر برخوردار است:
آزمون ریاضی (حسابان-دیفرانسیل) شامل یک آزمون 20 سؤالی است که در آن وزن محتوایی سؤالات ارائه شده در نظر گرفته نشده است (این آزمون تنها به منزله‌ی اهداف پژوهشی اجرا شد). و یک آزمون 60 سؤالی که در آن محتوای آزمون مهم می‌باشد. ( این تعداد سؤالات از تحقیقات، ریکیسی، 2010؛ هی و ریکیسی، 2010؛ گو و ریکیسی، 2007 گرفته شده است). آزمون 60سؤالی شامل، 25 سؤال حسابان (arithmetic)، 15 سؤال جبر خطی (algebra) و 20 سؤال هندسه (geometry) می‌باشد.
خزانه‌ی سؤال مربوط به سؤالات حسابان شامل 455 سؤال می‌باشد. همچنین، خزانه‌ی سؤال مربوط به سؤالات جبر شامل 208 سؤال است. و درپایان خزانه‌ی سؤال مربوط به سؤالات هندسه نیز شامل 258 سؤال است. سؤالات در هر سه قسمت از نوع چند گزینه‌ای (چهار گزینه‌ای) می‌باشند و همچنین، همه‌ی سؤالات به صورت مستقل از یکدیگر طراحی شده اند و هیچ یک از سؤالات کاربرد مرحله‌ای یا زنجیره‌ای ندارند.
مدل IRT به کار رفته برای ساخت سؤالات، مدل سه پارامتری لوجستیک می‌باشد (لرد، 1980)، هر یک از سؤالات به صورت مستقل و با استفاده از نرم افزار BILOG-MG مدرج شده اند. (از آنجا که در عمل ساخت سؤالاتی برای چنین آزمونی بر اساس مدل یک یا دو پارامتری، با دشواری همراه بود، خزانه‌ی سؤالات در CAT عملیاتی، بر اساس مدل سه پارامتری ساخته و مدرج شد).
اطلاعات مربوط به سؤالات اعم از برآورد پارامترهای سؤال، ویژگی‌های روان‌سنجی کلاسیک سؤالات، طبقه‌بندی‌های محتوایی (محتوا، کتاب، فصل، درس، صفحه)، طبقه‌ی شناختی سؤالات و طراحان سؤال در یک سیستم بانک سؤال ذخیره شدند.
هر یک از سؤالات طوری طراحی شدند که هرکدام مفهوم کاملاً مستقلی نسبت به سؤالات دیگر بسنجند، از این‌رو، به هر یک از سؤالات وزن محتوایی جداگانه‌ای بر اساس نظر متخصصین محتوایی و موضوعی داده می‌شود. بنابراین، سؤالات بر اساس روش WDM برای اجرا انتخاب شدند.
توانایی اولیه برای هر فرد روی صفر تنظیم شد، و کامپیوتر به نحوی برنامه‌ریزی شد که برای همه‌ی افراد سؤال یکسانی که پارامتر باشد، اجرا کند.