برای به‌دست آوردن برآورد اخیر توانایی هر آزمودنی قبل از این‌که دو پاسخ صحیح و غلط در الگوی پاسخ او مشاهده شود، از روش میانگین پسین (MAP) (اوون، 1975)، استفاده شد. پیشین مورد انتظار از توزیع نرمال پیروی می‌کند. پس از این‌که دو پاسخ صحیح و غلط در الگوی پاسخ مشاهده شد، برای برآورد توانایی از شیوه‌ی بیشینه‌ی درست نمایی (MLE) استفاده شد.
الگوریتم انتخاب سؤال به شیوه‌ی بیشینه‌ی آگاهی (MI) می‌باشد.
الگوریتم آزمون CAT طوری طراحی شد که طول تست برای آزمون تک محتوایی (حسابان-دیفرانسیل) ثابت و برابر با 20 سؤال برای هریک از آزمودنی‌ها باشد و برای آزمون ریاضی سه محتوایی (حسابان- دیفرانسیل، جبر و هندسه) بر اساس نظم و وزن محتوایی مشخص 60 سؤال برای هر یک از آزمودنی‌ها اجرا شد و پس از رسیدن به این تعداد آزمون متوقف شد.
در اجرای سؤالات در CAT عملیاتی، روش کنترل مواجهه‌ی سیمپسون-هتر با نرخ 33/0 به‌کار رفت.
مقدار آگاهی هدف سؤالات بر اساس آگاهی سؤالات عملیاتی قرار گرفت، که بر اساس تحقیقات چنگ و چانگ (2009) گرفته شد.
وزن آگاهی نیز بر اساس تحقیقات (هی و ریکیسی، 2010)، برابر با یک انتخاب شد. زیرا با ثبات‌ترین نتایج را نشان می‌دهد.
ابزار پژوهش در CAT عملیاتی
تعداد سؤالات طراحی شده برای خزانه‌ی سؤال عملیاتی: تعداد 921 سؤال از محتوای دروس ریاضی دانش‌آموزان رشته‌ی ریاضی فیزیک (حسابان – دیفرانسیل، جبر خطی و هندسه) توسط 15 طراح در طول یک سال (سال تحصیلی 92-91) ساخته شد، سپس، به طور همزمان سؤالات توسط 10 متخصص موضوعی که سعی شد از بین دانشجویان رشته‌های تخصصی ریاضی انتخاب شوند، بررسی و ارزیابی شدند و مشکلات محتوایی و ساختاری آنها برطرف شد. همچنین، ویژگی‌های روان‌سنجی و آماری سؤالات توسط 3 متخصص روان‌سنجی که به درس ریاضی نیز آشنایی داشتند، بررسی شد. در پایان، سؤالات بر روی 500 نفر ثابت از شرکت‌کنندگان در آزمون‌های آزمایشی سال 92-91 موسسه‌ی آیندسازان در طول 13 مرحله در طول یک سال تحصیلی اجرا شد. و پارامترهای سؤالات بر اساس مدل‌ IRT سه پارامتری از طریق نرم افزار BILOG-MG محاسبه و در مخزنی نگهداری شدند. سؤالات برای جامعه‌ای با توزیع نرمال و بر اساس وزن‌های محتوایی که توسط طراحان و مدرسان تعیین ‌شد، طراحی شدند.
نحوه‌ی طراحی برنامه‌ی CAT
در این پژوهش برنامه‌ی CAT از طریق زبان PHP نوشته شد. همچنین، از پایگاه داده‌ی MYSQL برای ذخیره‌ی سؤالات استفاده شد. در این برنامه تمام ویژگی‌های بیان شده در بالا در آزمون CAT عملیاتی نیز وارد شد.
جامعه و نمونه پژوهش در CAT عملیاتی
جامعه‌ی آزمون CAT عملیاتی: این آزمون برای تمام دانش‌آموزان مقطع پیش‌دانشگاهی که خود را برای کنکور سراسری ریاضی آماده می‌کنند، قابلیت اجرا دارد. بر اساس نتایج بدست آمده از سازمان سنجش کل کشور، توزیع این جامعه نرمال با میانگین صفر و انحراف معیار 1 است.
نمونه‌ی آزمون CAT عملیاتی: این آزمون بر روی 350 نفر از دانش‌آموزانی که خود را برای آزمون کنکور سراسری 1393 آماده می‌کردند در فواصل فروردین‌ماه تا خرداد 1393 به صورت انفرادی اجرا شد. این نمونه از یک توزیع نرمال و با میانگین 17/0- و انحراف استاندارد 95/0 پیروی می‌کند.
طرح شبیهسازی CAT
چهار عامل در مطالعه‌ی شبیه‌سازی شده دستکاری شد، 1). روش ایجاد سؤال بهینه (R، MRP، MTI). 2). پهنای b-bin در دو مقدار 4/0 و 2/0 بررسی شد. 3). عامل کنترل مواجهه‌ی سیمپسون-هتر 4). عامل تعادل محتوایی
شبیه‌سازی به صورت زیر انجام گرفته است:
به‌منظور طراحی مدل بهینه‌ی خزانه‌ی سؤال از روش شبیه‌سازی مونت کارلو استفاده شده است. روش شبییه‌سازی که در این پژوهش به‌کار ‌رفته، بر اساس روش مونت کارلو ریکیسی (2003) بوده است، همچنین، به منظور تعیین مجموعه‌ای از ویژگی‌های محتوایی آزمون، از روش برنامه‌نویسی اعداد صحیح یا برنامه‌نویسی خطی (WDM) استفاده شد. در مجموع به منظور شبیه‌سازی CAT ریاضی، دو مرحله‌ی مهم انجام گرفته است:
در مرحله‌ی اول با بکارگیری روش اکتشافی ریکیسی (2003)، مشخصات خزانه‌های سؤال ایده‌آل موردنظر تعیین شد. بدین ترتیب که، 6000 آزمودنی به طور تصادفی از جامعه‌ی هدف توانایی برای شبیه‌سازی انتخاب شدند، و تنها یک ‌مرتبه خزانه‌ی سؤال و ویژگی‌های خزانه‌ی سؤال بهینه‌ی موردنظر مشخص شد. به عبارت دیگر، ابتدا با استفاده از روش ریکیسی (2003) (مونت کارلو) اندازه بهینه‌ و پارامترهای آماری سؤالات خزانه‌ی بر اساس ویژگی‌های معینی، برای ساخت خزانه‌های سؤال بهینه برای درس ریاضی، مشخص شد. این روش در پژوهش‌های متعدد نشان داد که به‌خوبی عمل می‌کند (ریکیسی و هی، 2004؛ ریکیسی و هی، 2005؛ گاو، 2007). ایده اصلی پشت این روش این است که از «bin» هایی که پهنای معینی روی مقیاس پارامتر «b» ایجاد ‌می‌کند، استفاده‌ می‌شود. به‌طوری‌که، مجموع سؤالات در هر b-bin محاسبه می‌شود و از مکانیسم تئوری «اجتماع» برای تعیین تعداد کلی سؤالات استفاده‌ می‌شود. روش کار در این پژوهش به این صورت بود که ابتدا، یک خزانه سؤال به قسمت‌های کوچکتری پارتیشن‌بندی شد، این تقسیم‌بندی‌ها بر اساس صفات غیر آماری همچون سطوح محتوایی مبتنی بودند. سپس شبیه‌سازی با یک آزمودنی که به‌طور تصادفی از جامعه‌ی هدف انتخاب شد و CAT روی او اجرا‌ شد، شروع شد. هر سؤالی که اجرا ‌می‌شد، انتخاب آن به‌صورت بهینه بود، به‌طوری‌که همه‌ی ویژگی‌های آماری و غیر آماری یک سؤال بهینه را داشته ‌باشد. سؤالاتی که
اجرا می‌شدند، درون «bin» هایی مرتب و منظم می‌شدند و تعداد آنها محاسبه‌ می‌شد. در مرحله‌ی بعد، روش مشابهی برای آزمودنی‌های دیگر اجرا‌ ‌شد. از آنجا که سؤالاتی که برای یک نفر انتخاب می‌شد، می‌توانست برای اشخاص دیگری نیز انتخاب شود، پس خزانه‌ی سؤال بهینه، اجتماعی از مجموعه سؤالاتی بود که برای هر کدام از افراد انتخاب می‌شد. با استفاده از تعداد زیادی از آزمودنی‌های جامعه‌ی هدف، این انتظار وجود داشت که با افزایش تعداد آزمودنی‌ها، تعداد سؤالاتی که باید به خزانه اضافه شود، کمتر ‌شود. در پایان اندازه‌ی خزانه‌ی سؤال با مهیا کردن تمام ملزومات برای همه‌ی آزمودنی‌ها، به سطح مجانب رسید. همچنین، در این پژوهش روش اکتشافی ریکیسی را با استفاده از مدلهای R، MRP و MTI به مدل‌های دو و سه پارامتری نیز تعمیم داده شد. در مدل‌های دو و سه پارامتری نیز، از ایده «bin» ها استفاده می‌شد، با این تفاوت که یک پهنای معینی روی مقیاس پارامتر «b» و پهنای دیگری روی پارامتر «a» ایجاد ‌می‌شد، پهنای پارامتر a بر اساس تغییرات میزان آگاهی سؤالات نسبت به تابع درجه دوم پارامتر a مشخص می‌شد. سپس، مجموع سؤالات در هر ab-bin محاسبه می‌شد و از مکانیسم تئوری «اجتماع» برای تعیین تعداد کلی سؤالات استفاده‌ می‌شد. پارامترهای بهینه‌ی سؤالات نیز بر این اساس مشخص می‌شد و در پایان در یک مخزن نگه‌داری ‌شدند. به منظور کنترل مواجهه‌ی بیش از حد سؤالات، دو خزانه‌ی سؤال شبیه‌سازی شدند، در یکی از شبیه‌سازی کنترل مواجهه اعمال نشد و در شبیه‌سازی دیگر کنترل مواجهه اعمال شد. سپس بر اساس روش برنامه‌نویسی اعداد صحیح (WDM) (استوکینگ و سوانسون، 1993)، صفات محتوایی آزمون، مشخص و در شبیه‌سازی وارد شد. و بدین ترتیب مدل طرح بهینه‌ی خزانه‌ی سؤال طراحی ‌شد.
در مرحله‌ی دوم عملکرد خزانه‌های سؤالی که مطابق با ویژگی ‌های تعیین‌شده بود، طراحی‌شدند، در مقایسه با خزانه‌های سؤال عملیاتی با استفاده از ملاک‌های ارزیابی (نرخ صحت طبقه‌بندی، دقت اندازه‌گیری، میانگین طول آزمون، امنیت آزمون و ضرایب همبستگی بین توانایی‌های واقعی و برآورد‌شده) بررسی شدند. از آنجا که محاسبه‌ی ملاک های مشروط تتا به تعداد آزمودنی در هر سطح تتا وابسته بود، در شبیه‌سازی یک توزیع یکنواخت تعبیه شد و در هر سطح 500 آزمودنی انتخاب شد. سطوح تتا از 4- تا 4 با فواصل 125/0 از یکدیگر جدا شد و در 65 مقدار تتا، ارزیابی خزانه‌ی سؤال طراحی‌شده با نمونه‌ی 32500 نفری صورت گرفت و آماره‌های مشروط در همین مرحله مشخص‌ شد. براساس نتایج ارزیابی، یک خزانه‌ی سؤال ایده‌آل برای استفاده عملی ایجاد شد.
مراحل شبیه‌سازی خزانه‌ی سؤال بهینه
در زیر به صورت گام به گام همه‌ی مراحل توضیح داده‌شده است.