برای بهدست آوردن برآورد اخیر توانایی هر آزمودنی قبل از اینکه دو پاسخ صحیح و غلط در الگوی پاسخ او مشاهده شود، از روش میانگین پسین (MAP) (اوون، 1975)، استفاده شد. پیشین مورد انتظار از توزیع نرمال پیروی میکند. پس از اینکه دو پاسخ صحیح و غلط در الگوی پاسخ مشاهده شد، برای برآورد توانایی از شیوهی بیشینهی درست نمایی (MLE) استفاده شد.
الگوریتم انتخاب سؤال به شیوهی بیشینهی آگاهی (MI) میباشد.
الگوریتم آزمون CAT طوری طراحی شد که طول تست برای آزمون تک محتوایی (حسابان-دیفرانسیل) ثابت و برابر با 20 سؤال برای هریک از آزمودنیها باشد و برای آزمون ریاضی سه محتوایی (حسابان- دیفرانسیل، جبر و هندسه) بر اساس نظم و وزن محتوایی مشخص 60 سؤال برای هر یک از آزمودنیها اجرا شد و پس از رسیدن به این تعداد آزمون متوقف شد.
در اجرای سؤالات در CAT عملیاتی، روش کنترل مواجههی سیمپسون-هتر با نرخ 33/0 بهکار رفت.
مقدار آگاهی هدف سؤالات بر اساس آگاهی سؤالات عملیاتی قرار گرفت، که بر اساس تحقیقات چنگ و چانگ (2009) گرفته شد.
وزن آگاهی نیز بر اساس تحقیقات (هی و ریکیسی، 2010)، برابر با یک انتخاب شد. زیرا با ثباتترین نتایج را نشان میدهد.
ابزار پژوهش در CAT عملیاتی
تعداد سؤالات طراحی شده برای خزانهی سؤال عملیاتی: تعداد 921 سؤال از محتوای دروس ریاضی دانشآموزان رشتهی ریاضی فیزیک (حسابان – دیفرانسیل، جبر خطی و هندسه) توسط 15 طراح در طول یک سال (سال تحصیلی 92-91) ساخته شد، سپس، به طور همزمان سؤالات توسط 10 متخصص موضوعی که سعی شد از بین دانشجویان رشتههای تخصصی ریاضی انتخاب شوند، بررسی و ارزیابی شدند و مشکلات محتوایی و ساختاری آنها برطرف شد. همچنین، ویژگیهای روانسنجی و آماری سؤالات توسط 3 متخصص روانسنجی که به درس ریاضی نیز آشنایی داشتند، بررسی شد. در پایان، سؤالات بر روی 500 نفر ثابت از شرکتکنندگان در آزمونهای آزمایشی سال 92-91 موسسهی آیندسازان در طول 13 مرحله در طول یک سال تحصیلی اجرا شد. و پارامترهای سؤالات بر اساس مدل IRT سه پارامتری از طریق نرم افزار BILOG-MG محاسبه و در مخزنی نگهداری شدند. سؤالات برای جامعهای با توزیع نرمال و بر اساس وزنهای محتوایی که توسط طراحان و مدرسان تعیین شد، طراحی شدند.
نحوهی طراحی برنامهی CAT
در این پژوهش برنامهی CAT از طریق زبان PHP نوشته شد. همچنین، از پایگاه دادهی MYSQL برای ذخیرهی سؤالات استفاده شد. در این برنامه تمام ویژگیهای بیان شده در بالا در آزمون CAT عملیاتی نیز وارد شد.
جامعه و نمونه پژوهش در CAT عملیاتی
جامعهی آزمون CAT عملیاتی: این آزمون برای تمام دانشآموزان مقطع پیشدانشگاهی که خود را برای کنکور سراسری ریاضی آماده میکنند، قابلیت اجرا دارد. بر اساس نتایج بدست آمده از سازمان سنجش کل کشور، توزیع این جامعه نرمال با میانگین صفر و انحراف معیار 1 است.
نمونهی آزمون CAT عملیاتی: این آزمون بر روی 350 نفر از دانشآموزانی که خود را برای آزمون کنکور سراسری 1393 آماده میکردند در فواصل فروردینماه تا خرداد 1393 به صورت انفرادی اجرا شد. این نمونه از یک توزیع نرمال و با میانگین 17/0- و انحراف استاندارد 95/0 پیروی میکند.
طرح شبیهسازی CAT
چهار عامل در مطالعهی شبیهسازی شده دستکاری شد، 1). روش ایجاد سؤال بهینه (R، MRP، MTI). 2). پهنای b-bin در دو مقدار 4/0 و 2/0 بررسی شد. 3). عامل کنترل مواجههی سیمپسون-هتر 4). عامل تعادل محتوایی
شبیهسازی به صورت زیر انجام گرفته است:
بهمنظور طراحی مدل بهینهی خزانهی سؤال از روش شبیهسازی مونت کارلو استفاده شده است. روش شبییهسازی که در این پژوهش بهکار رفته، بر اساس روش مونت کارلو ریکیسی (2003) بوده است، همچنین، به منظور تعیین مجموعهای از ویژگیهای محتوایی آزمون، از روش برنامهنویسی اعداد صحیح یا برنامهنویسی خطی (WDM) استفاده شد. در مجموع به منظور شبیهسازی CAT ریاضی، دو مرحلهی مهم انجام گرفته است:
در مرحلهی اول با بکارگیری روش اکتشافی ریکیسی (2003)، مشخصات خزانههای سؤال ایدهآل موردنظر تعیین شد. بدین ترتیب که، 6000 آزمودنی به طور تصادفی از جامعهی هدف توانایی برای شبیهسازی انتخاب شدند، و تنها یک مرتبه خزانهی سؤال و ویژگیهای خزانهی سؤال بهینهی موردنظر مشخص شد. به عبارت دیگر، ابتدا با استفاده از روش ریکیسی (2003) (مونت کارلو) اندازه بهینه و پارامترهای آماری سؤالات خزانهی بر اساس ویژگیهای معینی، برای ساخت خزانههای سؤال بهینه برای درس ریاضی، مشخص شد. این روش در پژوهشهای متعدد نشان داد که بهخوبی عمل میکند (ریکیسی و هی، 2004؛ ریکیسی و هی، 2005؛ گاو، 2007). ایده اصلی پشت این روش این است که از «bin» هایی که پهنای معینی روی مقیاس پارامتر «b» ایجاد میکند، استفاده میشود. بهطوریکه، مجموع سؤالات در هر b-bin محاسبه میشود و از مکانیسم تئوری «اجتماع» برای تعیین تعداد کلی سؤالات استفاده میشود. روش کار در این پژوهش به این صورت بود که ابتدا، یک خزانه سؤال به قسمتهای کوچکتری پارتیشنبندی شد، این تقسیمبندیها بر اساس صفات غیر آماری همچون سطوح محتوایی مبتنی بودند. سپس شبیهسازی با یک آزمودنی که بهطور تصادفی از جامعهی هدف انتخاب شد و CAT روی او اجرا شد، شروع شد. هر سؤالی که اجرا میشد، انتخاب آن بهصورت بهینه بود، بهطوریکه همهی ویژگیهای آماری و غیر آماری یک سؤال بهینه را داشته باشد. سؤالاتی که
اجرا میشدند، درون «bin» هایی مرتب و منظم میشدند و تعداد آنها محاسبه میشد. در مرحلهی بعد، روش مشابهی برای آزمودنیهای دیگر اجرا شد. از آنجا که سؤالاتی که برای یک نفر انتخاب میشد، میتوانست برای اشخاص دیگری نیز انتخاب شود، پس خزانهی سؤال بهینه، اجتماعی از مجموعه سؤالاتی بود که برای هر کدام از افراد انتخاب میشد. با استفاده از تعداد زیادی از آزمودنیهای جامعهی هدف، این انتظار وجود داشت که با افزایش تعداد آزمودنیها، تعداد سؤالاتی که باید به خزانه اضافه شود، کمتر شود. در پایان اندازهی خزانهی سؤال با مهیا کردن تمام ملزومات برای همهی آزمودنیها، به سطح مجانب رسید. همچنین، در این پژوهش روش اکتشافی ریکیسی را با استفاده از مدلهای R، MRP و MTI به مدلهای دو و سه پارامتری نیز تعمیم داده شد. در مدلهای دو و سه پارامتری نیز، از ایده «bin» ها استفاده میشد، با این تفاوت که یک پهنای معینی روی مقیاس پارامتر «b» و پهنای دیگری روی پارامتر «a» ایجاد میشد، پهنای پارامتر a بر اساس تغییرات میزان آگاهی سؤالات نسبت به تابع درجه دوم پارامتر a مشخص میشد. سپس، مجموع سؤالات در هر ab-bin محاسبه میشد و از مکانیسم تئوری «اجتماع» برای تعیین تعداد کلی سؤالات استفاده میشد. پارامترهای بهینهی سؤالات نیز بر این اساس مشخص میشد و در پایان در یک مخزن نگهداری شدند. به منظور کنترل مواجههی بیش از حد سؤالات، دو خزانهی سؤال شبیهسازی شدند، در یکی از شبیهسازی کنترل مواجهه اعمال نشد و در شبیهسازی دیگر کنترل مواجهه اعمال شد. سپس بر اساس روش برنامهنویسی اعداد صحیح (WDM) (استوکینگ و سوانسون، 1993)، صفات محتوایی آزمون، مشخص و در شبیهسازی وارد شد. و بدین ترتیب مدل طرح بهینهی خزانهی سؤال طراحی شد.
در مرحلهی دوم عملکرد خزانههای سؤالی که مطابق با ویژگی های تعیینشده بود، طراحیشدند، در مقایسه با خزانههای سؤال عملیاتی با استفاده از ملاکهای ارزیابی (نرخ صحت طبقهبندی، دقت اندازهگیری، میانگین طول آزمون، امنیت آزمون و ضرایب همبستگی بین تواناییهای واقعی و برآوردشده) بررسی شدند. از آنجا که محاسبهی ملاک های مشروط تتا به تعداد آزمودنی در هر سطح تتا وابسته بود، در شبیهسازی یک توزیع یکنواخت تعبیه شد و در هر سطح 500 آزمودنی انتخاب شد. سطوح تتا از 4- تا 4 با فواصل 125/0 از یکدیگر جدا شد و در 65 مقدار تتا، ارزیابی خزانهی سؤال طراحیشده با نمونهی 32500 نفری صورت گرفت و آمارههای مشروط در همین مرحله مشخص شد. براساس نتایج ارزیابی، یک خزانهی سؤال ایدهآل برای استفاده عملی ایجاد شد.
مراحل شبیهسازی خزانهی سؤال بهینه
در زیر به صورت گام به گام همهی مراحل توضیح دادهشده است.