چندین رویکرد ممکن برای ایجاد تعادل محتوایی وجود دارد. در رویکرد خزانهی سؤال مجزا، خزانهی سؤال میتواند به چندین خزانهی سؤال تک بعدی تقسیم شود و CAT های مجزایی از هرکدام اجرا شود. در رویکرد فهرست، جداول آگاهی مجزایی میتوانند ایجاد شوند و یکی درمیان بر اساس طرحی استفاده شوند. در رویکرد انتخاب بهینه، یک تابع جبرانی یا الگوریتم برنامهنویسی عدد صحیح برای انتخاب یک تست بهینه به کار میرود که هم ویژگیهای آماری و هم محتوایی را متعادل میکند (پارشال، اسپری، کالن و دیوی، 2002).
در رایجترین شکل تعادل محتوایی CAT تعداد یا نسبتهای مربوط به سؤالات در هر حوزهی محتوایی به دامنهی معینی مقید میشوند (استوکینگ و سوآنسون، 1993). با این وجود، متعادل کردن نسبتهای سؤالاتی که در طول اجرای CAT ارائه میشوند، لزوماً تأثیری که هر حوزهی محتوایی در تعیین برآورد نهایی توانایی دارد را متعادل نمیکند. برآوردهای توانایی از تعداد سؤالاتی که از یک حوزهی محتوایی انتخاب میشود، تأثیر نمیبخشند، بلکه تا اندازهای بهوسیلهی مقدار آگاهی که این سؤالات برای برآورد توانایی ایجاد میکنند، تأثیر میگیرد. اگر آزمونی برای آزمودنیهایی با توانایی بالا اجرا شود که نیمی از سؤالاتاش از حوزههای محتوایی آسان باشند، این سؤالات تأثیر اندکی روی میزان آگاهی کل آزمون در برآورد توانایی نهایی این آزمودنیها ایجاد میکند. از آنجا که، سؤالات غیر آگاهیدهنده تأثیر خیلی کمی روی برآورد توانایی دارند، حوزههای محتوایی آسان خودبهخود از نمرهی آزمون این افراد خارج میشوند (پارشال، اسپری، کالن و دیوی، 2002). بنابراین، از آنجا که متعادل کردن تعداد یا نسبتهای سؤالاتی که اجرا میشوند، بی اثر میباشد، سگال و دیوی (1995)، الگوریتمهایی را ایجاد کردند که مقدار آگاهی بهدست آمده از هر حوزهی محتوایی را متعادل کند. نسبتهای آگاهی بهدست آمده از هر حوزهی محتوایی لزوماً ثابت نیست، بلکه میتواند در سطوح متفاوت توانایی متفاوت باشد (سگال و دیوی، 1995).
مولفهی خزانهی سؤال، به عنوان یک بخش جداگانه به تفضیل شرح داده میشود:
خزانهی سؤال
یکی از مولفههای جالب توجه مرتبط به CAT، که مطالب محدودی در مورد آن وجود دارد، مولفهی خزانه سؤال میباشد. با اینوجود، ویژگیهای جذاب روان سنجی CAT، در صورتی تحقق مییابد که سؤالات آزمونی که برای اجرا به کار میروند مناسب باشند. این مجموعه از سؤالات معمولاً خزانهی سؤال نامیده میشود (ریکیسی، 2010). یک خزانهی سؤال بهینه باید براساس مولفههای دیگر CATیعنی، طول آزمون، توزیع مورد انتظار جامعهی آزمودنی، برآورد توانایی و شیوهی انتخاب سؤال، نرخهای همپوشی و مواجهه هدف سؤال تعیین شود (برگستروم و لانز، 1999).
طراحی خزانهی سؤال و ارتباط آن با مولفههای CAT
پارشال، دیوی و نرینگ (1998) نشان دادند که سه هدف اغلب متضاد انتخاب سؤال در سنجش انطباقی کامپیوتری وجود دارد. ابتدا، انتخاب سؤال باید دقت اندازهگیری را از طریق انتخاب سؤالی که آگاهی را بیشینه کند یا دقت پسین را برای سطح توانایی آزمودنی بیشینه کند، افزایش دهد. دوم، انتخاب سؤال باید از امنیت خزانهی سؤال از طریق محدود کردن میزان مواجهه سؤالات محافظت کند. سوم، انتخاب سؤال باید تضمین کند که آزمودنیها، آزمونی با تعادل محتوایی مناسب دریافت خواهند کرد. استوکینگ و سوآنسون (1998)، هدف چهارمی را به این لیست اضافه کردند؛ هدف چهارم بیان میکند که انتخاب سؤال باید همچنین استفاده از سؤال را به حداکثر برساند، تا جایی که همهی سؤالات در خزانه استفاده شوند، بدین وسیله این اطمینان ایجاد میشود که صرفهجویی مناسبی برای ساخت سؤال صورت گرفتهاست. استوکینگ و لوئیس (2000)، بیان کردند که مسئلهی انتخاب سؤال به صورت بادبادکی میباشد که به هر طرف آن فشار وارد شود، طرف دیگر آن متورم شود.
خزانهی سؤالی که بهطور بهینه طراحی شده باشد، به دنبال بهترین سازش بین اهداف متعارض است. خزانهی سؤال باید دارای تعداد کافی از سؤالات با کیفیت بالا باشد تا بتواند چندین هزار خرده آزمون همپوش از سؤالات ایجاد کند. البته این قضیه تا حدودی بر اساس توزیع آزمودنیها و تعداد آزمودنیهایی که خزانهی سؤال برای آنها به کار میرود، تعیین میشود. زمانی که در سنجش انطباقی امنیت سؤال مهم باشد، چنانچه تعداد آزمودنیهایی که آزمون روی آنها اجرا میشود، زیاد باشد، باید سؤالات بیشتری در خزانه قرار گیرند. شیوهی انتخاب سؤال در سنجش انطباقی به این صورت است که سؤالاتی انتخاب میشود که سطح دشواریشان تقریباً با برآورد توانایی آزمودنیها مطابقت داشته باشند، بنابراین، این انتظار وجود دارد که سؤالات خزانه داری توزیع دشواری مشابه با توزیع توانایی آزمودنیها باشند. با این وجود بهتر است که خزانهی سؤال، سؤالاتی با دامنهی گستردهای از سطوح دشواری برای جمعیت مورد نظر باشد تا به CAT اجازه دهد سطوح توانایی را برای دامنهی گستردهای از آزمودنیها برآورد کند (یوری ، 1977).
طول آزمون وابستگی بسیار نزدیکی به قاعدهی اتمام آزمون در CAT دارد، همچنین نقش مهمی در تعیین تعداد سؤالات مورد نیاز در خزانهی سؤال بازی میکند. برای آزمونی با طول ثابت، اگر آزمونها برای افراد طوری تهیه شوند که سؤالات همپوش نداشته باشند، تعداد سؤالات در خزانه باید دقی
قاً برابر با تعداد سؤالات در هر فرم ضرب در تعداد آزمودنیها باشد. ولی در واقع، سؤالات میتوانند با درنظر گرفتن محدودیتهای امنیتی معین، بهطور تکراری نیز مورد استفاده قرار گیرند. حتی با سؤالات همپوش، این انتظار وجود دارد که سؤالات بیشتری برای طراحی آزمون CAT وجود دارد، بنابراین سؤالات بیشتری در یک خزانه مورد نیاز است. استوکینگ (1994)، پیشنهاد میکند که تعداد سؤالات در خزانهی سؤال باید 12 برابر طول آزمون باشد (استوکینگ، 1994). وایپیشنهاد میکند که، برای آزمونهایی مانند کسب گواهینامه، اندازهی خزانهی سؤال 6 تا 8 برابر طول آزمون انطباقی باشد (وای، 1998). در صورتی که، طول آزمون در CAT متغیر باشد، معمولاً به سؤالات کمتری برای آزمونهای مجزا نیاز داریم. در این مورد، تعداد سؤالات مورد نیاز برای یک خزانهی سؤال با توزیع تعداد آزمودنیها در هر سطح توانایی همبستگی دارد (استوکینگ، 1994).
با توجه به الگوهاییکسان سؤال-پاسخ، روشهای متفاوت برآورد، برآوردهای توانایی اندکی متفاوت ایجاد میکند، و به نوبهی خود روی انتخاب بهترین سؤال مناسب تاثیر میگذارد. همچنین قواعد متفاوت انتخاب سؤال، از قبیل انتخاب سؤالی که آگاهی را بیشینه کند یا واریانس پسین در برآورد توانایی را کمینه کند، ممکن است سؤالات متفاوتی بهعنوان مناسبترین سؤال برای آزمودنی انتخاب کند. هر دو موقعیت باعث میشود که سؤال متفاوتی استفاده شود و بنابراین سؤالات متفاوتی در خزانهی سؤال بهینه مورد نیاز خواهد داشت (گو و ریکیسی، 2007).
شرایط تعادل محتوایی نیز ترکیبهای متفاوتی از سؤالات را در یک خزانهی سؤال ایجاد میکند. برای مثال، اگر برای طراحی یک آزمون CAT به یک آزمون 40 سؤالی ریاضی نیاز داشته باشیم، یعنی به 20 سؤال استدلال عددی و 20 سؤال حلّ مسئله نیاز باشد. به همین دلیل خزانهی سؤال بهینه باید شامل تعداد مشابهی از سؤالات برای هر دو حوزهی محتوایی باشد. هدف طراح خزانهی سؤال باید این باشد که تعداد کافی سؤال در هر حوزهی محتوایی موردنظر ایجاد کند، تا هر یک از آزمونها را با پوشش محتوایی متعادل شدهای را بسازد (گو و ریکیسی، 2007؛ پارشال، اسپری، کالن و دیوی، 2002).
بعلاوه، مراقبت از خزانهی سؤال باید ادامه یابد، تا جایی که مطمئن شویم که خزانه شامل سؤالات مناسبی است که نرخ بیش مواجهه و کم مواجهه را در صورتیکه دقت آزمون برقرار است، کاهش دهد. سؤالی که زیادتر مورد استفاده قرار میگیرد، از نظر امنیتی مشکل ایجاد میکند، زیرا بیشتر آزمودنیها سؤال یکسانی را دریافت میکنند، و به احتمال زیادی سؤال برای عموم فاش میشود. در مقابل سؤالی که کم استفاده میشود، بهطور بالقوه، هزینههای طراحی سؤال را افزایش میدهد. بنابراین باید تعادلی بین کارایی آزمون و کنترل مواجهه سؤال برقرار شود. به عبارت دیگر سؤالی باید انتخاب شود که دقت و کارایی آزمون را با رعایت محدودیتهای امنیتی به حداکثر برساند، این کار رمز بهینهسازی موفق میباشد. خزانهی سؤالی که بهطور بهینه طراحی شده است باید بتواند همزمان که کنترل مواجهه را برقرار میکند، کاهش خیلی کمی در کارایی و دقت برآورد توانایی ایجاد کند(گو و ریکیسی، 2007).
رویکردهای موجود در طراحی خزانهی سؤال
رویکرد اول: رویکرد برنامهنویسی ریاضی یا برنامهنویسی اعداد صحیح
این رویکرد توسط ولدکمپ و وندر لیندن (2000) برای طراحی خزانهی سؤال ایجاد شده است، این رویکرد از روش برنامهنویسی ریاضی برای طراحی خزانهی سؤال استفاده میکند. از این رویکرد برای سرهم کردن هم آزمونهای انطباقی و هم آزمونهای غیر انطباقی، امّا بهینه استفاده میگردد (وندرلیندن، a 2005). این روش جزء روشهای سرهم کردن بهینهی تست است که تعمیمی از رویکرد برنبام میباشد. این روشها به طراحان تست اجازه میدهد تا مجموعهای از تستها را با توجه به لیستی از ویژگیها و اهداف، از مجموعهی بزرگتر خزانهی سؤال، سرهم کنند. تلاشهای اولیه این روش به برنبام (1968) برمیگردد. در اواسط دههی 1980، روش برنبام به عنوان یک مسئلهی بهینهسازی ترکیبی یا برنامهنویسی خطی 0-1، تعریف شد. ولی از آنجا که عملیاتی کردن این روشها در آن سالها به دلیل دردسترس نبودن الگوریتمها و نرمافزارهای مورد نیاز امکان پذیر نبود، پیشرفت زیادی نکرد. امروزه با پیشرفت نرم افزارهای مخصوص جبر خطی امکان عملیاتی کردن این روش برقرار شده است (وندرلیندن، b 2005). در این رویکرد، CAT از طریق رویکرد تست سایه (STA)، اجرا میشود (وندرلیندن، ریس، 1988) یعنی تست از طریق برنامهنویسی عدد صحیح خطی دو ارزشی یا برنامهنویسی 1-0 سرهم میشود. در این رویکرد ویژگیهای تست بر اساس یک تابع هدف که در ارتباط با مجموعهای از قیود خاص بیشینه میشود، محقق میگردد (وندرلیندن، b 2005). مزیت این روش این است که ما را قادر میکند تا ویژگیهای پیچیدهی آزمون را مدلیابی کنیم. برای یک بار قیود آزمون تعیین میشود و به قیود عددی تبدیل میشود. در این رویکرد ابتدا مسئلهی سرهم کردن تست، به عنوان یک مسئلهی بهینهسازی ریاضی با استفاده از متغیرهای تصمیم فرمولبندی میشوند. بنابراین در این رویکرد، ویژگیها یا صفات تست، مهمترین اصل در فرمولبندی تست است. سپس، بر اساس قیود و اهداف معینی، تست سرهم میشود (وندرلیندن b 2005).
استفاده از روش برنامهنویسی خطی با کار بوکویی-تمینگا(1987) آغاز شد. بو
کویی-تیمینگا (1991)، از روش برنامهنویسی اعداد صحیح برای محاسبهی تعداد سؤالات مورد نیاز برای فرمهایی از آزمون که میخواهد در آینده مورد استفاده قرار گیرد، استفاده کرد. و از یک رویکرد متوالی که تابع آگاهی آزمون (TIF) را بر اساس مدل لوجستیک یک پارامتری (مدل راش) به حداکثر میرساند، استفاده کرد. نتایج او برای اصلاح ترکیب یک بانک سؤال موجود بهکار رفت. سپس، به طور دقیقتری آریل، ولدکمپ و وندر لیندن (1998)، روشهای ساخت خزانهی سؤال چرخشی که بعضی از آنها بر مبنای هدف طراحی با روش برنامهنویسی قرار گرفتند را توسعه دادند. ولدکمپ و وندرلیندن (1999)، پنچ گام برای طراحی یک طرح بهینه برای خزانهی سؤال CAT با روش برنامهنویسی ریاضی یا خطی توصیف کردند:
مجموعهای از ویژگیهای آزمون CAT تحلیل میشود و همهی صفات سؤال به همراه ویژگیهای محتوایی و آماری شان تعیین میشود.
با در نظرگرفتن ویژگیهای سؤالات، مدل برنامهنویسی اعداد صحیح برای سرهم کردن تستهای سایه در شبیهسازی CAT فرمولبندی میشوند.
جامعهی آزمودنیها تعیین میشود و برای مثال بر اساس دادههای گذشته، برآورد توزیع تواناییشان مشخص میشود.
شبیهسازی CAT با استفاده از مدل برنامهنویسی اعداد صحیح برای تستهای سایه و محرکهای نمونهگیری شده از توزیع توانایی، انجام میگیرد. فراوانی سؤالات از تعداد دفعاتی که سؤالات از خانههای جدول طبقهبندی شده استفاده میشوند، بدست میآید.
طرح نهایی از این فراوانیها بدست میآید. تنظیم این فراوانیها، الگوی بهینهی نرخ مواجههی سؤال را ایجاد میکند.