چندین رویکرد ممکن برای ایجاد تعادل محتوایی وجود دارد. در رویکرد خزانه‌ی سؤال مجزا، خزانه‌ی سؤال می‌تواند به چندین خزانه‌ی سؤال تک بعدی تقسیم شود و CAT های مجزایی از هرکدام اجرا شود. در رویکرد فهرست، جداول آگاهی مجزایی می‌توانند ایجاد شوند و یکی درمیان بر اساس طرحی استفاده شوند. در رویکرد انتخاب بهینه، یک تابع جبرانی یا الگوریتم برنامه‌نویسی عدد صحیح برای انتخاب یک تست بهینه به کار می‌رود که هم ویژگی‌های آماری و هم محتوایی را متعادل می‌کند (پارشال، اسپری، کالن و دیوی، 2002).
در رایج‌ترین شکل تعادل محتوایی CAT تعداد یا نسبت‌های مربوط به سؤالات در هر حوزه‌ی محتوایی به دامنه‌ی معینی مقید می‌شوند (استوکینگ و سوآنسون، 1993). با این وجود، متعادل کردن نسبت‌های سؤالاتی که در طول اجرای CAT ارائه می‌شوند، لزوماً تأثیری که هر حوزه‌ی محتوایی در تعیین برآورد نهایی توانایی دارد را متعادل نمی‌کند. برآوردهای توانایی از تعداد سؤالاتی که از یک حوزه‌ی محتوایی انتخاب می‌شود، تأثیر نمی‌بخشند، بلکه تا اندازه‌ای به‌وسیله‌ی مقدار آگاهی که این سؤالات برای برآورد توانایی ایجاد می‌کنند، تأثیر می‌گیرد. اگر آزمونی برای آزمودنی‌هایی با توانایی بالا اجرا شود که نیمی از سؤالات‌اش از حوزه‌های محتوایی آسان باشند، این سؤالات تأثیر اندکی روی میزان آگاهی کل آزمون در برآورد توانایی نهایی این آزمودنی‌ها ایجاد می‌کند. از آنجا که، سؤالات غیر آگاهی‌دهنده تأثیر خیلی کمی روی برآورد توانایی دارند، حوزه‌های محتوایی آسان خودبه‌خود از نمره‌ی آزمون این افراد خارج می‌شوند (پارشال، اسپری، کالن و دیوی، 2002). بنابراین، از آنجا که متعادل کردن تعداد یا نسبت‌های سؤالاتی که اجرا می‌شوند، بی اثر می‌باشد، سگال و دیوی (1995)، الگوریتم‌هایی را ایجاد کردند که مقدار آگاهی به‌دست آمده از هر حوزه‌ی محتوایی را متعادل کند. نسبت‌های آگاهی به‌دست آمده از هر حوزه‌ی محتوایی لزوماً ثابت نیست، بلکه می‌تواند در سطوح متفاوت توانایی متفاوت باشد (سگال و دیوی، 1995).
مولفه‌ی خزانه‌ی سؤال، به عنوان یک بخش جداگانه به تفضیل شرح داده می‌شود:
خزانهی سؤال
یکی از مولفه‌های جالب توجه مرتبط به CAT، که مطالب محدودی در مورد آن وجود دارد، مولفه‌ی خزانه سؤال می‌باشد. با ‌این‌وجود، ویژگی‌های جذاب روان سنجی CAT، در صورتی تحقق می‌یابد که سؤالات آزمونی که برای اجرا به کار می‌روند مناسب باشند. این مجموعه از سؤالات معمولاً خزانه‌ی سؤال نامیده می‌شود (ریکیسی، 2010). یک خزانه‌ی سؤال بهینه باید براساس مولفه‌های دیگر CATیعنی، طول آزمون، توزیع مورد انتظار جامعه‌ی آزمودنی، برآورد توانایی و شیوه‌ی انتخاب سؤال، نرخ‌های همپوشی و مواجهه هدف سؤال تعیین شود (برگستروم و لانز، 1999).
طراحی خزانه‌ی سؤال و ارتباط آن با مولفه‌های CAT
پارشال، دیوی و نرینگ (1998) نشان دادند که سه هدف اغلب متضاد انتخاب سؤال در سنجش انطباقی کامپیوتری وجود دارد. ابتدا، انتخاب سؤال باید دقت اندازه‌گیری را از طریق انتخاب سؤالی که آگاهی را بیشینه کند یا دقت پسین را برای سطح توانایی آزمودنی بیشینه کند، افزایش دهد. دوم، انتخاب سؤال باید از امنیت خزانه‌ی سؤال از طریق محدود کردن میزان مواجهه سؤالات محافظت کند. سوم، انتخاب سؤال باید تضمین کند که آزمودنی‌ها، آزمونی با تعادل محتوایی مناسب دریافت خواهند کرد. استوکینگ و سوآنسون (1998)، هدف چهارمی را به این لیست اضافه کردند؛ هدف چهارم بیان می‌کند که انتخاب سؤال باید همچنین استفاده از سؤال را به حداکثر برساند، تا جایی که همه‌ی سؤالات در خزانه استفاده شوند، بدین وسیله این اطمینان ایجاد می‌شود که صرفه‌جویی مناسبی برای ساخت سؤال صورت گرفته‌است. استوکینگ و لوئیس (2000)، بیان کردند که مسئله‌ی انتخاب سؤال به صورت بادبادکی می‌باشد که به هر طرف آن فشار وارد شود، طرف دیگر آن متورم شود.
خزانه‌ی سؤالی که به‌طور بهینه طراحی شده ‌باشد، به دنبال بهترین سازش بین اهداف متعارض است. خزانه‌ی سؤال باید دارای تعداد کافی از سؤالات با کیفیت بالا باشد تا بتواند چندین هزار خرده آزمون همپوش از سؤالات ایجاد کند. البته این قضیه تا حدودی بر اساس توزیع آزمودنی‌ها و تعداد آزمودنی‌هایی که خزانه‌ی سؤال برای آنها به کار می‌رود، تعیین می‌شود. زمانی که در سنجش انطباقی امنیت سؤال مهم باشد، چنانچه تعداد آزمودنی‌هایی که آزمون روی آنها اجرا می‌شود، زیاد باشد، باید سؤالات بیشتری در خزانه قرار گیرند. شیوه‌ی انتخاب سؤال در سنجش انطباقی به این صورت است که سؤالاتی انتخاب می‌شود که سطح دشواری‌شان تقریباً با برآورد توانایی آزمودنی‌ها مطابقت داشته باشند، بنابراین، این انتظار وجود دارد که سؤالات خزانه داری توزیع دشواری مشابه با توزیع توانایی آزمودنی‌ها باشند. با این ‌وجود بهتر است که خزانه‌ی سؤال، سؤالاتی با دامنه‌ی گسترده‌ای از سطوح دشواری برای جمعیت مورد نظر باشد تا به CAT اجازه دهد سطوح توانایی را برای دامنه‌ی گسترده‌ای از آزمودنی‌ها برآورد کند (یوری ، 1977).
طول آزمون وابستگی بسیار نزدیکی به قاعده‌ی اتمام آزمون در CAT دارد، همچنین نقش مهمی در تعیین تعداد سؤالات مورد نیاز در خزانه‌ی سؤال بازی می‌کند. برای آزمونی با طول ثابت، اگر آزمون‌ها برای افراد طوری تهیه شوند که سؤالات همپوش نداشته باشند، تعداد سؤالات در خزانه باید دقی
قاً برابر با تعداد سؤالات در هر فرم ضرب در تعداد آزمودنی‌ها باشد. ولی در واقع، سؤالات می‌توانند با درنظر گرفتن محدودیت‌های امنیتی معین، به‌طور تکراری نیز مورد استفاده قرار گیرند. حتی با سؤالات همپوش، این انتظار وجود دارد که سؤالات بیشتری برای طراحی آزمون CAT وجود دارد، بنابراین سؤالات بیشتری در یک خزانه مورد نیاز است. استوکینگ (1994)، پیشنهاد می‌کند که تعداد سؤالات در خزانه‌ی سؤال باید 12 برابر طول آزمون باشد (استوکینگ، 1994). وایپیشنهاد می‌کند که، برای آزمون‌هایی مانند کسب گواهی‌نامه، اندازه‌ی خزانه‌ی سؤال 6 تا 8 برابر طول آزمون انطباقی باشد (وای، 1998). در صورتی که، طول آزمون در CAT متغیر باشد، معمولاً به سؤالات کمتری برای آزمون‌های مجزا نیاز داریم. در این مورد، تعداد سؤالات مورد نیاز برای یک خزانه‌ی سؤال با توزیع تعداد آزمودنی‌ها در هر سطح توانایی همبستگی دارد (استوکینگ، 1994).
با توجه به الگوهاییکسان سؤال-پاسخ، روش‌های متفاوت برآورد، برآوردهای توانایی اندکی متفاوت ایجاد می‌کند، و به نوبه‌ی خود روی انتخاب بهترین سؤال مناسب تاثیر می‌گذارد. همچنین قواعد متفاوت انتخاب سؤال، از قبیل انتخاب سؤالی که آگاهی را بیشینه کند یا واریانس پسین در برآورد توانایی را کمینه کند، ممکن است سؤالات متفاوتی به‌عنوان مناسب‌ترین سؤال برای آزمودنی انتخاب کند. هر دو موقعیت باعث می‌شود که سؤال متفاوتی استفاده شود و بنابراین سؤالات متفاوتی در خزانه‌ی سؤال بهینه مورد نیاز خواهد داشت (گو و ریکیسی، 2007).
شرایط تعادل محتوایی نیز ترکیب‌های متفاوتی از سؤالات را در یک خزانه‌ی سؤال ایجاد می‌کند. برای مثال، اگر برای طراحی یک آزمون CAT به یک آزمون 40 سؤالی ریاضی نیاز داشته ‌باشیم، یعنی به 20 سؤال استدلال عددی و 20 سؤال حلّ مسئله نیاز باشد. به همین دلیل خزانه‌ی سؤال بهینه باید شامل تعداد مشابهی از سؤالات برای هر دو حوزه‌ی محتوایی باشد. هدف طراح خزانه‌ی سؤال باید این باشد که تعداد کافی سؤال در هر حوزه‌ی محتوایی موردنظر ایجاد کند، تا هر یک از آزمون‌ها را با پوشش محتوایی متعادل شده‌ای را بسازد (گو و ریکیسی، 2007؛ پارشال، اسپری، کالن و دیوی، 2002).
بعلاوه، مراقبت از خزانه‌ی سؤال باید ادامه یابد، تا جایی که مطمئن شویم که خزانه شامل سؤالات مناسبی است که نرخ بیش مواجهه و کم مواجهه را در صورتی‌که دقت آزمون برقرار است، کاهش دهد. سؤالی که زیادتر مورد استفاده قرار می‌گیرد، از نظر امنیتی مشکل ایجاد می‌کند، زیرا بیشتر آزمودنی‌ها سؤال یکسانی را دریافت می‌کنند، و به احتمال زیادی سؤال برای عموم فاش می‌شود. در مقابل سؤالی که کم استفاده می‌شود، به‌طور بالقوه، هزینه‌های طراحی سؤال را افزایش می‌دهد. بنابراین باید تعادلی بین کارایی آزمون و کنترل مواجهه سؤال برقرار شود. به عبارت دیگر سؤالی باید انتخاب شود که دقت و کارایی آزمون را با رعایت محدودیت‌های امنیتی به حداکثر برساند، این کار رمز بهینه‌سازی موفق می‌باشد. خزانه‌ی سؤالی که به‌طور بهینه طراحی شده ‌است باید بتواند همزمان که کنترل مواجهه را برقرار می‌کند، کاهش خیلی کمی در کارایی و دقت برآورد توانایی ایجاد کند(گو و ریکیسی، 2007).
رویکردهای موجود در طراحی خزانه‌ی سؤال
رویکرد اول: رویکرد برنامه‌نویسی ریاضی یا برنامه‌نویسی اعداد صحیح
این رویکرد توسط ولدکمپ و وندر لیندن (2000) برای طراحی خزانه‌ی سؤال ایجاد شده است، این رویکرد از روش برنامه‌نویسی ریاضی برای طراحی خزانه‌ی سؤال استفاده می‌کند. از این رویکرد برای سرهم کردن هم آزمون‌های انطباقی و هم آزمون‌های غیر انطباقی، امّا بهینه استفاده می‌گردد (وندرلیندن، a 2005). این روش جزء روش‌های سرهم کردن بهینه‌ی تست است که تعمیمی از رویکرد برن‌بام می‌باشد. این روش‌ها به طراحان تست اجازه می‌دهد تا مجموعه‌ای از تست‌ها را با توجه به لیستی از ویژگی‌ها و اهداف، از مجموعه‌ی بزرگتر خزانه‌ی سؤال، سرهم کنند. تلاش‌های اولیه این روش به برن‌بام (1968) برمی‌گردد. در اواسط دهه‌ی 1980، روش برن‌بام به عنوان یک مسئله‌ی بهینه‌سازی ترکیبی یا برنامه‎‌نویسی خطی 0-1، تعریف شد. ولی از آنجا که عملیاتی کردن این روش‌ها در آن سال‌ها به دلیل دردسترس نبودن الگوریتم‌ها و نرم‌افزارهای مورد نیاز امکان پذیر نبود، پیشرفت زیادی نکرد. امروزه با پیشرفت نرم افزارهای مخصوص جبر خطی امکان عملیاتی کردن این روش برقرار شده است (وندرلیندن، b 2005). در این رویکرد، CAT از طریق رویکرد تست سایه (STA)، اجرا می‌شود (وندرلیندن، ریس، 1988) یعنی تست از طریق برنامه‌نویسی عدد صحیح خطی دو ارزشی یا برنامه‌نویسی 1-0 سرهم می‌شود. در این رویکرد ویژگی‌های تست بر اساس یک تابع هدف که در ارتباط با مجموعه‌ای از قیود خاص بیشینه می‌شود، محقق می‌گردد (وندرلیندن، b 2005). مزیت این روش این است که ما را قادر می‌کند تا ویژگی‌های پیچیده‌ی آزمون را مدل‌یابی کنیم. برای یک بار قیود آزمون تعیین می‌شود و به قیود عددی تبدیل می‌شود. در این رویکرد ابتدا مسئله‌ی سرهم کردن تست، به عنوان یک مسئله‌ی بهینه‌سازی ریاضی با استفاده از متغیرهای تصمیم فرمول‌بندی می‌شوند. بنابراین در این رویکرد، ویژگی‌ها یا صفات تست، مهمترین اصل در فرمول‌بندی تست است. سپس، بر اساس قیود و اهداف معینی، تست سرهم می‌شود (وندرلیندن b 2005).
استفاده از روش برنامه‌نویسی خطی با کار بوکویی-تمینگا(1987) آغاز شد. بو
کویی-تیمینگا (1991)، از روش برنامه‌نویسی اعداد صحیح برای محاسبه‌ی تعداد سؤالات مورد نیاز برای فرم‌هایی از آزمون که می‌خواهد در آینده مورد استفاده قرار گیرد، استفاده کرد. و از یک رویکرد متوالی که تابع آگاهی آزمون (TIF) را بر اساس مدل لوجستیک یک پارامتری (مدل راش) به‌ حداکثر می‌رساند، استفاده ‌کرد. نتایج او برای اصلاح ترکیب یک بانک سؤال موجود به‌کار رفت. سپس، به طور دقیق‌تری آریل، ولدکمپ و وندر لیندن (1998)، روش‌های ساخت خزانه‌ی سؤال چرخشی که بعضی از آنها بر مبنای هدف طراحی با روش برنامه‌نویسی قرار گرفتند را توسعه دادند. ولدکمپ و وندرلیندن (1999)، پنچ گام برای طراحی یک طرح بهینه برای خزانه‌ی سؤال CAT با روش برنامه‌نویسی ریاضی یا خطی توصیف کردند:
مجموعه‌ای از ویژگی‌های آزمون CAT تحلیل می‌شود و همه‌ی صفات سؤال به همراه ویژگی‌های محتوایی و آماری شان تعیین می‌شود.
با در نظرگرفتن ویژگی‌های سؤالات، مدل برنامه‌نویسی اعداد صحیح برای سرهم کردن تست‌های سایه در شبیه‌سازی CAT فرمول‌بندی می‌شوند.
جامعه‌ی آزمودنی‌ها تعیین می‌شود و برای مثال بر اساس داده‌های گذشته، برآورد توزیع توانایی‌شان مشخص می‌شود.
شبیه‌سازی CAT با استفاده از مدل برنامه‌نویسی اعداد صحیح برای تست‌های سایه و محرک‌های نمونه‌گیری شده از توزیع توانایی، انجام ‌می‌گیرد. فراوانی سؤالات از تعداد دفعاتی که سؤالات از خانه‌های جدول طبقه‌بندی شده استفاده می‌شوند، بدست می‌آید.
طرح نهایی از این فراوانی‌ها بدست می‌آید. تنظیم این فراوانی‌ها، الگوی بهینه‌ی نرخ مواجهه‌ی سؤال را ایجاد می‌کند.