پایایی(reliability)، قسمت سوم: نگاهی دوباره به مفهومی قدیمی

***

توجه: چند مطلب آینده در مورد مفهوم «پایایی» یا reliability است. این مطلب مورد علاقه کسانی است که در زمینه پژوهش های مرتبط به آموزش و نظرسنجی فعالیت میکنند و یا دستی در ساختن ابزارهای تشخیص و سنجش دارند. اگر به این موضوعات علاقه ای ندارید احتمالن حوصله تان سر میرود!

اگر این مقالات رو مفید یافتید و احیانن خواستید در مقاله ای جایی از محتواش استفاده بکنید لطفن لطفن به این وبلاگ رفرنس بدید. در غیر این صورت دزدی علمی محسوب میشود!

***

قسمت اول را اینجا و قسمت دوم را اینجا بخوانید.

***

پایایی و سوء برداشت از مفهوم آن:

هرچند مفهوم پایایی نزدیک هفتاد سال است که به اشکال مختلف در پژوهشهای بهداشتی، آموزشی و پیمایشی به کار رفته، در موارد متعددی در معانی‌ غیردقیق و نامشخص استفاده شده است. در ادامه سعی می‌کنم به چند سوء برداشت مهم در این زمینه که گریبانگیر پژوهشهای بهداشتی است نگاهی دوباره بیاندازم.

سوءبرداشت اول: پایایی صفت مشخصه یک ابزار یا سنجه است.

تصور رایج این است که روایی و پایایی صفات مشخصه و ثابت ابزارها هستند.  چه بسیار مواردی که پژوهشگران ابزاری با پایایی بالا می‌یابند و چشم‌بسته در مطالعه خود به‌کار میگیرند، در حالیکه نه روایی و نه پایایی در عمل ثوابتی غیر قابل تغییر نیستند، بلکه نتیجه تعامل ابزار با جامعه‌ای هستند که ابزار مورد مطالعه در آن به‌کار گرفته شده است. نگاهی مجدد به فرمول ICC نشان میدهد که یک جزء غیرقابل حذف فرمول، واریانس واقعی میان افراد در جامعه است که مفهومی مستقل از خود ابزار مورد مطالعه است. در شرایط مشابه، هرچه این واریانس تفاوتهای بین فردی افزایش یابد پایایی نمرات ابزار هم افزایش می‌یابد. به این مثال ساده توجه کنید: شما می‌توانید برای یک ترازوی حمام که به طور متوسط ۲۰۰ گرم خطای نمایش دارد پایایی حساب کنید. کافی است که خودتان و چند نفر از افراد خانواده به طور مکرر بر روی آن بایستید و نتایج را ثبت کنید. اما بیان اینکه پایایی حاصل از روش بالا صفت ترازوی فوق‌الذکر است بی‌معنی است! چراکه هرچند ممکن است ترازوی مذکور برای سنجش وزن افراد بالغ پایایی بالایی داشته باشد اما اگر همان ترازو را برای سنجش وزن نوزاد به‌کار ببرید شرایط کاملا متفاوت خواهد شد. ۲۰۰ گرم خطای قابل چشم‌پوشی ترازو در این حال خطایی فاحش و غیرقابل اغماض خواهد بود و در نتیجه پایایی نتایج وزن‌کشی دیگر بالا نخواهد بود. در نتیجه بین دو جمله «پایایی ترازوی حمام مقدار x است» و «پایایی نتایج وزن‌کشی با ترازوی حمام در بزرگسالان مقدار x است» جمله دوم معنادارتر وقابل قبول‌تر است. لذا تاکید مجدد ضروری است که مفهومی به نام پایایی ابزار یا تست وجود ندارد، بلکه آنچه محاسبه می‌شود پایایی نتایج به ‌کارگیری ابزار در جامعه مشخص است (۵).

سوءبرداشت دوم: پایایی (reliability) و توافق (agreement) هم‌معنی هستند.

تعریفی که در ابتدای مقاله از پایایی ارائه شد، یعنی احتمال دستیابی به نتایج مشابه در صورت بکار‌گیری ابزار در شرایط مشابه، مفهوم پایایی را با توافق هم‌معنی در نظر می‌گیرد. اما دو مفهوم پایایی و توافق اگرچه در بسیاری از موارد همپوشانی و نزدیکی دارند، لزوما مفاهیمی مشابه نیستند.  شاید این سوءبرداشت نتیجه نگاه تجربه-محور به مفهوم پایایی باشد، که ابزاری پایایی بالا دارد که در دفعات تکرار سنجش، و یا به‌کارگیری توسط افراد مختلف نتایجی مشابه ارائه دهد. برای مثال: فرض کنید در سناریوی OSCE که بالاتر مطرح شد، سه مشاهده‌گر در کمال خوشبینی به این نتیجه برسند که همه دانشجویان بسیار خوب از مهارت شرح‌حال‌گیری استفاده می‌کنند و به همه نمره کامل بدهند. در این حالت توافق طبیعتا ۱۰۰٪ است، اما در کمال تعجب نگاه مجدد به فرمول ICC نشان می‌دهد که صورت کسر یا  subjects.σ2 مساوی صفر و در نتیجه عدد پایایی نیز صفر خواهد شد! در نتیجه میتوان حالتی را تصور کرد که در عین توافق ۱۰۰٪ پایایی نتایج ابزار در جامعه مورد بررسی صفر باشد. هرچند درک این مفهوم از نگاه تجربه-محور بسیار سخت است، ولی با رویکرد همبستگی-محور به مفهوم تفاوتهای فردی سازگار است. پایایی درصدی از تغییرات مشاهده شده در جامعه است که از تفاوتهای واقعی (true scores) منشاء می‌گیرد. وقتی در جامعه تغییری مشاهده نشود طبیعتا پایایی هم صفر خواهد شد. تاکید مجدد این تعریف بر مقوله تفاوتهای بین فردی در سنجش پایایی است. همانطور که تاکنون دیدید، پایایی مفاهیم همخوانی و توافق را دربرمی‌گیرد، ولی لزوما محدود و هم‌معنی با این مفاهیم نیست.

سوء برداشت سوم: ابزار مورد مطالعه روایی بالا(validity) و در عین حال پایایی پایینی دارد.

از نظر بسیاری از پژوهشگران دو مفهوم روایی و پایایی دو صفت مستقل و نامرتبط تستها هستند. جداگانه محاسبه شده و جداگانه گزارش می‌شوند.  لزوما اینگونه نیست! بیایید به مفهوم روایی هم با رویکرد جدید و با استفاده از تحلیل واریانسها نگاهی دوباره کنیم: دیدیم که برای محاسبه روایی، واریانس مشاهده شده در جامعه را به دو بخش اصلی واریانس تفاوتهای واقعی بین فردی subjects.σ2 و واریانس تفاوتهای تصادفی error.σ2 تقسیم می‌کنیم. در این نگاه به مفهوم واریانس فرض بر آن است که ابزار مورد مطالعه به درستی مفهوم موردنظر را می‌سنجد؛ مثلا سنجه‌ای که مشاهده‌گران برای نمره‌دهی به مهارت شرح‌حال‌گیری دانشجویان استفاده می‌کنند، تنها سازه انتزاعی (construct) مهارت شرح‌حال‌گیری را می سنجد.  این پیش‌فرض همیشه درست نیست. ابزار فوق‌الذکر ممکن است علاوه بر مهارت شرح‌حال‌گیری مهارت برقراری ارتباط (communication skill) را نیز بسنجد، و دانشجویی ممکن است صرفا به علت مهارت خود در برقراری ارتباط با بیمار، و نه مهارت در اخذ شرح حال بالینی، نمره بالایی بگیرد. مفهوم روایی در واقع آن واریانس تفاوتهای واقعی بین فردی یا subjects.σ2 را کالبد شکافی کرده و آن را به دو بخش واریانس مرتبط با مفهوم مورد نظر (construct of interest/CI) و واریانس مرتبط با سوگیری ابزار (systematic error/SE) تقسیم میکند. در واقع آنچه که ما در سنجش پایایی واریانس واقعی می‌پنداشتیم حاصل جمع این دو واریانس است.در نتیجه فرمول پایایی را با نگاهی به مفهوم روایی بازنویسی می‌کنیم:

فرمول شماره ۴:

Reliability=

 نتیجه آن که روایی درصدی از تفاوتهای کلی مشاهده‌شده در جامعه است که تنها به مفهوم انتزاعی مورد نظر ما مرتبط است، نه خطای تصادفی و سوگیری ابزار. در نتیجه فرمول شماتیک روایی اینگونه خواهد بود (۳):

فرمول شماره ۵:

Validity=

همانطور که در مقایسه دو فرمول شماره ۴ و ۵  می‌بینید از لحاظ تئوریک مفهوم روایی همیشه کوچکتر یا مساوی مفهوم پایایی است، و در واقع پایایی حد فوقانی روایی را مشخص می‌کند.

سوء برداشت چهارم: برای تعیین پایایی یک ابزار سنجش کیفیت ارائه خدمات درمانی، کافی است تعدادی بیمار مراجعه کننده به یک کلینیک پرسشنامه مذکور را در فاصله زمانی مشخص دو بار پر کنند.

در تعریف پایایی بارها بر اهمیت تفاوتها و واریانس بین فردی تاکید کردیم. در مثال بالا با ابزار کیفیت‌سنجی مواجه هستیم. اگر هدف این ابزار افتراق دادن میان مرکز ارائه دهنده خدمات خوب و بد باشد، واریانس بین فردی برخلاف آنچه در ابتدا به نظر می‌رسد تفاوت واقعی نمره کیفیت در بیماران مختلف نیست. بلکه تفاوت واقعی کیفیت خدمات در مراکز مختلف است. بیماران در این مثال همان نقشی را بر عهده دارند که مشاهده‌گران در مثال اول داشتند. برای سنجش پایایی نمرات ابزار کیفیت‌سنجی حتما به بیش از یک مرکزدرمانی نیاز داریم، ولی آنچه از مطالعه فوق‌الذکر به دست می‌آید پایایی نمرات ابزاری است که برای افتراق دادن بین بیماران راضی و ناراضی از کیفیت خدمات طراحی شده باشد. باز هم تاکید بر اهمیت واریانس بین‌فردی است، و مفهومی که ما از عبارت «بین فردی» انتظار داریم بر اساس هدف مطالعه و طراحی ابزار تعیین می‌شود.

ادامه در مطلب بعدی…

پاسخی بگذارید

در پایین مشخصات خود را پر کنید یا برای ورود روی شمایل‌ها کلیک نمایید:

نشان‌وارهٔ وردپرس.کام

شما در حال بیان دیدگاه با حساب کاربری WordPress.com خود هستید. بیرون رفتن / تغییر دادن )

تصویر توییتر

شما در حال بیان دیدگاه با حساب کاربری Twitter خود هستید. بیرون رفتن / تغییر دادن )

عکس فیسبوک

شما در حال بیان دیدگاه با حساب کاربری Facebook خود هستید. بیرون رفتن / تغییر دادن )

عکس گوگل+

شما در حال بیان دیدگاه با حساب کاربری Google+ خود هستید. بیرون رفتن / تغییر دادن )

درحال اتصال به %s


%d وب‌نوشت‌نویس این را دوست دارند: