های انتقالی را امکان پذیر می سازد. این برنامه توسط فایل های متنی کنترل می شود، کاربر یک فایل ورودی ایجاد می کند که شامل دستورات برنامه است و با ارجاع دادن به آن فایل ورودی، منتظر می ماند تا برنامه خاتمه پیدا کند و خروجی برنامه را دریافت نماید.یعنی TDA مواردی از قبیل منوها، کلیدها، پنجره ها و … ارائه نمی کند.
یک فایل دستور TDA برای تجزیه و تحلیل داده های تاریخی- رخدادی شامل موارد زیر است:
1- ارجاع به یک فایل Data و تعریف متغیرها (فایل داده ها و متغیرها)؛
2- تعیین داده های اصلی تاریخی رویدادی (مثل زمان آغاز و پایان و وضعیت مبداء و مقصد)؛
3- تعریف نوع مدلی که باید برآورد شود و متغیرهایی که باید استفاده شود (تحلیل ناپارامتری یا نیمه پارامتری).
4-
3-4- توزیع های پارامتریک
توزیع های پارامتریک سعی می کنند تا خصوصیات ضروری یک توزیع طول عمر را با استفاده از یک یا دو پارامتر توضیح دهند.(یک پارامتر مکان و یک پارامتر مقیاس). پارامترهای مکان و مقیاس باید از داده هایی برآورد شوند که در مورد آنها فرض شکل تابعی پارامتریک صحیح است. این پارامترها توصیف کننده هازارد پایه ای هستند که باید اطلاعاتی در مورد وابستگی زمان و طول عمر داشته باشد. برخی از مدل های پارامتریک که در تجزیه و تحلیل تاریخچه ای – رخدادی استفاده می شود عبارتند از:

1- Log- Logistic Model
2- Log- Normal Model
3- Weibull Model
4- Gompertz-Makeham Model
5- …
3-5- روش های توصیفی ناپارامتریک
برای توصیف مجموعه داده از روش های توصیفی ناپارامتریک استفاده می شود. روش های ناپارامتریک شامل جدول عمر، برآورد حد محصول (کاپلان مایر)، روش حاصلضرب مخاطره نلسون- آلن می باشد. در این تحقیق از دو روش جدول عمر و برآورد کننده حد محصول ( معروف به کاپلان مایر) استفاده شده است. هر دو این روش ها برای نمایش گرافیکی تابع بقا و نرخ های انتقال مفید هستند. روش های ناپارامتریک هیچ شکل تابعی را برای تابع خطر فرض نمی کند. اساس این روش ها برآورد حاصل ضرب حدی توزیع بقاست که توسط کاپلان و مایر (1958) معرفی شده است. با توجه به اینکه در این تحقیق شرکت های تازه وارد مورد مطالعه قرار می گیرند رویکرد جدول عمر نیز مورد استفاده قرار می گیرد.
3-5-1- روش جدول عمر77
وقتی تعداد مشاهدات و موارد مورد بررسی زیاد باشد ممکن است بیش از یک رویداد در هر زمان رخ دهد. در این صورت روش کاپلان مایر جداول بسیار طولانی را موجب می شود که ارائه و تفسیر آن ها خیلی مطلوب نبوده و وقت گیر است. بنابراین روش دیگری به نام «جدول عمر» بکار گرفته می شود که درآن زمان وقوع رویدادها را به صورت بازه های زمانی تقسیم می کند. روش جدول عمر محاسبه برآوردهای ناپارامتریک تابع بقا، تابع چگالی و نرخ انتقال را برای طول عمرهای داده شده در مجموعه ای از اپیزودها امکان پذیر می سازد. برای این روش 2 مانع وجود دارد: اول اینکه،گروه بندی طول عمرها در فواصل ثابت ضروری است. دوم، کاربرد این روش تنها در مواردی محسوس خواهد بود که تعداد اپیزودهای نسبتاً زیادی وجود داشته باشد.
در روش جدول عمر در واقع  هر برش 42 ماهه است و نرم افزار شرکت هایی که از طول دوره ی عمر آن ها 42 ماه گذشته باشد را مورد بررسی قرار می دهد. برای مثال در دوره ی بررسی ما که 372 ماه است در ابتدا نرم افزار شرکت هایی را که در 42 ماهه ی اول وارد شدند (ماه 1 تا 42) را مورد بررسی قرار می دهد و سپس شرکت هایی که در 42 ماهه ی دوم وارد صنعت شدند و به همین ترتیب تا آخر ادامه می یابد و به این صورت شرکت های تازه وارد از میان شرکت های موجود مشخص می شوند و شکل پله ای نمودار هم به خاطر همین برش های 42 ماهه است.

تفاوت جدول عمر و کاپلان مایر:
1- در جدول عمر مشاهدات سانسور شده در بازه های زمانی نصف می گردد.
2- در روش کاپلان مایر بازه های زمانی به نقاط زمان وقوع رویداد تبدیل می شود. یعنی این زمان وقوع پیشامدهاست که بازه های زمانی را مشخص می کند ولی در جدول عمر تعیین بازه های زمانی توسط خود پژوهشگر صورت می گیرد.
3- وقتی تعداد افراد یا شرکت های تحت مطالعه کم باشد (معمولا کمتر از 30) استفاده از جدول طول عمر (به دلیل گروهبندی بازه های زمانی) منجر به از دست دادن اطلاعات خواهد شد.

3-5-2- روش برآورد کننده حد محصول
نخستین گام در تجزیه و تحلیل داده های بقاء ارائه عددی و نموداری آن هاست. مرسوم است که داده های بقاء را با تابع بقاء و نرخ هازارد خلاصه نمایند. بنابراین وقتی داده های بقاء از هیچ روش تئوری مشخصی پیروی نمی کند از روش های ناپارامتری برای تحلیل بقاء استفاده می کنیم. یکی از روش ها برای برآورد ناپارامتریک تابع بقا و مشتقات آن، روش حد محصول معروف به کاپلان- مایر است.
اگر برخی از شرکت ها در پایان دوره مطالعه هنوز زنده باشند (یعنی داده های سانسور شده) داشته باشیم از روش کاپلان مایر استفاده می کنیم. مزیتی که این روش در مقایسه با روش جدول عمر دارد این است که لازم نیست طول عمرها در فواصل زمانی گروه بندی شوند به همین دلیل این روش در مطالعاتی که روی تعداد کمی از شرکت ها باشد، مناسب است و برای نمونه های کوچک که زمان وقوع حوادث به دقت ثبت و اندازه گیری می شود بسیار مفید است. همچنین این روش تعداد محاسبات کمتری نسبت به جدول عمر دارد.
مبنای برآورد کننده حد محصول بر اساس محاسبه یک مجموعه ریسک در هر نقطه از زمان است که حداقل یک رویداد اتفاق افتاده باشد. بدین صورت اطلاعات موجود در مجموعه
ای از اپیزودها بصورت بهینه مورد استفاده قرار می گیرند. تنها عیب این روش از آنجا ناشی می شود که همه اپیزودها باید بر اساس زمان های پایان و آغازشان مرتب شوند ولی با الگوریتم کارآمد مرتب سازی، این روش برای مجموعه اپیزودهای کاملاً بزرگ هم قابل استفاده است.
3-5-2-1- انتقالات واحد78
ما نمونه ای شامل N اپیزود را در نظر می گیریم که همه آنها دارای وضعیت مبدأ ومقصد یکسانی بوده یا سانسور از راست هستند. اگر گروه ها تعریف شوند فرض می شود که همه اپیزودها به یک گروه تعلق دارند. در اینجا فرض می کنیم که همه اپیزودها دارای زمان آغاز صفر هستند.
برای محاسبه برآورد کننده حد محصول قدم اول در نظر گرفتن نقاطی در زمان است که حداقل یک اپیزود توسط یک رویداد خاتمه می یابد. مثلاً تعداد نقطه بدین صورت در زمان وجود دارد:

این مطلب رو هم توصیه می کنم بخونین:   منابع پایان نامه با موضوعیشرفت تحصیلی، پیشرفت تحصیلی، آموزش و پرورش، موفقیت تحصیلی

با این فرض برآورد کننده حد محصول تابع بقا، از نظر ریاضی به صورت زیر تعریف می شود:

پارامترهای آن به صورت زیر تعریف می شوند:
نشان دهنده تعداد اپیزودهایی است که در با رویداد مواجه می شوند.
تعداد اپیزودهای موجود در مجموعه ریسک در می باشد یعنی تعداد اپیزودهایی که دارای زمان آغاز کمتر از و زمان پایان بزرگتر مساوی هستند.
توجه داشته باشید که تعریف بیان شده درباره مجموعه ریسک، امکان اداره کردن اپیزودهایی با زمانهای آغاز بزرگتر از صفر را می دهد. همچنین در نظر داشته باشید که مجموعه ریسک در شامل اپیزودهای سانسور شده در این نقطه از زمان نیز می باشد. فرض می شود که اپیزودهای سانسور شده شامل اطلاعاتی هستند که تا زمان مشاهده رویدادی اتفاق نیفتاده است. (بلاسفیلد و واور79،2002)
فرمولی که معمولاً برای محاسبه برآورد خطای استاندارد تابع بقا استفاده می شود عبارت است از:

همچنین روش حد محصول، علاوه بر برآورد تابع بقا، یک برآورد ساده از نرخ انتقال تجمعی بصورت زیر ارائه می دهد که یک تابع مرحله ای است که برای بررسی گرافیکی مفروضات درباره توزیع طول عمرها مفید است:

3-6- مقایسه توابع بقا
در تجزیه وتحلیل داده های تاریخی- رویدادی، مقایسه توابع بقا و بررسی تفاوت معنی دار بین آنها انجام می شود. برای اینکار 2 روش وجود دارد. اول، محاسبه فاصله های اطمینان برای هر کدام از توابع بقا و سپس تست کردن اینکه آیا آنها هم پوشانی دارند یا نه. که این روش در هر دو روش جدول عمر و برآورد کننده حد محصول امکان پذیر است. هر دو روش، برآوردهای خطای استاندارد را برای توابع بقا محاسبه می کنند. روش دوم، محاسبه آماره های خاصی برای مقایسه 2 یا چند تابع بقا است(بلاسفیلد و واور،2002).
در این تحقیق نیز برای آزمون فرضیه های سوم تا ششم تحقیق، با تعریف متغیر های موهومی80 برای متغیر درجه نوآروی در صنعت، نرخ ورود به صنعت، شدت سرمایه و نرخ رشد صنعت مقایسه ای بین توابع بقای آنها صورت می گیرد.

3-6-1- روش اول: تعریف گروه های اپیزودها
برای انجام هر مقایسه ای، باید 2 یا چند گروه اپیزود وجود داشته باشد. این امر به آسانی با استفاده از متغیر شاخصی که مشخص کننده عضویت در یک گروه می باشد صورت می گیرد. در TDA دستور به صورت زیر است: grp=G1,G2,G3,…. که در آن G1 و G2 و….. اسامی متغیرهای موجود در ماتریس داده ها هستند. در نتیجه مجموعه اپیزودهای داده شده در ماتریس داده ها به m گروه تفکیک می شوند که m تعداد متغیرهای شاخص تعریف شده توسط پارامتر grp در دستور ple می باشد.
گروه اول که با G1 تعریف شده شامل همه اپیزودهایی است که در آنها مقدار این متغیر غیر صفر است، گروه دوم با استفاده از G2 به همین صورت تعریف می شود و… بنابر این برای هر کدام از گروه ها، یک برآورد حد محصول بطور جداگانه انجام می شود. و فایل خروجی دارای m جدول، هر کدام برای هر یک از گروه ها خواهد بود.( بلاسفیلد و واور،2002)

3-6-2- روش دوم: تشکیل آماره های آزمون
آماره های آزمون متفاوتی برای مقایسه 2 یا چند تابع بقا وجود دارد. 4 مورد از آماره هایی را که توسط TDA قابل محاسبه هستند عبارتند از:
1-
2-
3-
4-
همه این آماره ها بر اساس برآوردهای حد محصول توابع بقا هستند. چگونگی محاسبه این آماره ها در زیر توضیح داده می شود.
فرض می کنیم که m گروه جدا از هم وجود دارد. کل نمونه به صورت مجموعه ای از کل اپیزودها تعریف می شود که هر کدام از این اپیزودها در یکی از این گروه ها قرار می گیرند. سپس به روشی کاملاً شبیه آنچه در روش حد محصول توضیح داده شد، همه محاسبات بطور مجزا برای هر انتقال در کل نمونه انجام می شود. بنابراین ما فقط نمونه ای از اپیزودها را در نظر می گیریم که دارای وضعیت مبدأ و مقصد یکسان بوده یا منقطع(سانسور شده) باشند.
بطور کلی نمونه ای که بدین صورت تعریف شده شامل m گروه بوده و جدول زیر قابل محاسبه خواهد بود.

اینها مقادیر اصلی برآورد حد محصول برای کل نمونه می باشد که برای هر گروه بطور جداگانه محاسبه می شود.
نقاطی در زمان هستند که حداقل برای یکی از اپیزودهای موجود در نمونه رویدادی اتفاق افتاده باشد. تعداد اپیزوهای موجود در گروه است که در رویدادی برای آنها اتفاق افتاده است. تعداد عناصر مجموعه ریسک در برای اپیزودهای موجود در گروه می باشد.(یعنی همه گروه های متعلق به گروه که زمان آغاز کمتر از و زمان پایان بزرگتر یا مساوی دارند) روی هم رفته، این مقادیر برای یک برآورد حد محصول در هر یک از m گروه کافی است.
با این فرض، 4 آماره آزمون را می توان تعریف کرد
و آنها بر دلالت می کنند. از آنجایی که محاسبات فقط در وزن های مختلف باهم فرق می کنند، ما ابتدا تعاریف آنها را بیان می کنیم. وزن ها شامل بوده و برای به صورت زیر تعریف می شوند:

قدم بعدی این است که برای هر یک از 4 آماره آزمون یک بردار m (m-vector)، و یک ماتریس (m,m)، بسازیم. تعاریف آنها به صورت زیر است:

و در نهایت آماره آزمون بصورت زیر تعریف می شود:

همه آنها از یک توزیع کای دو با درجه آزادی پیروی می کنند با این فرض صفر که تفاوت معنی داری بین توابع بقا وجود ندارد. توجه داشته باشید که به همین قرار، رتبه فقط است. بنابراین در محاسبه رابطه می توان از یک معکوس کلی استفاده کرد یا بُعد آخر را حذف کرد بدون اینکه عمومیت آن از بین برود.( بلاسفیلد و واور،2002)

3-7- مدل های نیمه پارامتریک
مدل های با

دسته‌ها: پایان نامه ها

دیدگاهتان را بنویسید