داده های گمشده در نرم افزار R

در R، داده های گمشده  با NA ( اختصار عبارت not available) و  مقادیر غیر ممکن (مانند تقسیم بر صفر) با نماد NaN ( اختصار عبارت not a number) نمایش داده می شوند. بر خلاف SAS، نرم افزار R  از نماد یکسان برای دادهای عددی و حرفی استفاده می کند.

آزمون برای مقادیر گمشده:
is.na(x) # returns TRUE of x is missing
y <- c(1,2,3,NA)
is.na(y) # returns a vector (F F F T)
لازم به ذکر است توابع مشابه دیگری مانند is.nan وجود دارند که جنبه های دیگری را آزمون می نمایند.

کدبندی مقادیر برای داده های گمشده:
در دستور زیر مقدار 99 به عنوان داده ی گمشده معرفی می شود:
# recode 99 to missing for variable v1
# select rows where v1 is 99 and recode column v1 
mydata[mydata$v1==99,"v1"] <- NA

حذف  دادههای گمشده از تحلیل:
توابع حسابی بر روی داده های گمشده،  مقادیر گمشده را نتیجه می دهتد به عنوان  مثال در مورد تابع میانگین داریم:

x <- c(1,2,NA,3)
mean(x) # returns NA
mean(x, na.rm=TRUE) # returns 2
نتیجه تابع ()complete.cases یک بردار منطقی می باشد که مشخص می کنید کدوم آزمودنی کامل (مخالف گمشده) می باشد، 

# list rows of data that have missing values 
mydata[!complete.cases(mydata),]

تابع  ()na.omit شی ای را بر می گرداند که مقادیر گمشده آن به صورت کلی (likewise) حذف می گردد. (توجه شود که نوع دیگری از حذف داده های گمشده به صورت جفتی (pairwise)   که در نرم افزار SPSS نیز موجود می باشد)
# create new dataset without missing data 
newdata <- na.omit(mydata)

مدیریت پیشرفته داده های گمشده
اغلب تابع های مدلبندی در R گزینه هایی را برای رفتار با مقادیر گمشده پیشنهاد می کنند. شما  می توانید ورای حذف کلی یا جفتی مقادیر گمشده از طریق روش هایی از قبیل انتساب چندگانه (multiple imputation) حرکت کنید. لارم به ذکر است که در R، پیاده سازی های خوب را می توان از طریق بسته هایی همچون mitools یا Amelia II انجام داد.


تفاوت بین تحلیل مولفه های اصلی (PCA) و تحلیل عاملی (FA)

شاید شنیده یا خوانده  باشیم  که   ماهیت این دو روش یکسان است و این موضوع را می توان از استفاده آنها نیز نتیجه گرفت چنانکه برای بدست آوردن عاملها در عاملی FA  یکی از روشها تحلیل مؤلفه های اصلی(مثلا در نرم افزار SPSS ) می باشد.

با این حال این دو تکنیک معمولا برای تحلیل گروههایی از متغیرهای همبسته مربوط به حوزه یا حوزه های مشترک استفاده می شوند برای مثال شاخصی های وضعیت اقتصادی اجتماعی، رضایت شغلی، سلامتی،  خود بینی، نگرش های سیاسی یا ارزشهای خانواده.

PCA برای یافتن روش هایی از ترکیب متغیرها در یک تعداد کوچک از زیر مجموعه ها استفاده می شود در حالیکه تحلیل عاملی ممکن است برای تعیین ساختار اصلی چنین متغیرهایی و تخمین امتیاز برای اندازه گیری عاملهای پنهان آنها استفاده میشود.کاربردهای اصلی این روشها در تحلیل .....

لطفا در قسمت نظرات همین مطلب ادامه بحث را بر اساس تجربیات و دانسته های خود وارد کنید!!