منو
 کاربر Online
953 کاربر online
 : کامپیوتر
برای پاسخ دادن به این ارسال باید از صفحه قبلی اقدام کنید.   کاربر offline دبیر گروه کامپیوتر 3 ستاره ها ارسال ها: 1679   در :  پنج شنبه 30 آبان 1392 [19:20 ]
  مروری بر مفاهیم و الگوریتمهای داده کاوی
 

ا گسترش روز افزون استفاده از بانکهای اطلاعاتی رابطه ای و انبارهای داده جهت نگهداری اطلاعات شرکتها و سازمانها، همچنین اهمیت انکارناپذیر استفاده از رخدادها و اطلاعات گذشته جهت تصمیم گیری های آینده، نیاز به استفاده از روشهایی علمی جهت تحلیل اطلاعات موجود و دریافت نتایج مورد نظر بیش از گذشته مورد توجه قرار گرفته است. با توسعه ی کاربردی علم آمار، مفاهیم بنیادی داده کاوی مطرح شده و تحقیقات در این زمینه آغاز شد. نتایج حاصله عبارتند از روشها و الگوریتمهای متفاوت مطرح شده در این زمینه.

آنچه پیش روی شما قرار گرفته، مروری است بر مفاهیم و الگوریتمهای داده کاوی، که در 10 بخش ارائه میشود.
این بخشها عبارتند از: مقدمه، تعریف، زیر بنای داده کاوی، تکنولوژی های مرتبط با داده کاوی، داده كاوي و مفهوم اكتشاف علوم، بررسی اینکه چه نوع داده‌هايي ميتوانند مورد كاوش قرار گيرند، بررسی اطلاعات مناسب برای داده کاوی، نگاهی مختصر به الگوریتمهای داده کاوی و نهایتا با معرفی کاربرد علم آمار و روشهای آماری در داده کاوی و نتیجه گیری کلی مطلب خاتمه می یابد.

تعریف داده کاوی:

عبارت داده کاوي مترادف با يکي از عبارت هاي استخراج دانش، برداشت اطلاعات، وارسي داده ها و حتي لايروبي کردن داده هاست که در حقيقت کشف دانش در پايگاه داده ها (KDD ) را توصيف مي کند. بنابراين ايده اي که مبناي داده کاوي است يک فرآيند با اهميت از شناخت الگوهاي بالقوه مفيد، تازه و در نهايت قابل درک در داده هاست. واژه کشف دانش در پايگاه داده ها در اوايل دهه 80 در مراجعه به مفهوم کلي، گسترده، سطح بالا و به دنبال جستجوي دانش در اطلاعات شکل گرفته است. داده كاوي كاربرد سطح بالاي فنون و ابزار بكار برده شده براي معرفي و تحليل داده ها ي تصميم گيرندگان است. اصطلاح داده کاوي را آمار شناسان، تحليل گران داده ها و انجمن سيستم هاي اطلاعات مديريت به کار برده اند، در حالي که پژوهشگران يادگيري ماشين و هوش مصنوعي از KDD (اکتشاف علوم) بيشتر استفاده مي کنند. برنامه هاي كاربردي داده کاوی مي توانند ازپارامتر‌هاي متنوعي براي رسيدگي به داده ها استفاده كنند. برخي از اين پارامتر ها براي رسيدگي به داده ها بشرح زير مي باشند:

· تركيبيات: نمونه هايي كه در آنها يك رويداد به رويداد ديگري وابسته است، همچون خريد يك خودكار و خريد كاغذ.

· تحليل ترتيب يا روش: نمونه هايي كه در آنها انجام يك رويداد منجر به رويداد ديگري ميشود، همچون تولد يك نوزاد و خريد مايحتاج مورد نياز او.

· طبقه بندي: شناسايي نمونه هاي جديد، مثل تطابق بين لوله هاي خريداري شده و درپوش هاي پلاستيكي آنها.

· دسته بندي: يافتن و مستند سازي بصري گروههايي از حقايق ناشناخته ي قبلي، مثل موقعيت جغرافيايي و نشان هاي تبليغاتي.

· پيش بيني: كشف و يافتن نمونه هايي كه بتوان از آنها پيش‌بيني هاي منطقي بعمل آورد، مثلا افرادي كه در يك كلوپ ورزشي سرمايه گذاري مي كنند ممكن است در كلاسها و برنامه هاي ورزشي شركت كنند.

برنامه هاي كاربردي داده کاوی در مقايسه با ساير برنامه هاي كاربردي تحليل داده همچون Structured Query كه در اكثر بانكهاي اطلاعاتي تجاري بكار ميرود، يا نسبت به نرم افزارهاي آماري، تفاوتهاي قابل ملاحظه اي دارد. در دسترسي بر پايه ي اثبات، جايي كه كاربر يك فرضيه را بسط ميدهد و سپس داده ها را از جهت پوشش يا عدم پوشش فرضيه مورد آزمون قرار مي دهد، ابزارهاي تحليلي بسيار ساده تري مورد استفاده قرار مي گيرند; مثلا كاربر ممكن است فرض كند مشتري خريدار يك چكش، ممكن است نيازمند يك جعبه ابزار صنعتي نيز باشد. تاثير اين رويكرد ميتواند با خلاقيت كاربر در توسعه ي فرضيات مختلف، محدود شود. در واقع داده کاوی يك رويكرد اكتشافي بكار مي‌برد كه در آن مي توان از الگوريتمها براي بررسي و تجزيه‌‌ي چندين رابطه ي داده اي چند بعدي، بصورت همزمان و با شناسايي موارد منحصر بفرد، استفاده كرد. براي مثال يك فروشگاه قطعات سخت افزاري ممكن است قدرت خريد مشتريان خود را با ابزارهايي از قبيل مالكيت خانه، نوع اتومبيلي كه سوار مي شوند، سن، حرفه، درآمد و يا فاصله ي محل اقامت تا فروشگاه بسنجد. نتيجتا دو مهم در اعمال داده کاوی موفق دخيل هستند:



· فرمولاسيون واضح و مشخص براي حل مساله.

· دسترسي به داده هاي مناسب و درست.



در بازتاب مفهوم سازي عمومي داده کاوی ، برخي مشاهدات انجام شده، داده کاوی را بعنوان تنها يك مرحله از يك پردازش وسيعتر با نام اكتشافات علوم در پايگاه هاي داده اي شناخته شده، مورد توجه قرار مي دهند.


زيربناي داده كاوي:

تكنيكهاي داده کاوی نتيجه ي تحقيقات گسترده و بلند مدتي است كه در طول سالها براي افزايش بازدهي تجاري موسسات بكار برده مي‌شدند. تحقيقات در اين زمينه از زماني آغاز شد كه براي نخستين بار اطلاعات تجاري هر سازمان، بر روی سيستمهاي ذخيره سازي آن زمان كه از نوع مغناطيسي بودند، ذخيره شدند. اين رشته تحقيقات با توسعه و پيشرفت سيستمهاي اطلاعات كه قابليت ذخيره ي حجم بيشتري از داده ها را فراهم مي‌كردند و همچنين از سرعت بسيار بالاتري در ذخيره سازي و بازيابي اطلاعات برخوردار بودند، اهميت بيشتري يافت. روشهاي دسترسي تصادفي يا رندم به اطلاعات و پيدايش روشهاي حركت يا navigation‌ در ميان داده ها، خصوصا بصورت بلادرنگ، فناوري داده کاوی را متحول ساخت.

روشهاي داده کاوی بر پايه هاي زير استوار هستند:



1- گردآوري حجم عظيمي داده.

2- كامپيوترهاي چند پردازنده ي قدرتمند.

3- الگوريتمهاي داده كاوي.



در سالهاي 1960 صنعت گرداوري اطلاعات و امكان ذخيره ي داده ها در تجهيزاتي نظير نوار و ديسك توسط شركتهايي كه IBM و CDC از پيشگامان آنها بودند، شكل تجاري به خود گرفت. با رواج چنين مكانيسمهايي تبادل استاتيك اطلاعات امكانپذير شده، پرسشهاي تجاري از قبيل آنكه ”سود خالص شركت در پنج سال آخر فعاليت چقدر بوده است؟ ” پاسخ داده ميشود. 20 سال بعد از فناوري فوق، با پيشرفتهاي نرم افزاري و استفاده از بانكهاي اطلاعاتي رابطه اي (RBDMS) و زبان جستجوي ساخت يافته (SQL) توسط شركتهاي موفقي همچون MICROSOFT, IBM, INFORMIX, SYBASE, ORACLE ، ... اطلاعات در همان لحظه ي ثبت شدن قابل تبادل بودند. بعبارت ديگر تبادل اطلاعات بصورت ديناميك امكانپذير شده بود. نمونه اي از سوالات تجاري كه اين سيستم پاسخگوي آن است چنين بود: ”مقدار فروش شعب ]كشور يا شهر مورد نظر[ در ماه مارس گذشته چه ميزان بوده است؟”. در سالهاي دهه ي نود نوبت به تكنولوژي هایي همچون DATAWARE HOUSING و امكانات تصميم گيري نرم افزاري رسيد.

تكنولوژي ها ي مرتبط با داده کاوی :

1- پردازش تحلیل روی خط - (ONLINE ANALITICAL PROCESS) OLAP

2- بانكهاي اطلاعاتي چند بعدي(MULTIDIMENSIONAL DATABASES)

3- انبار داده ها - DATAWARE HOUSING



پيشگامان ابزارهاي نرم افزاري چنين تكنولوژيهايي شركتهايي نظيرPilot, Comshare, Arbor, Cognos, Microstrategy بودند. البته بلافاصله در همان زمان شركتهايي نظير ORACLE, IBM, MICROSOFT، كه امروزه نام آنها را در همه جا مشاهده مي كنيم نيز كنترل جريان را بدست گرفته و نرم افزارهاي آنها بازار را تسخير كرد. هسته ي فناوري داده كاوي شامل علوم آمار، هوش مصنوعي، آموزش ماشين و علوم نوين ديگري است كه در طول سالهاي گذشته پيشرفت قابل توجهي داشته است.

  امتیاز: 0.00