داده کاوی

داده کاوی فرآیندِ تبدیلِ یک سری داده، به یک سری دانش، توسط فرآیندهای مختلف است. داده کاوی یعنی استخراج اطلاعات گرانبها از حجم عظیم معادن داده!  کلمه  کاویدن معدن داده  به معنای data mining مانند استخراج حجم انبوه اطلاعات است از یک معدن . و از ظاهر آن مشخص نیست چه عناصر گرانبهایی در عمق این معدن وجود دارد. تنها با کند و کاو و استخراج این معدن است که می توان به آن عناصر گرانبها دست پیدا کرد.وظیفه ی داده کاوی، کاویدن و استخراج دانش از منابع عظیم داده است تا اطلاعات گرانبهایی که در حجم انبوهی از اطلاعات سطحی پنهان شده است را آشکار سازد. به کمک داه کاوی امکان اخذ تصمیمات واقع بینیانه و راهکارهای موثر برای حل مسائل فراهم میشود. در فرایند داده‌کاوی، اطلاعات با ارزش از حجم انبوهی از داده‌‌های به ظاهر نامرتبط استخراج می‌شود.

فرایند حل مسئله با کمک داده کاوی در شش مرحله و در تعامل با کارفرما صورت می گیرد.

گام اول: درک کسب و کار

کارفرما مشکلی در کسب و کار خود دارد. مشکل خود را با متخصص داده کاوی مطرح می کند. این گام اول است. در حالت دیگر، کارفرما نمی تواند مشکلات کسب و کار خود را تشخیص دهد اما می داند سیستم کسب و کار وی دارای نقصان است. در این حالت طرح مسئله را نیز بر عهده ی متخصص داده کاوی می گذارد. در فرآیند آموزش مربی در میابد که سیستم یادگیری دانش آموز با رعایت استانداردهای آموزشی مربی دارای اشکال است و دانش آموز با وجود آموزش درست و فراگیری مطالب در کلاس قادر به حل سوالات خود در منزل ، به تنهایی و در جلسه امتحان نیست. مشکلی در انتقال مطالب فراگرفته شده وجود دارد.

گام دوم: بررسی و درک داده ها

متخصص داده کاوی، داده های ثبت شده در کسب و کار کارفرما را از وی درخواست می کند و به بررسی داده ها می پردازد. متخصص داده کاوی با توجه به حجم و کیفیت داده ها مسئله ی طرح شده در مرحله ی قبل را متعادل  می کند تا نتیجه ی پروسه ی داده کاوی واقع بینانه تر بشود.

گام سوم: آماده سازی داده ها

در مرحله ی سوم عملیات آماده سازی داده ها توسط متخصص داده کاوی صورت می گیرد. آماده سازی داده ها شامل این موارد می شود:

  • یکی کردن مخازن متفاوت داده در آموزش به فراگیران و یادگیری دانش پژوهان
  • شناسایی و حذف داده های پرت و اشتباه
  • تغییر فرمت داده ها متناسب با مسئله ی بررسی شده در مرحله ی دوم

گام چهارم: مدل سازی

بامتدهای متفاوت،با داده های آماده سازی مرحله سوم  مدل های متفاوتی ساخته می شود و بهترین مدل ها از نظر متخصص داده کاوی انتخاب می شود. مدلهای آموزشی استاندارد با در نظرگرفتن مواتع یادگیری مدلهای متفاوت را در داده کاوی بادگبری ارائه میدهد..

گام پنجم: تست و ارزیابی مدل

مدل های ساخته شده تست و ارزیابی می شوند و بهترین مدل از نظر مسئله ی طرح شده در مرحله ی یک، انتخاب می شود. سپس در تبادل نظر با کارفرما (مربی آموزشی )،  موثر بودن مدل انتخاب شده بررسی می شود. در صورتی که مدل انتخاب شده کمکی در حل مسئله نمی کند کل فرایند از مرحله ی یک دوباره انجام می شود.

گام ششم: توسعه مدل نهایی

در صورتی که ارزیابی ها رضایت بخش باشند راه حل هایی در قالب توسعه ی مدل نهایی ارائه می شوند که مشکلات مطرح شده در مرحله ی یک را برطرف می کنند. مدل نهایی به متخصص داده کاوی نشان می دهد که رفتار مجموعه ی کسب و کار کارفرما و رفتار مجموعه مربی آموزشی و فراگیر  در مورد مشکلات مطرح شده در مرحله ی یک چگونه است.

این درک از رفتار کسب و کار آموزشی ، در قالب راه حل های عددی و چند فرمول یا راهکار عملی در اختیار کارفرما قرار می گیرد تا مشکلات مطرح شده در مرحله ی یک رفع گردد. همچنین متخصص داده کاوی می تواند در قالب گزارشات مستند مکانیزم رفتاری کسب و کار کارفرما را برای وی تشریح کند.

برای سادگی تعامل کارفرما با مدل نهایی، یک نرم افزار رایانه ای نوشته می شود که کار شبیه سازی رفتار کسب و کار کارفرما را برعهده دارد. بطوریکه کارفرما می تواند با وارد کردن برخی پارامترهای کنونی از کسب و کار خود، رفتار کارخانه و یا سودآوری کسب و کار خود را در آینده پیش بینی کند.

 

،صنایعی چون بانکداری و بیمه ، بهداشت وبازاریابی آن را عموماً برای کاهش هزینه‌ها، ارتقاء کیفی پژوهش‌ها و بالاتر میزان  فرو به کار می‌برند. کاربرد اصلی داده کاوی در بخش دولتی به عنوان ابزاری برای تشخیص جرایم بوده‌است اما امروزه دامنه بهره‌برداری از آن گسترش روزافزونی یافته و سنجش بهینه سازی  برنامه‌ها ی آموزشی را نیز در بر می‌گیرد. بررسی برخی از برنامه‌های کاربردی مربوط به داده کاوی که برای تأمین امنیت ملی به کار می‌روند، نشان دهنده رشد قابل ملاحظه‌ای در رابطه با کمیت و دامنه داده‌هایی است که باید تجزیه و تحلیل شوند.

تفاوت داده (Data) و اطلاعات (Information) چیست؟

داده (Data) که بعضا از آن با عنوان داده‌ی خام نیز یاد می‌شود، گونه‌ای از اطلاعات به صورت خام و دست نخورده است که میتواند بسیار درهم و حتی به صورت عادی غیر قابل استفاده باشد، مجموعه‌ای از اعداد و ارقام درهم و شاید بدون معنای خاص می‌توانند به عنوان داده در نظر گرفته شوند، اما نتایج حاصل از پردازش و تجزیه و تحلیل این داده‌ها به عنوان اطلاعات تلقی می‌شوند، حتما متوجه شده‌اید که اطلاعات نیز می‌توانند مجددا به عنوان داده‌ی ورودی سیستم مورد استفاده قرار گیرند.

بنابراین با توجه به توضیحات بالا در حالت کلی اطلاعات و ورودی‌های خام را داده (Data)و نتایج حاصل از پردازش داده‌های خام را اطلاعات مینامند (Information) .به عنوان مثال نمرات دانشجویان یک کلاس، داده و نتایج حاصل از پردازش روی این نمرات، شامل میانگین، میزان افزایش یا کاهش نمرات، نمودارها و… می‌توانند به عنوان اطلاعات در نظر گرفته شوند.

.مثال کاربرد داده کاوی

اینستاگرام به واسطه‌ی تاریخچه‌ی جستجوی‌های شما می‌تواند به سایت‌هایی که معمولا به آن‌ها سر می‌زنید دسترسی داشته باشد، بدین ترتیب پس از گذشت مدت زمانی به علایق شما پی خواهد برد، این‌ موارد داده‌های خام و به ظاهر نامرتبطی.اما اینستاگرام و، با کمک الگوریتم‌های پیشرفته‌ی داده‌کاوی خود می‌تواند اطلاعات بسیار با ارزشی را از انبوه داده‌هایی که شاید از نظر ما چندان مفید و کاربری نباشند در اختیارکاربران قرار میدهد..

بدین ترتیب به راحتی به علایق شما پی برده میشود  و از این اطلاعات در شخصی‌سازی تبلیغات نمایش داده‌شده به شما استفاده میگردد، این کار اینکه می‌تواند شما را به مشاهده‌ی ادامه‌ی تبلیغات ترغیب کند،.

از جمله کاربردهای دیگر داده‌کاوی عبارتند از:

  • کشف الگوی میان داده‌ها
  • پیش‌بینی حدودی نتایج
  • به‌دست آوردن اطلاعات کاربردی
  • تمرکز بر روی داده‌های بزرگ

به‌طور کلی فرایند داده‌کاوی علاوه‌ براینکه به ما کمک می‌کند داده‌های نامرتبط و بلااستفاده را از مجموعه‌ی خود حذف کنیم، از طرفی اطلاعات بسیار مفید و کاربردی را در اختیار ما (سازمان) قرار می‌دهد و همچنین به فرایندهای تصمیم‌گیری سرعت می‌بخشد

 

فرض کنید شما مدیرِ یک بانک هستید. و میخواهید از بینِ ۱۰۰۰۰۰مشتری که متقاضی وام هستند، به ۱۰۰۰نفر وام دهید. پس لازم است که از بین این ۱۰۰۰۰۰نفر، ۱۰۰۰نفری را انتخاب کنید که اطمینانِ بیشتری برای برگرداندنِ وام دارند. ولی این مدیر بانک فرصت ندارد که تمامیِ ۱۰۰۰۰۰ نفر را یکی یکی ارزیابی کند. علاوه بر این هر روز افراد جدیدی از راه می‌رسند و بایستی یکی یکی آن‌ها را هم ارزیابی کند. این مدیر، تصمیم می‌گیرد به جای فرآیندهای سنتی، از روش‌های داده‌کاوی برای حل این مسئله استفاده کند.

در فرآیند داده کاوی، ابتدا مدیر بانک بایستی یک تعدادِ کمی از افراد مثلاً ۲۰۰ فرد را به عنوان افرادِ مطمئن و ۲۰۰ نفر دیگر را به عنوان افرادِ غیر مطمئن برای سیستم مشخص کند. این کار توسط هوشِ طبیعیِ مدیر بانک قابل انجام است.

اینجاست که داده کاوی وارد عمل میشود و ۲۰۰ فرد مورد اطمینان و ۲۰۰ فرد غیرمطمئن که مدیر بانک برچسب زده بود را مشاهده کرده و الگوهای رفتاریِ این افراد را مورد بررسی قرار می‌دهد. در واقع سیستم متوجه می شود که کدام الگوی رفتاری، منجر به اطمینان و کدام الگو منجر به عدم اطمینان می‌شود. در اینجاست که سیستم، یاد میگیرد (learn) و می‌تواند بین افرادِ مطمئن و غیرمطمئن، تمایُز قائل شود. البته برای تشخیص این الگو، مدیر بانک بایستی ویژگی‌های مشتریان را در اختیار الگوریتم بگذارد.

حال این سیستم که فرآیند را یادگرفته است، می‌تواند هر مشتری دیگری علاوه بر این ۴۰۰ نفر که در موردِ یادگیری قرار گرفته‌اند را نیز، در دسته مطمئن‌ها و غیرمطمئن‌ها، تقسیم کند. اینجاست، که تمامی ۱۰۰۰۰۰ نفر را به سیستم وارد می‌کنیم و خروجی این سیستم، می‌تواند افرادی را مشخص کند که مطمئن هستند و می‌توان به آن‌ها وام داد.

این یک مثال، از داده‌کاوی بود، که به یادگیریِ نظارت‌شده نیز معروف است. در این جا، ناظر (همان مدیر بانک) یک مجموعه‌ی کم از داده‌ها را برای سیستم، به اصطلاح برچسب (label) زد. یعنی مشخص کرد که کدام مشتری مطمئن و کدام مشتری نامطمئن است، سپس سیستم از روی این داده‌های برچسب زده شده و ویژگی‌های آن‌ها، یادگیری را انجام داد.

همان طور که مشاهده می‌کنید، از یک مجموعه‌ی داده (مشتری‌های بانک)، به یک سری دانش (به چه شخصی وام بدهیم به چه شخصی وام ندهیم) رسیدیم.

.

برخی از پلتفرم‌های مورد استفاده در فرایند داده‌کاوی

داده‌کاوی معمولا در سازمان‌هایی مانند ادارات بیمه، مراکز آموزشی بزرگ، تولید کنندگان، بانک‌ها و سازمان‌های مالی، خرده فروشی‌ها و… کاربردهای بسیاری دارد، اکثر سازمان‌های از ابزارهای زیر برای انجام فرایند داده‌کاوی استفاده می‌کنند:

  • زبان برنامه‌نویسی آر (R)
  • زبان برنامه‌نویسی پایتون
  • زبان برنامه‌نویسی متلب
  • نرم‌افزار SPSS
  • نرم‌افزار Weka
  • نرم‌افزار RapidMiner

 

50,000 تومان
1,250,000 تومان
بدون امتیاز 0 رای
1,250,000 تومان
1,250,000 تومان