داده کاوی Data Mining
با پیشرفت تکنولوژی سیر تحول پلتفرمها و گجت های دیجیتال موجب شدهاند که در سالهای اخیر وبا پیشرفت تکنولوژی داده کاوی Data Mining، میزان تولید و ثبت دادهها به طرز چشمگیری افزایش پیدا کند. کاربران دنیای فناوری اقدام به ثبت و ذخیرهسازی اطلاعات ضروری می کنند، تا در کسبوکار خود بتوانند اقدام به تحلیل دادهها و استخراج اطلاعاتی کنند که میتواند روند توسعه کسب و کار خود یاسازمانها را به کلی متحول کند و مانند چشم سومی برای مدیران ارشد شرکت ها و سازمان ها باشد و آنها را در اتخاذ تصمیمهای بهینهتر یاری کند. ظهور علم داده کاوی Data Mining باعث شده است که اکنون «دادهها» یا همان DataBase به یکی از سرمایههای بسیار ارزشمند سازمانها تبدیل شوند و استفاده درست از این برگ برنده، بتواند نتایج را به نحو متفاوتی رقم بزند. در حالت کلی کمپانی های بزرگ بزرگ در سطوح کلان اقتصادی، سیاسی و اجتماعی، بدون استناد از پروژه های داده محور و تحلیلهای دادهای از جوامع هدف خود، هیچ تصمیم و یا سیاستی اتخاذ نمی کنند. ای بای در این مقاله قصد دارد کاربران و مدیران ارشد را با یک موضوع اساسی که پایه و اساس همه پلتفرم های کسب کار است که با نام علم داده کاوی Data Mining شناخته میشود آشنا کند.
داده چیست؟
پیش از آنکه بخواهیم به اهمیت علم دادهکاوی Data Mining و مزایایی که برای سازمانها ایجاد میکند بپردازیم، باید بدانیم که اساسا «داده» چیست. داده یا data در واقع کوچکترین و سادهترین واحد محتواست. تمامی کاراکترها، آمار، ارقام و حقایقی که توسط سیستمها و یا محققان جمع آوری شده و توضیح و تفسیر اضافهای بر آنها افزوده نشده باشد داده به حساب میآیند. بسیاری مواقع اشتباها از «داده» و «اطلاعات» به عنوان مفاهیم یکسانی یاد میشود. درحالی که این دو مفهوم کاملا متفاوتند و نمیتوان آنها را به جای دیگری به کار برد. درحالی که اطلاعات یا information چنین نیست و هر فرد به تناسب رویکرد و اهدافی که دارد، میتواند برداشت و تفسیر متفاوتی از اطلاعات داشته باشد.
فرق داده (Data) و اطلاعات (Information)
«داده» یا همان Data محتوایی خام و تفسیر نشده است، «اطلاعات» یا همان Information را میتوان نسخه تحلیل شده مجموعه ای از «دادهها» دانست. به عبارتی دیگر، «داده» زیرمجموعه از «اطلاعات» است. با مجموعه مشخصی از داده، میتوان اطلاعات متعدد و متفاوتی ایجاد کرد. مثلا بسته به اینکه آن دادهها با چه ترتیبی و تحت چه ساختاری دستهبندی شوند و یا در چه حوزهای مورد بررسی و تحلیل قرار بگیرند، اطلاعات متفاوتی ایجاد میشود.
پس از تفسیر، تحلیل و پروراندن دادهها در بستری خاص و متناسب با هدف و رویکردی مشخص از اطلاعات به دست میآید. برخلاف داده که به واسطه تجزیه ناپذیر بودن آن به مفهومی کوچکتر، نمیتوان برداشتهای متفاوتی از آن داشت، اطلاعات قابلیت این را دارند که هر فردی متناسب با ذهنیتی که دارد، تحلیل متفاوتی از آن داشته باشد.
داده کاوی چیست؟
حال که با مفهوم داده (Data) و تفاوت آن با اطلاعات (Information) آشنا شدیم، میتوانیم به این موضوع بپردازیم که دادهکاوی چیست. به جرات میتوان گفت از زمانی که دانش داده کاوی و یا تحلیل داده پا به میدان گذاشت، ارزش داده در دنیای امروز متحول شد.
داده کاوی (Data Mining) علم استخراج الگوها، اطلاعات و تحلیل از مجموعه دادههای خامی است که در یک سازمان و یا یک جامعه یا هر مجموعه دیگری تولید شده است.
در کسب و کارهای سنتی که حجم دادههای تولیدی بسیار محدود بود، بسیاری از مدیران با نگاهی سطحی و با جداسازی دستی داده ها، میتوانستند داده ها را به راحتی تحلیل و تصمیمات درست را اتخاذ کنند. اما با پیشرفت تکنولوژی کامپیوتری در کسب و کار زمانی که مدیران با حجم عظیمی از داده مواجه شدند، عملا تحلیل داده ها به صورت سنتی غیرممکن بود.
درعلم داده کاوی بستری فراهم شده است که مدیران ارشد بتوانند با بکارگیری تکنولوژی های جدیدی مانند هوش مصنوعی، یادگیریماشین و… متناسب با اهداف مشخص، به دستهبندی، تحلیل و استخراج مفاهیم نهفته در دادهها پرداخت و از آنها برای اتخاذ تصمیمات مهم استفاده می کننند. به عبارتی ساده در دنیای مدیریت امروزی، شهود جایی در تصمیمگیریها ندارد و مدیران ارشد به استناد دادههای استخراج شده در هر مورد، تصمیمات مقتضی را استخراج میکنند.
اهمیت داده کاوی
عواملی که باعث شده علم دادهکاوی Data Mining تا این حد مورد توجه قرار بگیرد، ضریب اطمینان بالای تصمیمات اتخاذ شده بر اساس تحلیلهای دادهای و نتایجی است که ایجاد میشود. زمانی که مدیران ارشد بر اساس احساسات و شهود اقدام به سیاستگذاری و تصمیمگیری در مورد موضوعی میکنند، احتمال خطا در تشخیص مشکل و ارائه راهکار بسیار زیاد است، در نتیجه ریسک زیادی منابع سازمان را تهدید میکند. در حالی که با تصمیم گیری بر اساس تحلیلهای حاصل از داده کاوی، از هدررفت منابع شرکت در یک تصمیم ناکارآمد و غیر ضروری جلوگیری میشود. داده کاوی به مدیران ارشد کمک میکند تا پیش ازهرچیزی، دید درستی از جامعه مورد بررسی پیدا کنند و پس از عارضه یابی درست، راهکاری بهینه برای حل آن مشکل ارائه دهند.
توجه داشته باشید که نباید مفهوم داده کاوی Data Mining را صرفا به جمع آوری و ذخیره سازی دادهها محدود دانست. زیرا تا زمانی که نتوان الگوهای نهفته در دادهها را برای ارائه تحلیل و راهکار استخراج کرد، این دادهها ارزش چندانی ندارند. در واقع داده کاوی با ایجاد ابزارهایی که استخراج این اطلاعات ارزشمند را ممکن میکند، به دادهها ارزش میبخشد و باعث میشود بتوان از آن دادهها برای برآوردن یک هدف و یا حل یک مشکل استفاده کرد.
بررسی فرایند داده کاوی
فرآیند داده کاوی Data Mining، مجموعهای از گامها و اقداماتی است که باید از زمان جمع آوری داده تا استخراج اطلاعات و دانش کاربردی از آن انجام شود. عموما فرآیند داده کاوی بر حجم عظیمی از دادهها اعمال میشود و چون این کار از توان انسان خارج است، از فناوریهای خاصی برای این کار استفاده میشود. همانطور که در بخش قبل تاکید شد، هدف از داده کاوی آن است که بتوان همسبگیهای موجود میان دادههای خام را شناخت و از آنها برای استخراج الگوها، تحلیلها و توصیفاتی که پاسخگوی یه معضل و یا یک هدف مشخص باشند استفاده کرد. پیش بینیها حاصل از این داده ها، کمک میکند تا بتوان راهکار مناسبی طراحی و ارائه کرد.
به طور کلی فرآیند دادهکاوی Data Mining ۴ مرحله دارد:
- گام اول تعیین اهداف است.
- گام دوم جمع آوری و آماده سازی دادههاست.
- گام سوم باید با استخراج الگوهای موجود در این داده ها، به ارائه مدلی برای حل مساله پرداخت.
- گام چهارم میتوان با جمع بندی و ارزیابی نتایج حاصله، اقدامات مناسبی طراحی و اجرایی کرد.
صرف وقت مناسب برای تعیین اهداف داده کاوی، یکی از مهمترین نکاتی است که مدیران سازمان باید به آن توجه داشته باشند. بهتر است تعیین اهداف، طی همکاری و مشارکت مدیران بخشهای مختلف سازمان ایجاد شود تا نتیجه حاصل شده بتوانند پاسخی جامع و کاربردی باشند. پس از آنکه حوزه و معضل مورد بررسی مشخص شد، متخصصان داده باید تعیین کنند که چه سبک داده هایی، ورودیهای مناسبی برای این پروژه هستند. بعد از تعیین دادهها و جمع آوری آنها، باید آنها را پاکسازی، دسته بندی و یکدست کرد تا تحلیل آنها سادهتر شود.
بررسی مشکلات و چالشهای داده کاوی Data Mining
با وجود اهمیت بسیار بالای دادهکاوی در کسبوکارهای امروزی و دستاوردهای مهم که این علم برای سازمانها ایجاد میکند، چالشها و مشکلاتی نیز در این مسیر وجود دارد. ای بای در ادامه به شماری از مهمترین چالشهای دادهکاوی می پردازد و در سپس به شرح برخی از این موارد میپردازیم.
اصلیترین چالشهای علم دادهکاوی Data Mining عبارتند از:
- مسائل امنیتی و حفظ حریمخصوصی
- مواجهه با دادههای ناقص و پراکنده
- دشواری کشف پیچیدگیهای موجود در برخی دادهها
- چالشهای روششناختی
- لزوم انتخاب روش تحلیل درست برای استخراج نتایجی کارآمد
- مقیاسپذیری الگوریتم ها
- دشواری در ارائه مفاهیم شهودی برای برخی پدیدههای نهفته در داده ها
از آنجا که دادههای خام سازمانها، ممکن است حاوی اطلاعات ارزشمندی از ابعاد مختلف زندگی کاربران باشند، نگهداری و حفظ امنیت این دادهها و خدشه وارد نشدن به حریمخصوصی کاربران طی کار بر روی دادهها کار بسیار دشواری است. از سوی دیگر، دادههای خامی که برای انجام دادهکاوی و استخراج اطلاعات مورد نیازند، لزوما به سادگی به دست نمیآیند. یا اگر بتوان به این دادهها دست پیدا کرد، دسته بندی و پاکسازی آنها از دادههای پرت و زائد کار چندان سادهای نیست. حتی ممکن است پراکندگی دادههای به دست آمده به قدری باشد که یکپارچه و هماهنگ کردن آنها، دستاندرکاران دادهکاوی را با مشکل مواجه کند.
اعتبار و کارآمدی نتایج حاصل از داده کاوی، وابستگی بسیاری به دقت در انتخاب روشها و الگوریتمهای درست برای تحلیل دادهها دارد. چنانچه ابزارها و تکنیک اتخاذ شده برای بررسی مجموعهای دادهها مناسب نباشد، ممکن است اعتبار نتایج حاصل از داده کاوی خدشه دار شود. از سوی دیگر، باید از الگوریتمهایی استفاده شود که مقیاسپذیر باشند تا توان پاسخگویی به حجم متفاوتی از دادهها در حوزههای مختلف سازمان را داشته باشند.
در نهایت باید گفت گاهی ممکن است ارائه توضیحات شهودی و درک مفاهیم کشف شده در دل دادهها کار سادهای نباشد. به همین دلیل برای استخراج درست مفاهیم از دادههای هر حوزه، ممکن است به متخصصانی نیاز باشد که دانش بالایی در علوم داده کاوی و آن حوزه خاص مورد بررسی داشته باشند.
مزایای دادهکاوی
از علم دادهکاوی میتوان در زمینه های مختلفی مانند بهداشت و درمان، سلامت، سیاست، درک بهتر رفتار مشتریان کسب و کارها، تجارت، بیمه، بانکداری و علوم مالی، جامعه شناسی، علوم مهندسی و به عبارتی هر حوزهای استفاده کرد. در مجموع میتوان گفت علم داده کاوی به مدیران کمک میکند تا در تصمیمگیریها هوشمندانهتر عمل کنند و با کاهش ریسک تصمیمات خود، منابع را به گونهای بهینهتر تخصیص دهند.
از جمله مهمترین مزایای استفاده از دادهکاوی در تصمیمگیریها و سیاستگذاریها میتوان به موارد زیر اشاره کرد:
- بهبود دید مدیران و کمک به عرضهیابی درست
- فراهم شدن امکان پیش بینی وقایع و درک بهتر آینده
- افزایش کارایی سازمان
- کمک به شناخت به موقع ترندها و فرصت ها
- جلوگیری از تصمیم گیریهای احساسی و کاهش ریسک تصمیمات
- کاهش هزینهها و جلوگیری از اتلاف منابع
دیتا ماینینگ در چه حوزههایی کاربرد دارد؟
داده کاوی یا دیتا ماینینگ در بسیار از زمینه ها مانند تشخیص صدا در گوشیهای هوشمندها و انواع درهای امنیتی، خودروهای خودران، تشخیص چهره، تشخیص اشیاء و … کاربرد زیادی دارد. به طور کلی دیتا ماینینگ در جاهایی که نمیتوان از علم ریاضی خشک و سخت استفاده کرد، کاربرد دارد. علم داده گسترهی فراوانی از کارها را در برمیگیرد؛ مثلاً در بازار سرمایه و در بورس کاربرد زیادی دارد.
آیا از داده کاوی میتوان در زمینه سرمایه گذاری در بازار مسکن استفاده کرد؟
پاسخ این پرسش مثبت است. در کشورهای توسعه یافته، بازار مسکن در بورس به رقابت با سایر بازارها راه پیدا کرده است و مانند هر شرکت دیگری، شرکتهای بزرگ ساختمان سازی، دادههای خود را در اختیار شرکت بورس قرار میدهند و خریداران با ارزیابی آمارها به خرید اوراق میپردازند. حال که در ایران داده تجمیع شدهای از بازار مسکن وجود ندارد و از آنجایی که این بازار در بورس حضور ندارد، نمیتوان مانند کشورهای پیشرفته از اطلاعات و آمارها استفاده کرد ولی امری غیر ممکن به نظر نمیرسد.
یکی از راههای داده کاوی بازار مسکن را میتوان خرید اطلاعات از نرم افزارهای ارائه کننده مسکن و استخراج آمار از آنها دانست. با دانستن اینکه افراد تمایل دارند خانههایی با چه متراژهایی در چه مناطقی را خریداری کنند، سودآوری ساخت و اجاره مسکن در چه منطقهای بهتر است و ساخت و فروش مسکن در چه منطقه ای به سودآوری بیشتر میانجامد. همچنین با خرید اطلاعات از سازمانهای مربوط به مسکن مانند شهرداریها و صنف املاک میتوان به موضوعاتی مانند در چه بازههای زمانی خرید و فروش مسکن افزایش پیدا میکند و بازار مسکن با رونق مواجه میشود و یا در چه بازههای زمانی رونق بازار کم است و خرید و فروش با رکود مواجه میشود، با مقایسههای بازههای زمانی با اتفاقات مهمی که در جامعه رخ داده است میتوان به محرکهای رونق بازار مسکن پی برد و به خرید پیش از موعد و سود بیشتر رسید.
جمعبندی
در نهایت باید گفت که دوره تصمیمگیریهای کورکورانه به پایان رسیده است و اکنون چیزی جز داده ها، حکمرانی ارکان مهم اقتصادی، اجتماعی و سیاسی دنیا را بر عهده ندارند. تا چندی قبل استفاده از داده کاوی برای کسب مزیت نسبت به رقبا، یک امکان بود که مدیران به نسبت دوراندیشی خود از آن استفاده میکردند. اما به کارگیری دادهکاوی در مدیریت کسبوکارها و سازمانهای امروزی دیگر یک الزام است نه یک امکان. با توجه به گرایش روزافزون کسبوکارهای مختلف به استفاده از علمداده و روشهای مختلف دادهکاوی، به جرات میتوان گفت کسبوکارهایی که از پیوستن به این جریان سرباز بزنند محکوم به شکستند و از بازار رقابت کنار گذاشته می شوند.