داده كاوی فرآیندی تحلیلی است كه برای كاوش داده ها (معمولاً حجم عظیمی از داده ها در زمینه های كسب و كار و بازار) صورت می گیرد و یافته ها با بكارگیری الگوهایی، احراز اعتبار می شوند. هدف اصلی داده كاوی پیش بینی است. فرآیند داده كاوی شامل سه مرحله می باشد: 1-كاوش اولیه 2-ساخت مدل یا شناسایی الگو با كمك احراز اعتبار/تایید 3-بهره برداری

مرحله 1 (كاوش): معمولاً این مرحله با آماده سازی داده ها صورت می گیرد كه ممكن است شامل پاك سازی داده ها، تبدیل داده ها و انتخاب زیر مجموعه هایی از ركوردها با حجم عظیمی از متغیرها(فیلدها) باشد. سپس با توجه به ماهیت مسأله تحلیلی، این مرحله به مدل های پیش بینی ساده یا مدل های آماری و گرافیكی برای شناسایی متغیرهای مورد نظر و تعیین پیچیدگی مدل ها برای استفاده در مرحله بعدی نیاز دارد.
مرحله 2 (ساخت و احراز اعتبار مدل): این مرحله به بررسی مدل های مختلف و گزینش بهترین مدل با توجه به كارآیی پیش بینی آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اینطور نیست. تكنیک های متعددی برای رسیدن به این هدف توسعه یافتند و "ارزیابی رقابتی مدل ها" نام گرفتند. بدین منظور مدل های مختلف برای مجموعه داده های یكسان بکار می روند تا كارآیی شان با هم مقایسه شود، سپس مدلی كه بهترین كارآیی را داشته باشد، انتخاب می شود. این تكنیك ها عبارتند از:Bagging ،Boosting ،Stacking و Meta-learning.
مرحله 3 (بهره برداری): آخرین مرحله مدلی را كه در مرحله قبل انتخاب شده است، در داده های جدید به كار می گیرد تا پیش بینی های خروجی های مورد انتظار را تولید نماید. داده كاوی به عنوان ابزار مدیریت اطلاعات برای تصمیم گیری، عمومیت یافته است. اخیراً، توسعه تكنیك های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلاً Classification Trees)، اما هنوز داده كاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis) (EDA) می باشد.
با این وجود تفاوت عمده ای بین داده كاوی و EDA وجود دارد. داده كاوی بیشتر به برنامه های كاربردی گرایش دارد تا ماهیت اصلی پدیده. به عبارتی داده كاوی كمتر با شناسایی روابط بین متغیرها سروكار دارد.
مفاهیم اساسی در داده كاوی
Bagging: این مفهوم برای تركیب رده بندی های پیش بینی شده از چند مدل به كار می رود. فرض كنید كه قصد دارید مدلی برای رده بندی پیش بینی بسازید و مجموعه داده های مورد نظرتان كوچك است. شما می توانید نمونه هایی(با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل از درخت رده بندی (مثلا C&RT و CHAID) استفاده نمایید. به طور كلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید. سپس برای پیش بینی با كمك درخت های متفاوت به دست آمده از نمونه ها، یك رأی گیری ساده انجام دهید. رده بندی نهایی، رده بندی ای خواهد بود كه درخت های مختلف آنرا پیش بینی كرده اند.
Boosting: این مفهوم برای تولید مدل های چندگانه (برای پیش بینی یا رده بندی)به كار می رود. Boosting نیز از روش C&RT یا CHAID استفاده و ترتیبی از classifierها را تولید خواهد كرد .
Meta-Learning: این مفهوم برای تركیب پیش بینی های حاصل از چند مدل به كار می رود. و هنگامی كه انواع مدل های موجود در پروژه خیلی متفاوت هستند، كاربرد دارد. فرض كنید كه پروژه داده كاوی شما شامل Tree classifierها نظیر C&RT و CHAID، تحلیل خطی و شبكه های عصبی است. هر یك از كامپیوترها، رده بندی هایی را برای نمونه ها پیش بینی كرده اند. تجربه نشان می دهد كه تركیب پیش بینی های چند روش دقیق تر از پیش بینی های هریك از روشهاست. پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی ها را تركیب می كند تا بهترین رده بندی پیش بینی شده حاصل شود.
چند مثال تفهیمی در مورد داده کاوی
یکی از نمونه های بارز داده کاوی را می توان در فروشگاه های زنجیره ای مشاهده نمود، که در آن سعی می شود ارتباط محصولات مختلف هنگام خرید مشتریان مشخص گردد. فروشگاه های زنجیره ای مشتاقند بدانند که چه محصولاتی با یکدیگر به فروش می روند.
برای مثال طی یک عملیات داده کاوی گسترده در یک فروشگاه زنجیره ای در آمریکای شمالی که بر روی حجم عظیمی از داده های فروش صورت گرفت، مشخص گردید که مشتریانی که تلویزیون خریداری می کنند، غالبا گلدان کریستالی نیز می خرند. نمونه مشابه عملیات داده کاوی را می توان در یک شرکت بزرگ تولید و عرضه پوشاک در اروپا مشاهده نمود، به شکلی که نتایج داده کاوی مشخص می کرد که افرادی که کراوات های ابریشمی خریداری می کنند، در همان روز یا روزهای آینده گیره کراوات مشکی رنگ نیز خریداری می کنند.
به روشنی این مطلب قابل درک است که این نوع استفاده از داده کاوی می تواند فروشگاه ها را در برگزاری هوشمندانه فستیوال های فروش و نحوه ارائه اجناس به مشتریان یاری رساند.
نمونه دیگر استفاده از داده کاوی در زمینه فروش را می توان در یک شرکت بزرگ دوبلاژ و تکثیر و عرضه فیلم های سینمایی در آمریکای شمالی مشاهده نمود که در آن عملیات داده کاوی، روابط مشتریان و هنرپیشه های سینمایی و نیز گروه های مختلف مشتریان بر اساس سبک فیلم ها (ترسناک، رمانتیک، حادثه ای و ...) مشخص گردید.
بنابراین آن شرکت به صورت کاملاً هوشمندانه می توانست مشتریان بالقوه فیلم های سینمایی را بر اساس علاقه مشتریان به هنرپیشه های مختلف و سبک های سینمایی شناسایی کند.
از دیگر زمینه های به کارگیری داده کاوی، استفاده بیمارستان ها و کارخانه های داروسازی جهت کشف الگوها و مدلهای ناشناخته تأثیر داروها بر بیماری های مختلف و نیز بیماران گروه های سنی مختلف را می توان نام برد.
استفاده از داده کاوی در زمینه های مالی و بانکداری به شناخت مشتریان پر خطر و سودجو براساس معیارهایی از جمله سن، درآمد، وضعیت سکونت، تحصیلات، شغل و غیره می انجامد.
کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی
داده کاوی در ابتدا از حوزه تجارت برخاست اما کاربردهای آن در سایر حوزه هائی که به گردآوری حجم وسیعی از داده هائی می پردازند که دستخوش تغییرات پویا نیز می گردند؛ مفید شناخته شد. بخشهایی مثل بانکداری، تجارت الکترونیک، تجارت سهام، بیمارستان و هتل از این نمونه اند.
انتظار می رود که استفاده از داده کاوی در بخش آموزش بطور عام امکان های جدید بسیاری ارائه دهد. برخی کاربردهای داده کاوی در کتابخانه ها و قسمت اداری آموزش در ذیل مورد بحث قرار گرفته اند.
مدیریت موسسات دانشگاهی
اداره موسسات دانشگاهی کار پیچیده ای است. در این موسسات دائماً نیاز به درآمدزایی و خودکارآمدی و کاهش وابستگی به بودجه دولتی احساس می شود. این مسأله کنترل دائمی جنبه های مختلف هر فعالیت و پروژه را می طلبد. بانک های اطلاعاتی برای چنین موسساتی مربوط به دانشجویان، دانشکده، اساتید و کارمندان، تعداد رشته ها و چند مورد دیگر است. ارزیابی تقاضا و وضعیت عرضه نقش مهمی بازی می کند. مرور بانک های اطلاعاتی نمونه در جدول 2 نمایانگر کاربردهای بالقوه داده کاویست.
کاربردهای داده کاوی در موسسات دانشگاهی
| بانک اطلاعاتی | کاربرد متصور |
| ثبت نام دانشگاهی | برای درک رابطه های جمعیت شناختی، اقتصادی و اجتماعی |
| کارایی دانشگاهی | برای ایجاد رابطه بین عوامل اقتصادی-اجتماعی و نمرات اخذ شده |
| بانک سوالات | برای تعیین میزان مفید بودن سیستم با استناد به نمرات امتحان |
| همکاری فکری | برای ارزیابی همکاری دانشکده با توجه به میزان استفاده از کتابخانه |
| انتشارات | برای پیدا کردن تأثیر انتشارات در تقاضا برای رشته ها |
| بازدید از وب سایت | برای تحلیل سوالات دریافت شده در وب سایت دانشگاه و کمک به ایجاد رشته های جدید دانشگاهی |
کاربرد داده کاوی در دانشگاه ملی سنگاپور قابل ملاحظه است. در این دانشگاه از ابزارهای داده کاوی برای شناسایی و دسته بندی دانشجویانی که به کلاس های پیش نیاز برای واحد درسی ارائه شده نیاز داشتند استفاده شد. (Kurian and John, 2005)
علاوه بر آن، مسائلی مانند اختصاص بهتر منابع و نیروی انسانی، مدیریت روابط دانشجو و به تصویر کشیدن رفتار گروه های مختلف می تواند بوسیله ابزارهای داده کاوی انجام شود.
مدیریت و خدمات کتابخانه
عملیات کتابداری بطور کلی شامل مدیریت مدارک، ارائه خدمات و امور اداره و نگهداری است. هر کدام از این کارکردها با انواع مختلفی از داده ها سروکار دارد و بطور جداگانه پردازش می شود. اگرچه، انجام تحلیل ترکیبی براین مجموعه های داده نیز می تواند افق تازه ای را بگشاید که به طرح خدمات جدید و تحول رویه ها و عملیات جاری کمک نماید. جدول یک برخی از کاربردهای ممکن داده کاوی را که می تواند در کتابداری مفید باشد ارائه می کند.
کاربردهای داده کاوی در کتابخانه ها
| بانک اطلاعاتی | کاربرد متصور |
| گردآوری منابع | برای تعیین نقاط قوت و ضعف مجموعه |
| استفاده از مجموعه | برای ایجاد رابطه بین خواننده، منابع کتابخانه و زمان مشخصی از سال |
| امانت بین کتابخانه ای | برای تحلیل سفارشهای پاسخ داده شده و سفارش های دریافت شده |
| داده های بخش امانت | برای پیش بینی روند بازگشت منابع |
| داده های هزینه | برای نشان دادن منابع مالی بکار گرفته شده |
داده کاوی می تواند برای پاسخ دادن به یک سوال خاص مربوط به کتابخانه و نیز برای کشف روندهای عمومی که به تصمیم گیری کمک می کنند، استفاده شود. برای مثال سوال می تواند چنین باشد: امکان اینکه امانت گیرندگان منابع را یک هفته بعد از تاریخ عودت برگردانند تا نامه های یادآوری کمتری فرستاده شود چقدر است؟ یا میزان اشتراک مورد انتظار برای نشریات بین المللی انتخاب شده برای سال آینده چقدر است؟ درک الگوی استفاده کلی مجلات الکترونیکی یا تحلیل درخواست های اعضاء برای میکروفیلم ها طی 5 سال گذشته نیز همگی مثال هایی از کشف روندهای عمومی اند. دامنه تحلیل استنادی هم می تواند با استفاده از داده کاوی گسترش داده شود.
در ارتباط با کتابخانه ها، وب کاوی حوزه دیگری از علاقمندی است. وب کاوی شامل محتوا کاوی وب، ساختار کاوی وب و استفاده کاوی وب با توجه به یک موضوع خاص است که در طراحی خدمات جدید مبتنی بر وب کمک خواهد کرد.