وب کاوی در واقع کاربرد تکنیک های داده کاوی به منظور کشف الگوهایی از وب می باشد.

وب کاوی می تواند به انواع مختلف تقسیم شود که عبارتند از : Web usage mining ،Web content mining ،Web structure mining و Web usage mining
کاوش استفاده ی وب، روش پیداکردن کاربرانی است که در اینترنت به دنبال اهداف خاصی می گردند. بعضی از کاربران ممکن است به دنبال داده های متنی باشند در حالی که بعضی دیگر ممکن است بخواهند داده های سمعی و بصری را از اینترنت دریافت نمایند.
کاوش استفاده ی وب به ما کمک می کند تا الگو هایی از گروه های مشخصی از افراد را که به مناطق مشخصی تعلق دارند پیدا کنیم.
Web content mining :
به روش کشف اطلاعات مفید از متن، تصویر، صدا یا داده های ویدئو در وب، کاوش محتوای وب (web content mining) می گویند. به web content mining گاهی اوقات web text mining نیز گفته می شود، به خاطر اینکه محتوی متن در حوزه گسترده ای از جستجوی وب را تشکیل می دهد. تکنولوژیی که در web content mining به طور نرمال مورد استفاده قرار می گیرد ((NLP (Natural language processing و (IR (Information retrieval ) می باشد.
Web structure mining :
Web structure mining روش استفاده از نظریه گراف برای آنالیز گره ها و ساختار روابط بین وب سایت ها است.
بسته نوع ساختار داده ی وب، کاوش ساختاری وب
کاوش ساختاری وب می تواند به دو نوع تقسیم شود:
نوع اول استخراج الگوهای پیوند بین سایت ها می باشد. پیوند یک جزء ساختاری است که صفحه وب را به مکانی دیگر متصل می نماید.
نوع دیگر کاوش ساختاری وب، کاوش ساختار سندهاست، که از ساختار درختی برای آنالیز و شرح تگ های HTML یا XML با صفحه وب استفاده می نماید.
