جلسه بیست و دوم – 15/10/93 داده کاوی DQL

جلسه بیست و دوم –15/10/93

Data Mining – داده کاوی

معمولا روش استفاده از الگوهای بدست آمده در فرایند داده کاوی به این ترتیب است که یکسری Model Content برای مجموعه مسائل آماده می شود. این آماده سازی معمولا در یک برنامه شبانه انجام می شود. بنابراین در هنگام نیاز به انجام پیش بینی براساس الگوهای استخراج شده صرفا کافی است که جدول مساله با Model Content ، Join شود.

توجه: ممکن است که تمامی ویژگی هایی که در Model Content وجود دارد در مساله وجود نداشته باشد. در این وضعیت تنها ویژگی های مشخص با Model Content مرتبط شده و سایر مقادیر (State) در تحلیل جزو مقادیر Missing در نظر گرفته می شوند.

مثال: فرض کنیم مدلی برای پیش بینی وضعیت تحصیل دانشجو براساس سن، محل تولد و معدل دیپلم داریم.

خروجی الگوی داده کاوی به ترتیب زیر است:

وضعیت تحصیل	معدل دیپلم	محل تولد	سن
خوب	20-16	تهران	30-20

مدل ما برای تصمیم گیری:

معدل دیپلم	محل تولد	سن
17	تهران	25

انواع Query های Prediction

Degenerated Prediction: انجام پیش بینی برروی مدل داده کاوی بودن هیچ مقدار ورودی، در این نوع پیش بینی بیشترین احتمال بازگردانده می شود.
Singleton Prediction / Online Prediction / On the fly Prediction: انجام پیش بینی به ازای یک سطر داده، یک نمونه، یک Case. تمام سایت های فروش که سرویس داده کاوی دارند، از این روش استفاده می کنند.
Batch Prediction: انجام پیش بینی برروی یک مجموعه داده جدید

زبان DQL:

Select [Column Names]/[Prediction Function]

From [Mining Model Name] Prediction Join

…..

….. (New Dataset)

…..

On [Mining Model][Input Attribute 1] = [New Dataset].[Column Name 1]

And [Mining Model][Input Attribute 2] = [New Dataset].[Column Name 2]

And …

Where (Condition)

Order by …….

در بخش [Column Names]/[Prediction Function] می توان به ستون های New Dataset (مساله مورد بررسی) یا الگوی داده کاوی اشاره کرد.

بخش New Dataset به ترتیب زیر تولید می شود:

در حالتBatch باشد:
- اگر از Relation Database استفاده شده باشد باید از دستور OpenQuery استفاده کنیم.

OpenQuery(Database Name, TSQL)

اگر از نوع Cube باشد، باید گزاره را با گرامر MDX بنویسیم

در حالت Singleton باشد:

Select 23 AS Age, 17 AS Average, 'Tehran' AS City

یعنی:

Select ……..T.Age, T.Average, T.City

From [Mining Model Name] Prediction Join

(Select 23 AS Age, 17 AS Average, 'Tehran' AS City) AS T

On T.Age = [Mining Model][Age]

And T.Average = [Mining Model][Average]

And T. City = [Mining Model][City]

Where ……..

Order by …….

در این حالت می توان با استفاده از دستور Union All چندین دستور Select را در زیر هم قرارداد و یک مجموعه را به عنوان New Dataset معرفی کرد.

مثال:

Select [Bike Buyer], PredictProbability ([Bike Buyer]) AS Probability

From [VTargetMail By Decision Trees]

Degenerated Prediction

در صورت استفاده از عبارت Degenerated Prediction نیاز به ادامه دستور DQL و برقراری Join نمی باشد.

نکته:

در صورتیکه ستون های New Dataset با ستون های مدل یکی باشند (هم نام) کافی است بجای عبارت Prediction Join از Natural Prediction Join استفاده شود در این وضعیت DQL بین عناصر متناظر از مدل و Dataset تلویحا Join برقرار خواهد کرد.
با استفاده از دستور Flattened در Select DQL می توان Case با Nested Case ها (درختی) را به شکل Flat نمایش داد.
هر چقدر تعداد Attribute های ورودی و تعداد State های در داده کاوی بیشتر باشند، منابع سخت افزاری بیشتری مورد نیاز خواهد بود.

احمدعلی مستوفی شنبه 20 دی 1393 ساعت 15:59

BIG DATA / BI / SAP BW

BIG DATA / BI / SAP BW