- 0
سجل دخول لمتابعه هذا
متابعين
0

تنقيب البيانات ( Data Mining)
بواسطة
Guest hassan_82,
-
يستعرض القسم حالياً 0 members
لا يوجد أعضاء مسجلين يشاهدون هذه الصفحة .
بواسطة
Guest hassan_82,
لا يوجد أعضاء مسجلين يشاهدون هذه الصفحة .
تم النشر منذ (معدل)
بسم الله الرحمن الرحيم
السلام عليكم ورحمة الله وبركاته
اخوتي الكرام اعضاء منتدى الفريق العربي للبرمجه ساقوم ان شاء الله في هذه المقاله بشرح علم تنقيب البيانات Data mining
والذي افضل ان اسميه استنباط البيانات باللغه
العربيه , مع اختلاف المسميات والتعريفات , فهو علم وتطبيق مهم جدا ولا سيما في العصر الحالي لما يقع تحته الكثير من التطبيقات
وهنالك العديد من المشاريع والمقالات التي طبقت هذه التقنيه ....
العناوين الرئيسيه :-
1:- تعريف تنقيب البيانات .
2:- لماذا نحتاج التنقيب في البيانات؟
.
3:-مهام تنقيب البيانات ( تعريفات وتطبيقات )
=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
تعريف عام
تنقيب البيانات هي عملية تحليل للبيانات من خلال ربطها مع تقنيات الذكاء الاصطناعي والعمليات الاحصائيه في
تحليل هذه البيانات , وببساطه هي عملية تفتيش وبحث عن معلومات معينه ومفيده في حجم كبير من البيانات , وطبعا ذالك يتم من خلال
عملية الربط بين تحليل هذه البيانات وطرق الذكاء الاصطناعي لتصبح اكثر واكفئ في عملية التفتيش ...
وهي تعتبر خطوه من خطوات استكشاف المعرفه من قواعد البيانات ( Knowledge Discovery in Database, KDD)
لحظه :mad: ... ماهي KDD ؟
KDD :- عدة مراحل من المعالجات والتي تمر بها البيانات لتحديد الانماط والانساق المهمه والمفيده والمفهومه
بها ( ببساطه وبدون تكلف كما تلاحظوا بالصوره المرفقه انها مجموعه من الخطوات التي تمر بها البيانات لتحقق الاستكشاف
الامثل والافضل للمعارف ).
_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+
لماذا نحتاج التنقيب اصلا ؟
من المعروف ان عملية تجميع البيانات في سجلات باحجام كبيره مثل ( Data warehouse) قد تحتوي هذه على معارف
كبيره والتي قد تكون مفيده لاصحابها من خلال معرفة العديد من الاحصاءات المطلوبه مستقبلا لذالك نحتاج تقنيات مختلفه
للاستفاده وهذا ما نريد من التنقيب في البيانات ,فالتقنيات العاديه قد لا تكون مفيده وغير عمليه في مثل هذه الاحجام الكبيره من
البيانات , لذالك تواجدت تقنيات الذكاء الاصطناعي ومنها data mining لتسهل وتحسن عمليه البحث و الاستنباط ...
_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_
طرق وانساق التنقيب في البيانات
1- طريقة التنبؤ (prediction method) :- استخدام البيانات المتوفره وتطبيق عليها تقنيات معينه لتحقيق واعطاء قيم مستقبليه ناجحه ...
2- طريقة الوصف ( Description method) :- عملية وصف للبيانات المتاحه ومعرفة تصنيفاتها حسب تواجدها والعلاقات بينها
من خلال المحاكاة للروابط الطبيعيه ( human interpretable) بمعنى اخر ناخذ الروابط من خلال التفاعل الطبيعي لكي نشرح
هذه البيانات ..
++++++++++++++++++++++++++++++++++
لكي نفهم ما هو الذي يحصل في التنقيب اريد ان اوضح الفرق بين عملية الاستعلام العاديه على قواعد البيانات العاديه
والاستعلام في البيانات المنقبه ..
المثال التالي والذي يوضح الفرق في الاستعلام بين كلا النوعين ..
Data base Query vs.Data mining Query
الاستعلام عن معلومات في سوق تجاري ....
في قاعدة البيانات العاديه **** (Data base)
* الاستعلام عن المعلومات الكامله للزبائن الذين ينتهي اسمهم الثاني بخالد ..
* الاستعلام عن الزبائن الذين اشتروا بمبلغ اكثر من 1000 دينار في اخر الشهر.
* الاستعلام عن اسماء الزبائن الذين اشتروا الحليب .
التنقيب عن البيانات ***** ( Data mining )
* الاستعلام عن كل البطاقات الائتمانيه والتي عليها مشاكل .. وهذا يسمى ( classification) التصنيف .
* الاستعلام عن الزبائن الذين لديهم عادات شرائيه مماثله .. وهذا يسمى ( clustering ) التجمع او العناقيد .
* الاستعلام عن السلع التي يتم شراءها بشكل تزامني مع الحليب , المقصود في كل عملية شراء يقوم بها الزبائن ..
وهذه تسمى ( assoiciation rules ) اكتشاف قواعد وعلاقات الارتباط .
__________________________
كما تحدثنا سابقا عملية تنقيب البيانات تتم على السجلات ولكي تكون سليمه وتحقق الهدف منها , يجب ان يساعدها
خطوات الهدف منها اعادة تصحيح والتاكد من دقة هذه البيانات وخلوها من الشوائب والتشويشات ..
وهذه الخطوه تسمى تهيئة البيانات ( Data preparation) وتمر هذه العمليه بعدة مراحل :-
* تنظيف البيانات :- هنا يتم التخلص من بعض البيانات التي تحتوي على عيوب مان تكون مطبعيه , او بيانات
قديمه لا تفيد في الوقت الحالي وغير ذالك . ( data cleaning )
* البيانات المفقوده :- عمليه تنقيب البيانات من اهم متطلباتها ان تكوت البيانات كامله لا تحتوي على قيم مفقوده ,
وهنالك طرق طبعا لاعداة هذه وتصحيح هذه البيانات , مثل الوسط الحسابي وغيرها من العمليات ( Missing value ) .
* اشتقاق البيانات :- في بعض الاحيان يستوجب اشتقاق بعض الاعمده فتساعدنا في الحصول على معلومات مفيده ( Data derivation ) .
* دمج البيانات :- في بعض الاحيان يتم دمج بعض الاعمده للحصول على نتائج افضل او الاختصار في البيانات ( Merging Data ) .
......................
الان بعد ان قمنا بتهيئة البيانات وتصحيحها , نأتي الى خطوة او كيفية دراسة البيانات , وهذه الطريقه
بالاساس تهمنا لكي نحدد طريقة تعلم هذه البيانات فاما ان تكون :-
** ( supervised learinig ) التعلم الاشرافي وهنا يكون بوجود هدف منشود والخوارزميه تحاول الوصول به من خلال
مجموعه من المتغيرات او المعطيات .او بمعنى اخر ان الخوارزميه المستخدمه تقوم بعمل الربط بين الهدف المنشود والمحدد سابقا
مع ما يرتبط مع من الحلول والاقتراحات الموجوده في مسار الحل ( التعلم ) مقارنة المتوقعه مع الهدف المحدد اصلا .( التعلم من خلال امثله)
مثال :- clssification
_ _ _ _
**( Un-Supervised learning ) وهنا تقوم بتجميع البيانات على شكل مجموعات تحتوي على بيانات متشابهه الخصائص
وذالك لتمييز بعض الاستثناءات بينها .( التعلم من غير معرفه مسبقه عن الحل الصحيح المطلوب)
مثال:- clustering .
................
تابع ......[/size]
كما قلنا سابقا اول خطوه في تنقيب عن البيانات كانت تهيئتها لننتقل لباقي الخطوات
_+_+_+_+_+_+_+_+_+_+_+_+_
الخطوه الثانيه :- ندرس الحاله ونتعرف عليها وطبعا نحدد هل تمثل
تعلم اشرافي او غير اشرافي كما وضحنا في الدرس السابق وهنالك نقاط مهمه يتم الاهتمام بها وسالخصها بنقطتين :-
1:- تحديد او التعريف بالدراسه التي نريد ان نقوم بها ينطوي على تحديد مجال قاعدة البيانات المستخدمه !!!!!!
مثال :- اول مجموعة بيانات لبناء النموذج وقاعدة بيانات اخرى للتحقق من صحة هذا النموذج ومجموعه اخر لايجاد
التكهنات او التوقعات لهذا النموذج .. ( التدريب , والتحقق ومجموعة الاختباراو الفحص ) .
2:- تحديد حجم العينه , وذالك لانه ليس بالضروره اجراء عملية التنقيب على كل البيانات الموجوده , فيمكن اختيار مجموعة من الصفوف
من خلال عينات عشوائيه .
-----------
الخطوه الثالثه :- قراءة البيانات وبناء النماذج !!!!؟؟؟؟
والنموذج يلخص حجم كبير من البيانات من خلال عدة مؤشرات كالاتي :-
من خلال الترددات او التكرارت :- فهو غالبا يظهر حدوث قيمه معينه ويبين كم نسبة التاكد من القيمه المحدثه .
من خلال الوزن او التاثير :- يظهر كيف ان بعض المدخلات تشير الى حدوث المخرجات , اي بمعنى اخر يوضح ان بعض الاعمده
مثلا لها اوزان عاليه .. يبين كيف المدخلات المشار اليها تعطي المخرج المطلوب.
من خلال الارتباطات :- بعض المدخلات لها اوزان عاليه عندما تكون مع بعض افضل من اوزانها عندما تكون منفرده .
التمايز او المفاضله :- تبين مدى اهمية اوزان ومعاير بعض المدخلات في المخرجات بالنسبه لغيرها من المدخلات .
من خلال تحديد الاختلاف في الاوزان والمعايير بينها ..
--------------
الخطوه الرابعه :- فهم النموذج ..
التالي والذي يمثل مجموعة بيانات اخذت من دراسة لارتفاع ضغط الدم ..
حيث بعض النماذج تمثل على اشكال ومنهجيات مختلفه كالصوره السابقه والتي كانت Decision tree
حيث تم فصل البيانات على اساس صفة العمر .
او مثلا نموذج الشبكه العصبونيه والذي انتقد على اساس انه الصندوق الاسود لتوسعه في استخدام مبدأ
التنبؤ .
لنفرض ان احدى البيانات نريد ان نجري لها تنقيب , فمراحل فهم النموذج الذي انشيء من هذه القاعده
من البيانات تشمل الاتي :-
1- ملخص النموذج :- يظهر الاوزان والترددات والارتباطات المهمه لكي توضح الهدف .
2- توزيع البيانات :- فمن المهم ان تكون البيانات كبيره كفاية لتمثيل العينه .
3- الفحص والمقارنه :-وتنطوي على استخدام التنبؤات التي يحققها النموذج المستخدم ومقارنة النتائج
الجديده بالنتائج المعروفه .
4- التحقق من فشل او نجاح التنبؤ :- معرفة لماذا النموذج فشل او نجح في النتؤ .
5- ومن ثم تحديد الصفوف التي تتعبر الافضل والاكثر خظا لتحقيق النتائج المرجوه ...
----------------
الخطوه الخامسه :-[/size] التنبؤ ( Prediction ) هي عملية التنبؤ بالنتائج بناءا على البيانات
الموجوده .
+_+_+_+_+_+_+_+_+_+_+_+_
DATA MINING MODELS
بعض التقنيات المستخدمه
Neural Networks****
Genetic Algorithms*****
Agent Technology*****
Decision Trees*****
Hybrid Models*****
Statistics ******
نكمل لاحقا ان شاء الله ..
بالتوفيق
المراجع:- .
[1] Siraj, F (2007). Data Mining Models and Tasks, data mining lecture.
[2] Dunham, M. H. (2003). Data Mining: Introductory and Advanced Topics, Prentice Hal
تم تعديل بواسطه hassan_82شارك هذا الرد
رابط المشاركة
شارك الرد من خلال المواقع ادناه