• 0
Guest hassan_82

تنقيب البيانات ( Data Mining)

سؤال

بسم الله الرحمن الرحيم

السلام عليكم ورحمة الله وبركاته

اخوتي الكرام اعضاء منتدى الفريق العربي للبرمجه ساقوم ان شاء الله في هذه المقاله بشرح علم تنقيب البيانات Data mining

والذي افضل ان اسميه استنباط البيانات باللغه

العربيه , مع اختلاف المسميات والتعريفات , فهو علم وتطبيق مهم جدا ولا سيما في العصر الحالي لما يقع تحته الكثير من التطبيقات

وهنالك العديد من المشاريع والمقالات التي طبقت هذه التقنيه ....

العناوين الرئيسيه :-

1:- تعريف تنقيب البيانات .

2:- لماذا نحتاج التنقيب في البيانات؟

.

3:-مهام تنقيب البيانات ( تعريفات وتطبيقات )

=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-

تعريف عام

تنقيب البيانات هي عملية تحليل للبيانات من خلال ربطها مع تقنيات الذكاء الاصطناعي والعمليات الاحصائيه في

تحليل هذه البيانات , وببساطه هي عملية تفتيش وبحث عن معلومات معينه ومفيده في حجم كبير من البيانات , وطبعا ذالك يتم من خلال

عملية الربط بين تحليل هذه البيانات وطرق الذكاء الاصطناعي لتصبح اكثر واكفئ في عملية التفتيش ...

وهي تعتبر خطوه من خطوات استكشاف المعرفه من قواعد البيانات ( Knowledge Discovery in Database, KDD)

لحظه :mad: ... ماهي KDD ؟

post-168424-12621569275906_thumb.jpg

KDD :- عدة مراحل من المعالجات والتي تمر بها البيانات لتحديد الانماط والانساق المهمه والمفيده والمفهومه

بها ( ببساطه وبدون تكلف كما تلاحظوا بالصوره المرفقه انها مجموعه من الخطوات التي تمر بها البيانات لتحقق الاستكشاف

الامثل والافضل للمعارف ).

_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+

لماذا نحتاج التنقيب اصلا ؟

من المعروف ان عملية تجميع البيانات في سجلات باحجام كبيره مثل ( Data warehouse) قد تحتوي هذه على معارف

كبيره والتي قد تكون مفيده لاصحابها من خلال معرفة العديد من الاحصاءات المطلوبه مستقبلا لذالك نحتاج تقنيات مختلفه

للاستفاده وهذا ما نريد من التنقيب في البيانات ,فالتقنيات العاديه قد لا تكون مفيده وغير عمليه في مثل هذه الاحجام الكبيره من

البيانات , لذالك تواجدت تقنيات الذكاء الاصطناعي ومنها data mining لتسهل وتحسن عمليه البحث و الاستنباط ...

_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_

طرق وانساق التنقيب في البيانات

1- طريقة التنبؤ (prediction method) :- استخدام البيانات المتوفره وتطبيق عليها تقنيات معينه لتحقيق واعطاء قيم مستقبليه ناجحه ...

2- طريقة الوصف ( Description method) :- عملية وصف للبيانات المتاحه ومعرفة تصنيفاتها حسب تواجدها والعلاقات بينها

من خلال المحاكاة للروابط الطبيعيه ( human interpretable) بمعنى اخر ناخذ الروابط من خلال التفاعل الطبيعي لكي نشرح

هذه البيانات ..

post-168424-12621606173898_thumb.jpg

++++++++++++++++++++++++++++++++++

لكي نفهم ما هو الذي يحصل في التنقيب اريد ان اوضح الفرق بين عملية الاستعلام العاديه على قواعد البيانات العاديه

والاستعلام في البيانات المنقبه ..

المثال التالي والذي يوضح الفرق في الاستعلام بين كلا النوعين ..

Data base Query vs.Data mining Query

الاستعلام عن معلومات في سوق تجاري ....

في قاعدة البيانات العاديه **** (Data base)

* الاستعلام عن المعلومات الكامله للزبائن الذين ينتهي اسمهم الثاني بخالد ..

* الاستعلام عن الزبائن الذين اشتروا بمبلغ اكثر من 1000 دينار في اخر الشهر.

* الاستعلام عن اسماء الزبائن الذين اشتروا الحليب .

التنقيب عن البيانات ***** ( Data mining )

* الاستعلام عن كل البطاقات الائتمانيه والتي عليها مشاكل .. وهذا يسمى ( classification) التصنيف .

* الاستعلام عن الزبائن الذين لديهم عادات شرائيه مماثله .. وهذا يسمى ( clustering ) التجمع او العناقيد .

* الاستعلام عن السلع التي يتم شراءها بشكل تزامني مع الحليب , المقصود في كل عملية شراء يقوم بها الزبائن ..

وهذه تسمى ( assoiciation rules ) اكتشاف قواعد وعلاقات الارتباط .

__________________________

كما تحدثنا سابقا عملية تنقيب البيانات تتم على السجلات ولكي تكون سليمه وتحقق الهدف منها , يجب ان يساعدها

خطوات الهدف منها اعادة تصحيح والتاكد من دقة هذه البيانات وخلوها من الشوائب والتشويشات ..

وهذه الخطوه تسمى تهيئة البيانات ( Data preparation) وتمر هذه العمليه بعدة مراحل :-

* تنظيف البيانات :- هنا يتم التخلص من بعض البيانات التي تحتوي على عيوب مان تكون مطبعيه , او بيانات

قديمه لا تفيد في الوقت الحالي وغير ذالك . ( data cleaning )

* البيانات المفقوده :- عمليه تنقيب البيانات من اهم متطلباتها ان تكوت البيانات كامله لا تحتوي على قيم مفقوده ,

وهنالك طرق طبعا لاعداة هذه وتصحيح هذه البيانات , مثل الوسط الحسابي وغيرها من العمليات ( Missing value ) .

* اشتقاق البيانات :- في بعض الاحيان يستوجب اشتقاق بعض الاعمده فتساعدنا في الحصول على معلومات مفيده ( Data derivation ) .

* دمج البيانات :- في بعض الاحيان يتم دمج بعض الاعمده للحصول على نتائج افضل او الاختصار في البيانات ( Merging Data ) .

......................

الان بعد ان قمنا بتهيئة البيانات وتصحيحها , نأتي الى خطوة او كيفية دراسة البيانات , وهذه الطريقه

بالاساس تهمنا لكي نحدد طريقة تعلم هذه البيانات فاما ان تكون :-

** ( supervised learinig ) التعلم الاشرافي وهنا يكون بوجود هدف منشود والخوارزميه تحاول الوصول به من خلال

مجموعه من المتغيرات او المعطيات .او بمعنى اخر ان الخوارزميه المستخدمه تقوم بعمل الربط بين الهدف المنشود والمحدد سابقا

مع ما يرتبط مع من الحلول والاقتراحات الموجوده في مسار الحل ( التعلم ) مقارنة المتوقعه مع الهدف المحدد اصلا .( التعلم من خلال امثله)

مثال :- clssification

_ _ _ _

**( Un-Supervised learning ) وهنا تقوم بتجميع البيانات على شكل مجموعات تحتوي على بيانات متشابهه الخصائص

وذالك لتمييز بعض الاستثناءات بينها .( التعلم من غير معرفه مسبقه عن الحل الصحيح المطلوب)

مثال:- clustering .

................

تابع ......[/size]

كما قلنا سابقا اول خطوه في تنقيب عن البيانات كانت تهيئتها لننتقل لباقي الخطوات

_+_+_+_+_+_+_+_+_+_+_+_+_

الخطوه الثانيه :- ندرس الحاله ونتعرف عليها وطبعا نحدد هل تمثل

تعلم اشرافي او غير اشرافي كما وضحنا في الدرس السابق وهنالك نقاط مهمه يتم الاهتمام بها وسالخصها بنقطتين :-

1:- تحديد او التعريف بالدراسه التي نريد ان نقوم بها ينطوي على تحديد مجال قاعدة البيانات المستخدمه !!!!!!

مثال :- اول مجموعة بيانات لبناء النموذج وقاعدة بيانات اخرى للتحقق من صحة هذا النموذج ومجموعه اخر لايجاد

التكهنات او التوقعات لهذا النموذج .. ( التدريب , والتحقق ومجموعة الاختباراو الفحص ) .

2:- تحديد حجم العينه , وذالك لانه ليس بالضروره اجراء عملية التنقيب على كل البيانات الموجوده , فيمكن اختيار مجموعة من الصفوف

من خلال عينات عشوائيه .

-----------

الخطوه الثالثه :- قراءة البيانات وبناء النماذج !!!!؟؟؟؟

والنموذج يلخص حجم كبير من البيانات من خلال عدة مؤشرات كالاتي :-

من خلال الترددات او التكرارت :- فهو غالبا يظهر حدوث قيمه معينه ويبين كم نسبة التاكد من القيمه المحدثه .

من خلال الوزن او التاثير :- يظهر كيف ان بعض المدخلات تشير الى حدوث المخرجات , اي بمعنى اخر يوضح ان بعض الاعمده

مثلا لها اوزان عاليه .. يبين كيف المدخلات المشار اليها تعطي المخرج المطلوب.

من خلال الارتباطات :- بعض المدخلات لها اوزان عاليه عندما تكون مع بعض افضل من اوزانها عندما تكون منفرده .

التمايز او المفاضله :- تبين مدى اهمية اوزان ومعاير بعض المدخلات في المخرجات بالنسبه لغيرها من المدخلات .

من خلال تحديد الاختلاف في الاوزان والمعايير بينها ..

--------------

الخطوه الرابعه :- فهم النموذج ..

التالي والذي يمثل مجموعة بيانات اخذت من دراسة لارتفاع ضغط الدم ..

post-168424-12621884553875_thumb.jpg

حيث بعض النماذج تمثل على اشكال ومنهجيات مختلفه كالصوره السابقه والتي كانت Decision tree

حيث تم فصل البيانات على اساس صفة العمر .

او مثلا نموذج الشبكه العصبونيه والذي انتقد على اساس انه الصندوق الاسود لتوسعه في استخدام مبدأ

التنبؤ .

لنفرض ان احدى البيانات نريد ان نجري لها تنقيب , فمراحل فهم النموذج الذي انشيء من هذه القاعده

من البيانات تشمل الاتي :-

1- ملخص النموذج :- يظهر الاوزان والترددات والارتباطات المهمه لكي توضح الهدف .

2- توزيع البيانات :- فمن المهم ان تكون البيانات كبيره كفاية لتمثيل العينه .

3- الفحص والمقارنه :-وتنطوي على استخدام التنبؤات التي يحققها النموذج المستخدم ومقارنة النتائج

الجديده بالنتائج المعروفه .

4- التحقق من فشل او نجاح التنبؤ :- معرفة لماذا النموذج فشل او نجح في النتؤ .

5- ومن ثم تحديد الصفوف التي تتعبر الافضل والاكثر خظا لتحقيق النتائج المرجوه ...

----------------

الخطوه الخامسه :-[/size] التنبؤ ( Prediction ) هي عملية التنبؤ بالنتائج بناءا على البيانات

الموجوده .

+_+_+_+_+_+_+_+_+_+_+_+_

DATA MINING MODELS

بعض التقنيات المستخدمه

Neural Networks****

Genetic Algorithms*****

Agent Technology*****

Decision Trees*****

Hybrid Models*****

Statistics ******

نكمل لاحقا ان شاء الله ..

بالتوفيق

المراجع:- .

[1] Siraj, F (2007). Data Mining Models and Tasks, data mining lecture.

[2] Dunham, M. H. (2003). Data Mining: Introductory and Advanced Topics, Prentice Hal

تم تعديل بواسطه hassan_82
5

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه

36 إجابة على هذا السؤال .

  • 0

السلام عليكم ..أخي دكتور حسان مطلوب مني عمل برنامج بلغة بر مجة معينة يقوم بعملية cleaning التي نقوم بها يدويا والمتمثلة في حساب القيم المفقودة والغير متناسقة ...الخ ..هل من الممكن أدائه و ما مدى سهولة او صعوبة أداء هذا البرنامج كما أنه مطلوب ربطه بالنت ما مدى إمكانيه أداء ذلك ..بارك الله فيك على المعلومات القيمة المطروحة في مجال data mining

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

د.حسان بارك الله فيك

شرح جميل ومفيد ونظرا لعدم معرفتي بالذكاء الاصنطناعي وانحصاري في الداتا بيز انا شايف انها معلومات مفيده جدا وشكرا

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

موضوع رائع اخي

بالمناسبة انا اعمل الان على مشروع (Network Security using Data mining) لكن المشكلة اني اعاني من قلة المصادر

اتمنى مساعدتك اخي في هذا المجال

تحياتي لمجهودك الممتاز

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

بسم الله الرحمن الرحيم

:)

شكرا جزيلا للجميع على هذه المعلومات فيما يخص التنقيب عن البيانات،

محتاج تفاصيل اكثر في موضوع تنظيف البيانات Data cleaning or Data Cleansing or Data Scrubbing

مع جزيل الشكر والتقدير

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

بسم الله الرحمن الرحيم

انتظر بفارغ الصبر تفاصيل عن تنظيف البيانات كجزء من التنقيب عن البيانات

بحثت في النت وجدت موضوع الجوانب الاحصائية التنقيب عن البيانات Statistical Aspects of Data Mining

وهذا الرابط يتضمن المحاضرات

http://www.stats202.com/original_index.html

وهذا الرابط يتضمن الفديو الخاص بالمحاضرات

http://www.google.com/search?q=mease%20stats%20202&sitesearch=&tbm=vid

علما انه هذه المادة احد مقررات جامعة (stanford) ستنانفورد Statistics 202: Statistical Aspects of Data Mining

ان شاء الله تستفادون منها.

دعواتكم

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

شكرا لكل من أثرى في هذا الموضوع , و أتمنى ممن لديه المعلومة الكافية لشرح كيفية بناء data warehouse عن طريق اوراكل أن يقوم بذلك و أيضا بالنسبة لأداة oracle discoverer التي تقوم بالتنقيب

أرجو ممن لديه المعرفة الا يبخل بالمعلومات لحاجتي الماسة لها

أتمنى الاستجابة السريعة منكم يا اعضاء المنتدى

و شكرا

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

من البرامج الأكثر استخداما في التنقيب في البيانات هو

rapidminer

برنامج مفتوح المصدر و لديه اضافات راقية في التنقيب في الصور و النصوص و استكشاف القوانين يمكن تحميله من رابط البرنامج

 

http://rapidminer.com/

مشكور أخي العزيز الشرح كافي و وافي للتعريف بأهمية هذا الموضوع

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

موضوع اكثر من رائع وامثال جميلة مشكور على المجهود العظيم

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

السلام عليكم و رحمة الله وبركاته

أنا عضو جديد بالمنتدي .. أعجبني أسلوبك في عرض الموضوع بطريقة سلسة و مُنظمة  .. أريد التعرف أكثر علي تلخيص النصوص أو المستندات الإلكترونية ( بإستخدام التنقيب عن البيانات ) للأهمية

 وشكرا"

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

مرحبا . ممكن نفس الشرح بالضبط عن الداتا مايننك لكن بالانكليزى لكن بهذا المختصر الموجود فوق بالعربى 

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

مرحبا . محتاجة روابط خاصة بهذ الموضوع وكيفية العمل  عليه ومن لدية قدرة على شرح الموضوع بالعربى اكون شاكرا جدا لكم لان محتاجته ضرورى 

metagenomic database construction and Analysis of metogenome data using databases 

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه

من فضلك سجل دخول لتتمكن من التعليق

ستتمكن من اضافه تعليقات بعد التسجيل



سجل دخولك الان

  • يستعرض القسم حالياً   0 members

    لا يوجد أعضاء مسجلين يشاهدون هذه الصفحة .