• 0
Guest hassan_82

تنقيب البيانات ( Data Mining)

سؤال

بسم الله الرحمن الرحيم

السلام عليكم ورحمة الله وبركاته

اخوتي الكرام اعضاء منتدى الفريق العربي للبرمجه ساقوم ان شاء الله في هذه المقاله بشرح علم تنقيب البيانات Data mining

والذي افضل ان اسميه استنباط البيانات باللغه

العربيه , مع اختلاف المسميات والتعريفات , فهو علم وتطبيق مهم جدا ولا سيما في العصر الحالي لما يقع تحته الكثير من التطبيقات

وهنالك العديد من المشاريع والمقالات التي طبقت هذه التقنيه ....

العناوين الرئيسيه :-

1:- تعريف تنقيب البيانات .

2:- لماذا نحتاج التنقيب في البيانات؟

.

3:-مهام تنقيب البيانات ( تعريفات وتطبيقات )

=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-

تعريف عام

تنقيب البيانات هي عملية تحليل للبيانات من خلال ربطها مع تقنيات الذكاء الاصطناعي والعمليات الاحصائيه في

تحليل هذه البيانات , وببساطه هي عملية تفتيش وبحث عن معلومات معينه ومفيده في حجم كبير من البيانات , وطبعا ذالك يتم من خلال

عملية الربط بين تحليل هذه البيانات وطرق الذكاء الاصطناعي لتصبح اكثر واكفئ في عملية التفتيش ...

وهي تعتبر خطوه من خطوات استكشاف المعرفه من قواعد البيانات ( Knowledge Discovery in Database, KDD)

لحظه :mad: ... ماهي KDD ؟

post-168424-12621569275906_thumb.jpg

KDD :- عدة مراحل من المعالجات والتي تمر بها البيانات لتحديد الانماط والانساق المهمه والمفيده والمفهومه

بها ( ببساطه وبدون تكلف كما تلاحظوا بالصوره المرفقه انها مجموعه من الخطوات التي تمر بها البيانات لتحقق الاستكشاف

الامثل والافضل للمعارف ).

_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+

لماذا نحتاج التنقيب اصلا ؟

من المعروف ان عملية تجميع البيانات في سجلات باحجام كبيره مثل ( Data warehouse) قد تحتوي هذه على معارف

كبيره والتي قد تكون مفيده لاصحابها من خلال معرفة العديد من الاحصاءات المطلوبه مستقبلا لذالك نحتاج تقنيات مختلفه

للاستفاده وهذا ما نريد من التنقيب في البيانات ,فالتقنيات العاديه قد لا تكون مفيده وغير عمليه في مثل هذه الاحجام الكبيره من

البيانات , لذالك تواجدت تقنيات الذكاء الاصطناعي ومنها data mining لتسهل وتحسن عمليه البحث و الاستنباط ...

_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_

طرق وانساق التنقيب في البيانات

1- طريقة التنبؤ (prediction method) :- استخدام البيانات المتوفره وتطبيق عليها تقنيات معينه لتحقيق واعطاء قيم مستقبليه ناجحه ...

2- طريقة الوصف ( Description method) :- عملية وصف للبيانات المتاحه ومعرفة تصنيفاتها حسب تواجدها والعلاقات بينها

من خلال المحاكاة للروابط الطبيعيه ( human interpretable) بمعنى اخر ناخذ الروابط من خلال التفاعل الطبيعي لكي نشرح

هذه البيانات ..

post-168424-12621606173898_thumb.jpg

++++++++++++++++++++++++++++++++++

لكي نفهم ما هو الذي يحصل في التنقيب اريد ان اوضح الفرق بين عملية الاستعلام العاديه على قواعد البيانات العاديه

والاستعلام في البيانات المنقبه ..

المثال التالي والذي يوضح الفرق في الاستعلام بين كلا النوعين ..

Data base Query vs.Data mining Query

الاستعلام عن معلومات في سوق تجاري ....

في قاعدة البيانات العاديه **** (Data base)

* الاستعلام عن المعلومات الكامله للزبائن الذين ينتهي اسمهم الثاني بخالد ..

* الاستعلام عن الزبائن الذين اشتروا بمبلغ اكثر من 1000 دينار في اخر الشهر.

* الاستعلام عن اسماء الزبائن الذين اشتروا الحليب .

التنقيب عن البيانات ***** ( Data mining )

* الاستعلام عن كل البطاقات الائتمانيه والتي عليها مشاكل .. وهذا يسمى ( classification) التصنيف .

* الاستعلام عن الزبائن الذين لديهم عادات شرائيه مماثله .. وهذا يسمى ( clustering ) التجمع او العناقيد .

* الاستعلام عن السلع التي يتم شراءها بشكل تزامني مع الحليب , المقصود في كل عملية شراء يقوم بها الزبائن ..

وهذه تسمى ( assoiciation rules ) اكتشاف قواعد وعلاقات الارتباط .

__________________________

كما تحدثنا سابقا عملية تنقيب البيانات تتم على السجلات ولكي تكون سليمه وتحقق الهدف منها , يجب ان يساعدها

خطوات الهدف منها اعادة تصحيح والتاكد من دقة هذه البيانات وخلوها من الشوائب والتشويشات ..

وهذه الخطوه تسمى تهيئة البيانات ( Data preparation) وتمر هذه العمليه بعدة مراحل :-

* تنظيف البيانات :- هنا يتم التخلص من بعض البيانات التي تحتوي على عيوب مان تكون مطبعيه , او بيانات

قديمه لا تفيد في الوقت الحالي وغير ذالك . ( data cleaning )

* البيانات المفقوده :- عمليه تنقيب البيانات من اهم متطلباتها ان تكوت البيانات كامله لا تحتوي على قيم مفقوده ,

وهنالك طرق طبعا لاعداة هذه وتصحيح هذه البيانات , مثل الوسط الحسابي وغيرها من العمليات ( Missing value ) .

* اشتقاق البيانات :- في بعض الاحيان يستوجب اشتقاق بعض الاعمده فتساعدنا في الحصول على معلومات مفيده ( Data derivation ) .

* دمج البيانات :- في بعض الاحيان يتم دمج بعض الاعمده للحصول على نتائج افضل او الاختصار في البيانات ( Merging Data ) .

......................

الان بعد ان قمنا بتهيئة البيانات وتصحيحها , نأتي الى خطوة او كيفية دراسة البيانات , وهذه الطريقه

بالاساس تهمنا لكي نحدد طريقة تعلم هذه البيانات فاما ان تكون :-

** ( supervised learinig ) التعلم الاشرافي وهنا يكون بوجود هدف منشود والخوارزميه تحاول الوصول به من خلال

مجموعه من المتغيرات او المعطيات .او بمعنى اخر ان الخوارزميه المستخدمه تقوم بعمل الربط بين الهدف المنشود والمحدد سابقا

مع ما يرتبط مع من الحلول والاقتراحات الموجوده في مسار الحل ( التعلم ) مقارنة المتوقعه مع الهدف المحدد اصلا .( التعلم من خلال امثله)

مثال :- clssification

_ _ _ _

**( Un-Supervised learning ) وهنا تقوم بتجميع البيانات على شكل مجموعات تحتوي على بيانات متشابهه الخصائص

وذالك لتمييز بعض الاستثناءات بينها .( التعلم من غير معرفه مسبقه عن الحل الصحيح المطلوب)

مثال:- clustering .

................

تابع ......[/size]

كما قلنا سابقا اول خطوه في تنقيب عن البيانات كانت تهيئتها لننتقل لباقي الخطوات

_+_+_+_+_+_+_+_+_+_+_+_+_

الخطوه الثانيه :- ندرس الحاله ونتعرف عليها وطبعا نحدد هل تمثل

تعلم اشرافي او غير اشرافي كما وضحنا في الدرس السابق وهنالك نقاط مهمه يتم الاهتمام بها وسالخصها بنقطتين :-

1:- تحديد او التعريف بالدراسه التي نريد ان نقوم بها ينطوي على تحديد مجال قاعدة البيانات المستخدمه !!!!!!

مثال :- اول مجموعة بيانات لبناء النموذج وقاعدة بيانات اخرى للتحقق من صحة هذا النموذج ومجموعه اخر لايجاد

التكهنات او التوقعات لهذا النموذج .. ( التدريب , والتحقق ومجموعة الاختباراو الفحص ) .

2:- تحديد حجم العينه , وذالك لانه ليس بالضروره اجراء عملية التنقيب على كل البيانات الموجوده , فيمكن اختيار مجموعة من الصفوف

من خلال عينات عشوائيه .

-----------

الخطوه الثالثه :- قراءة البيانات وبناء النماذج !!!!؟؟؟؟

والنموذج يلخص حجم كبير من البيانات من خلال عدة مؤشرات كالاتي :-

من خلال الترددات او التكرارت :- فهو غالبا يظهر حدوث قيمه معينه ويبين كم نسبة التاكد من القيمه المحدثه .

من خلال الوزن او التاثير :- يظهر كيف ان بعض المدخلات تشير الى حدوث المخرجات , اي بمعنى اخر يوضح ان بعض الاعمده

مثلا لها اوزان عاليه .. يبين كيف المدخلات المشار اليها تعطي المخرج المطلوب.

من خلال الارتباطات :- بعض المدخلات لها اوزان عاليه عندما تكون مع بعض افضل من اوزانها عندما تكون منفرده .

التمايز او المفاضله :- تبين مدى اهمية اوزان ومعاير بعض المدخلات في المخرجات بالنسبه لغيرها من المدخلات .

من خلال تحديد الاختلاف في الاوزان والمعايير بينها ..

--------------

الخطوه الرابعه :- فهم النموذج ..

التالي والذي يمثل مجموعة بيانات اخذت من دراسة لارتفاع ضغط الدم ..

post-168424-12621884553875_thumb.jpg

حيث بعض النماذج تمثل على اشكال ومنهجيات مختلفه كالصوره السابقه والتي كانت Decision tree

حيث تم فصل البيانات على اساس صفة العمر .

او مثلا نموذج الشبكه العصبونيه والذي انتقد على اساس انه الصندوق الاسود لتوسعه في استخدام مبدأ

التنبؤ .

لنفرض ان احدى البيانات نريد ان نجري لها تنقيب , فمراحل فهم النموذج الذي انشيء من هذه القاعده

من البيانات تشمل الاتي :-

1- ملخص النموذج :- يظهر الاوزان والترددات والارتباطات المهمه لكي توضح الهدف .

2- توزيع البيانات :- فمن المهم ان تكون البيانات كبيره كفاية لتمثيل العينه .

3- الفحص والمقارنه :-وتنطوي على استخدام التنبؤات التي يحققها النموذج المستخدم ومقارنة النتائج

الجديده بالنتائج المعروفه .

4- التحقق من فشل او نجاح التنبؤ :- معرفة لماذا النموذج فشل او نجح في النتؤ .

5- ومن ثم تحديد الصفوف التي تتعبر الافضل والاكثر خظا لتحقيق النتائج المرجوه ...

----------------

الخطوه الخامسه :-[/size] التنبؤ ( Prediction ) هي عملية التنبؤ بالنتائج بناءا على البيانات

الموجوده .

+_+_+_+_+_+_+_+_+_+_+_+_

DATA MINING MODELS

بعض التقنيات المستخدمه

Neural Networks****

Genetic Algorithms*****

Agent Technology*****

Decision Trees*****

Hybrid Models*****

Statistics ******

نكمل لاحقا ان شاء الله ..

بالتوفيق

المراجع:- .

[1] Siraj, F (2007). Data Mining Models and Tasks, data mining lecture.

[2] Dunham, M. H. (2003). Data Mining: Introductory and Advanced Topics, Prentice Hal

تم تعديل بواسطه hassan_82
5

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه

36 إجابة على هذا السؤال .

  • 0

لكي تصل الفكره والخوارزميات المطبقه في تنقيب البيانات اتمنى من الاخوه مراجعة الدروس المثبته عن الخوارزميه الجينيه و الشبكات العصبونيه فهي احدى الخوارزميات المطبقه في التنقيب عن البيانات فلا اريد ان ارجع اشرح الموضوعات مره اخرى ..

بالتوفيق .

تم تعديل بواسطه hassan_82
0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

السلام عليكم ورحمة الله وبركاته .........

الظاهر ان الموضوع اما غير مهم او انه لم تصل الفكره ولكي اوضح الفكره سوف اقوم بسرد مثال تطبيقي وارجوا من الله عز وجل ان تصل هذه الفكره , لانه

لدي شعور ان من يدخل هنا يقول في نفسه ما هذه الطلاسم والكلام غير المفهوم , الله المستعان ولكي لا يضيع هذا المجهود سوف ارفق هذا المثال بالشرح ان شاء

الله ....( هذا العمل من عملي الخاص لذالك لا يوجد مراجع رئيسه عن الموضوع انما مراجع ثانويه ) ..

لنبدأعلى بركة الله .....

+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+__++++++++++++++++++++++++_+____________________

لعمل التنقيب في البيانات تطبق خوارزميات ونماذج عديده لحل هذه المشاكل واحدى هذه النماذج او الخوارزميات او التطبيقات هي الشبكات العصبونيه ....

المثال التالي يوضح استخدام الشبكات العصبونيه في ايجاد التنبؤ لانواع زهرة السوسنه ( iris )

الان طريقة العمل لحل هذه المشكله من خلال قاعدة البيانات الموجوده في موقع UCI Machine Learning Repository

www.ics.uci.edu/~mlearn/MLSummary.html رابط الموقع

post-168424-12622448117005_thumb.jpg

Machine Learning Interface

اذا الان بعد قمنا بتحميل قاعدة البيانات التي تمثل انواع هذه الزهره من خلال عدد من الحقول والسجلات التي جمعت بالملاحظه

والتي تحتوي على خصائص وصفات معينه ...

هذه القاعده من البيانات قام بجمعها شخص اسمه فيشر , وتحتوي على اربع متغيرات يحدد على اساسها نوع الزهره وهي :- طول وعرض البتله

وطول وعرض السيبال , طبعا هذه المتغيرات تمثل اجزاء موجوده في هذه الزهره, وما قلنا يتم من خلالها تحديد نوع الزهره من اي نوع من الثلاثة انواع التاليه

.

1 = Setosa, 2 = Versicolor, 3 = Verginic

------

post-168424-12622455181902_thumb.jpg

بعد ان نتاكد من قاعدة البيانات انها لا تحتوي على اي اخطاء او مشاكل من خلال تهيئتها وعمل التصحيح لها ان وجدت مشاكل , نقوم بعمل التعلم لها , في الصوره

التاليه توضح كيف يتم تمثيل البيانات بعد ان قمنا بتصحيح الاخطاء , نقوم بعمل ما يمسى التسويه او التطبيع وهو يمثل تقريبا ثاني نقطه في الشبكات العصبونيه

حيث انه من اجل تطبيقها يجب ان يتم جعلها اي القيم اما بين( 0 و1 ) او (-1 و 1 ) وهذه مهمه جدا , نستطيع ان نقوم بذالك ببعض العمليات الحسابيه , وانا

استعضت عن هذه العمليات باستخدام تطبيق الشبكات العصبونيه بالمحاكاه وهو نظام موجود اصلا وبرنامج يحتوي على تطبيقات الشبكات العصبونيه (neural

connection simulation ) ونحصل على البيانات في اول مرحله كالصوره التاليه .. مخزنه في ملف CSV

post-168424-12622466663857_thumb.jpg

--------------------------------------------

ثم بعد ذالك باستخدام Neural Network Tool الموجوده في هذا البرنامج نعمل باقي الاجراءات من ادخال متغيرات خاصه وننشيء الاوزان لهذه البيانات ,

بتحديد عدد المستويات المخفيه والمدخلات وبالتالي يقوم البرنامج باجراء التدريب ونحصل على نسب تمثل مؤشرات ونتائج لكل هذه العمليات ...

للاسف لن استطيع ان اشرح الموضوع بتوسع كبير جدا وذالك لطوله وصعوبة شرحة لوجود تفصيلات كثيره جدا به انما حاولت ان اشير الى

الفكره بالمجمل ...

post-168424-12622470844488_thumb.jpg

-----

طريقة ادخال البيانات على البرنامج

post-168424-12622471864304_thumb.jpg

_________________________________

عملية التدريب لقاعدة البيانات

post-168424-12622473032696_thumb.jpg

_________________________________

بسكل عام هنا هدف هذا البرنامج او هذا التطبيق هو اجراء مجموعة من الاختبارات لقاعدة البيانات لكي نحصل على افضل النتائج المتوقه من خلال

اجراء التبديل في قيم المدخلات الجديده وبالتالي نحدد اي هذه المتغيرات الجديده افضل لتمثل افضل النماذج ........

بالتوفيق ...

تم تعديل بواسطه hassan_82
0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0
الظاهر ان الموضوع اما غير مهم او انه لم تصل الفكره

بالعكس اخي د. حسان انا من اشد المتابعين لهذا الموضوع، والشرح واضح.

بعض الملاحظات لمهمة.

1. يا ريت لو تحط رابط لبرنامج المحاكاة للشبكات العصبونيه.

2. عمل شرح ومقارنة لاهم طرق التنقيب عن البيانات في كل من الClassification وال Clustering وال AR لو يكون التطبيق على نفس مثال الIRIS.

وحتى لا اكون ضيف ثقيل هذه اضافة مني لكل مهتم بهذا الموضوع: :happy:

برنامج Orange :برنامج مفتوح المصدر بلغة بايثون Python (يبدو ان البايثون ستكون لغة البرمجة المستقبلية والخيار الافضل للاكاديميين)، البرنامج يحوي معظم طرق ال Machine Learning . اعجبني فيه سهولة استخدامه (اسهل من الويكا WEKA بكثير ) ، قابلية التعامل مع بيانات من البرامج الاخرى مثل Arff الخاص بالويكا وغيرها بالاضافة الى توفر plug in يمكن اضافتها اليه مثل حزمة ال Bioinformatic وال Text Mining كما انه يوفر مجموعة من البيانات القياسية المشهورة Standard data sets لاستخدامها في التجارب مثل IRIS المذكورة في المثال اعلاه.

يمكن تحميل برنامج orange من موقع البرنامج : http://www.ailab.si/orange/

وهذا رابط لحزمة الشبكات العصبونية ، يمكن اضافتها لبرنامج orange:

http://www.ra.cs.uni-tuebingen.de/SNNS/

بالتوفيق،

تم تعديل بواسطه ibr_exn
0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

بالعكس اخي د. حسان انا من اشد المتابعين لهذا الموضوع، والشرح واضح.

حلت الانوار اخي العزيز ابراهيم , اين انت يا صديقي تواجدك هنا ومشاركاتك دائما تكون ابداعيه فلا تحرمنا منها , ونحن طماعين بكم مقال ومواضيع منك اخي العزيز :evil:

بعض الملاحظات لمهمة.

1. يا ريت لو تحط رابط لبرنامج المحاكاة للشبكات العصبونيه.

لك ذالك اخي , سوف تجد في المرفقات البرنامج .. وعلى فكره قاعدة بيانات ال IRIS موجوده كمثال بها ...

2. عمل شرح ومقارنة لاهم طرق التنقيب عن البيانات في كل من الClassification وال Clustering وال AR لو يكون التطبيق على نفس مثال الIRIS.

لقد استخدمت في المثال السابق احدى طرق ال Classification

( CLASSIFYING IRIS PLANTS DATABASE USING NEURAL NETWORK ) .........

اما ال Clustering فتستخدم ال Kohonen network كتصميم لكي يقوم باداء عمليات العناقيد او التجميع ( وهو تصنيف غير خاضع للمراقبه ) ويدعم عمليات استنباط البيانات من نبتة ال IRIS فتقوم اخي هذه التجارب بتحديد ال Class اوTarget لنبتة ال IRIS على اساس اربع خصائص لها كما اشرت سابقا ( طول وعرض البتله وطول وعرض السيبال ) , طبعا Kohonen وجد ان استخدامه افضل من الطرق التقليديه في عمل التجميع ..

post-168424-12623143649809_thumb.jpg

Kohonen’s Self-Organizing Maps

وهنا لاحظنا ان في الصوره السابقه تم وضع كل عينه من المدخلات بنقاط في فضاء الحل او مجال التجميع, فمهمة ال clustering لتجميع هذه المدخلات في فضاء العمل على شكل مجموعات جزئيه وكل مجموعة جزئية تم انشاءها في هذا الفضاء تحتوي على نقاط متقاربه في ما بينها اي بينها مسافات اما ان تكون متشابه او قريبه اكثر من قربها الى النقاط في باقي المجموعات الجزئيه الاخرى ( هذه المجموعات تسمى clusters ) ..

وعلى فكره اول تقنيه تم استخدامها لايجاد افضل الحلول في الجوار كانت ال clustering من خلال جمع الدلائل بين هذه الحلول .........:) :) شاعر اني خرجت عن الموضوع ولا شو ؟؟ :) :)

بناءا على قاعدة البيانات المستخدمه سابقا فنجد انها صنفت هذه الزهره الى ثلاث انواع (اصناف) setosa , virginca,versicolor بناءا على اربع خصائص بكل صنف او نوع (الطول وعرض البتله , والطول وعرض السيبال ) ..

جميل..... الان ال Kohonen هي شبكه غير خاضعه للاشراف او الرقابه في التعلم, وبما انها لا تتطلب وجود هدف في عملية التدريب و الفحص فهي تختلف عن المثال السابق (اقصد في المشاركه السابقه) الذي استخدمت فيه النتائج او الاهداف كوسيله مهمه لعملية التدريب والفحص :) , حيث انه في ال kohonin كل المدخلات ينظر لها على اساس انها اهداف مرجوه يصار الى عملية التجميع على اساسها .....

الصوره التاليه تمثل كيف تتم عملية توزيع البيانات

post-168424-12623160445781_thumb.jpg

في هذا النوع من التجارب يطبق عمليا Learning rate بين 0.1 - 1.0 كالرسم التالي ....

post-168424-12623164454948_thumb.jpg

ثم نقوم بالتجارب ,,,, حيث ان انماط التجمع ترتبط بمقدار التعلم ( learning rate ) , وبعدها نقوم بتحديد عدد هذه التجمعات من خلال التجارب يعني مثلا ان نقول ( 4 clusters بين 0 و 3 ) و( 9 clusters بين 0 و8 ) ونجري التجارب عليها بتغير قيمة التعلم learning rate , فتضهر لنا اي النتائج تكون افضل هل في حالة التجمعات ال 4 ام في حالة التجمعات 9 , طبعا كل هذا يتم باستخدام الادوات الموجوده داخل هذا البرنامج , فمثلا في حالة IRIS كانت ال 9 تجمعات نتائجها افضل من الاخرى ............... هذا باختصار جدا ....

في المرفقات ملف يشرح ال kohonen بشكل عام انصح لمن اراد الاستزاده قراءته .....

اي شيء غير مفهوم ارجو السؤال ...

بالتوفيق ان شاء الله

اخي ابراهيم لا تنسى تدعمنا بشوية مقالات ... حسب وقت فراغك طبعا بارك الله فيك ..

Neural Connection.rar

T9.EVIC2005v2.pdf

تم تعديل بواسطه hassan_82
0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

ماشاء الله أخي حسان

وفيت وكفيت بشكل موجز وبسيط وبلغة عربية لائقه.

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

ما هوا النظام الغذائي الذي تتبعونه حتى تفهموا مثل هذه الأشياء :wacko: :lol:

في الحقيقة ما زلت لم أفهم ميزة الdata mining بالمقارنة مع قواعد البيانات العادية. فهاته الأخيرة تتيح لنا استرجاع أي معلومة وبحسب أي شرط نحدده.

هل هناك تطبيقات أو مواقع موجودة تستعمل ال data mining؟؟ مثلا هل محركات البحث تستعمله؟؟

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0
في الحقيقة ما زلت لم أفهم ميزة الdata mining بالمقارنة مع قواعد البيانات العادية

القدرة على التوقع اعتماداً على البيانات الحالية

مثال : لدى شركتك منتج يتم بيعه فى مناطق مختلفة يمكنك بالطرق العادية الحصول على بيانات التسويق الحالية اعتماداً على معايير تضعها انت و لكنك لا تستطيع توقع مبيعات هذا المنتج فى خلال عام مثلاً لمنطقة جغرافية معينة

مثال اخر : تقوم شركتك بتوظيف عدد من المهندسين للعمل لديها و لكنها تشترط فى الوظائف ان يكون المتقدمون لها على نفس كفائة الموظفين الحاليين .... بامكانك مقارنة و فرز السير الذاتية للمتقدمين و مقارنتها بالموظفين الحاليين و خبراتهم (هذه حالة عملية من مايكروسوفت حول ال OLAP)

مثال اخر : تقوم بعمليات شراء من امازون لنوعية من الكتب فتقوم امازون بعرض كتب مشابه لما تريد و فى حدود منطقة الجغرافية

كيف تم ذلك ؟ عن طريق دراسة عاداتك الشرائية و من ثم اقتراح ما يمكنك و ماتود شرائه

مثال اخر : فى البنوك يتم تصنيف العملاء لفئات و انا ضمن تصنيف العملاء (أ) اى العملاء الذى لهم تعاملات مالية كبيرة مع البنك و لدى ابنتى حساب فى هذا البنك و لكنها مصنفة ضمن التصنيف (ه) و هو اقل مستوى للعملاء و بالتالى تتعرض لوقت طويل حتى تنهى معاملاتها بالبنك

لو استطاع موظف البنك الربط (إيجاد علاقة) بين ابنتى و بينى لاختلفت المعاملة

معها

مثال اخر : احد المتاجر الشهيرة لديه عدة فروع و فى احد التقارير الشهرية زجد مدير المبيعات ان هناك زيادة فى شراء الحليب الجاف (الخاص بالاطفال) باحد المناطق دون غيرها لعدة اشهر

لو قام هذا المدير بربط معلومة انشاء و تشغيل مستشفى للاطفال و الولادة بهذه المنطقة لاستطاع نقل تكلفة تسويق هذا المنتج لمناطق اخرى يحتاج للتسويق بها و لقام بدفع عروض ترويجية لمنتجات اخرى خاصة بالاطفال حديثى الولادة

تم تعديل بواسطه طارق إبراهيم
1

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

وصلت الفكرة :)

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

جميل اخي طارق مثال جميل بارك الله فيك ...

اخي عصام هنالك مثال يستخدم احدى تقنيات ال Data mining وهي ال Association Rule ومبدا عملها هو ايجاد روابط بين البيانات وجعلها ذات ارتباطات تفضي الى تحقيق استنتاجات ودلائل اخرى ..

مثال بسيط :- وهذا من اهم واشهر الامثله على هذه التقنيه , لنفرض ان لدينا قاعدة بيانات لاحدى الاسواق التجاريه الكبيره ونريد ان نعلم ما هي الارتباطات بين السلع التي يقوم الزبائن بشرائها لتحديد ماذا نحتاج ان نوفر من هذه السلع او فهم العلاقات بينها ومعرفة القدره الشرائيه والمواد الاكثر مبيعا وغيرها ..

لنفرض اذا ان لدينا قاعدة بيانات تمثل العمليات الشرائيه التي قام بها هؤولاء الزبائن خلال شهر مثلا ( السلة الشرائيه ) كل سله تمثل record وكل سلعه تمثل Atribute , وبما ان حجم هذه البيانات لا يوفر علينا عملية التحقق من السلع الاكثر مبيعا او الترابط بين هذه السلع . ......

وهنا ياتي دور ال Association rule , فما تقوم به هذه التقنيه باستخدام العديد من الانظمه التي تولد قواعد Rules مثل الRoseta او Weka من قاعدة البيانات التي قمنا بجمعها فنحصل مثلا على :-

حليب وشاي و سكر والعديد من القواعد التي تمثل الروابط بين كل السلع الموجوده في هذه القاعده من البيانات , وغيرها من القواعد الاخرى Rules , فيقوم النظام الذي اخترنا باعطائها قيم نسبيه تبنى على اساس تواجد السلع في القواعد التي تم توليدها , ومن ثم تصبح عملية التحقق من السلع اكثر لوينه واسهل وتحقق ايظا نتائج ادق في بناء قواعد جديده قد نبني عليها نتائج مستقبليه ككميات السلع التي يفضل توفيرها في السوق او السلع الاكثر مبيعا والعلاقات بينها , فهنا مثلا نقول انه يجب توفير السكر والشاي مع بعضهما البعض ويجب التاكد من توفرهما في نفس الوقت بناءا على القواعد التي استخرجناها .

مثال :-

بناءا على القواعد الموجوده حصلنا مثلا على نسب تأييد للشاي فكانت 80 والسكر 60 بمعنى تواجد هذه السلع في كل عمليه شرائيه .

الان نسبة تواجدها مع بعض ( شاي , سكر ) = 60

غالبا لعملية الفحص بين هاتين السلعتين نولد قاعدتين وهما :-

1 :- شاي ----------> سكر

2:- سكر -----------> شاي

وما نريده هنا هو ايجاد نسبة الموثوقيه لهذه السلع اي بمعنى ما مدى اهمية احداهما للاخرى ونسبة توفر السلعه بناءاً على توفر السلعه الاخرى , حيث يتم حساب هذه القيمه على اساس القاعدة الحسابية التاليه :-

قيمة الموثوقيه = نسبة تواجدهما مع بعض / نسبة التاييد للسلعه( نسبة تواجدها في القواعد بشكل عام ) .

اذا لنرجع الى القواعد التي تولدت سابقا :-

1 شاي ------------> سكر :- 60 / 80 = 0.75 وهنا نقول انه عندما نشتري السكر من الافضل شراء الشاي بنسبة 75%.

2 سكر ------------> شاي :- 60 / 60 = 1 ----------------------------- الشاي من الافضل شراء السكر بنسبة 100%

والله اعلم ..

تحياتي

1

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

شكرا :wub:

هل تستعمل هذه التقنيات على نطاق واسع في ارض الواقع؟؟

وأيضا هل هذه العمليات تتم على مستوى مدير قاعدة البيانات؟؟ يعني هل هناك قواعد بيانات تدعم هذه العمليات، أم أنه يلزم كتابة برامج تقوم بذلك :unsure:

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0
هل تستعمل هذه التقنيات على نطاق واسع في ارض الواقع؟؟

فى شركات الاتصالات و المتاجر الكبرى و تطبيقات ال ERP

وأيضا هل هذه العمليات تتم على مستوى مدير قاعدة البيانات؟؟ يعني هل هناك قواعد بيانات تدعم هذه العمليات، أم أنه يلزم كتابة برامج تقوم بذلك

MS SQL Server و أوراكل و PostgreSQL تدعم ال Warehousing و ال OLAP

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

:thumb_up:

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

وهذه ايظا للاخ طارق 015.gif

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

وهذه ايظا للاخ طارق 015.gif

:ty: اخ طارق صحيح كلامك مئه في المئه

ولكن أريد ان انوه الأخ الكريم ان يشوف اهتمامه ويشوف ايش متطلبات الوظائف ضمن اهتمامه

ومحاولة استكمال النواقص

فكل انظمة قواعد البيانات لديها ماذكر الأخ طارق ولكنها كلها أدوات وأهم شي افهم الأساس النظري وأتميز في واحده من هذه الأدوات طبقا لأحتياجات سوق العمل

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

اعتقد ان الاوراكل و انظمة ادارة قواعد البيانات المشهورة توجد بها ادوات للتنقيب عن البيانات و ادارة البيانات بشكل ذكي business intelligence

يمكن مراجعة الروابط التاليه

Oracle Enterprise Performance Management and Business Intelligence

Oracle Data Mining

بالتوفيق،

1

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

جزاك الله خير على هذا الشرح الممتع

سؤال

هل الطرق واللوغاريثميات المستخدمة في data mining نستطيع استخدامها في multimedia data mining ؟ اذا الإجابة لا لماذا لا نستطيع استخدامها؟

شاكرا لك

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

والله انت رائع يا اخي hassan في طرح مواضيع مهمة باسلوب مبسط اتذكر مشروع عن ( التقييم التلقائي للمفالات ) حبث كان يستخدم خوارزمية تاخذ الكلمات وتستخدم قسم منها ك feature ويربط فيما بينها بعلاقات ... بعد ذلك تبدا مرحلة التعليم بان تعطيه سؤال ( تكلم عن النظم الخبيرة ) ومعها عدد من الاجوبة المصححة سابقا ومفسمة الى مجاميع (a b c d f) فيقوم هو استخراج نسبة لكل feature ,, وتلك التي ستساعده في تقييم الدرجة لاي جواب (مرحلة الاختبار) الله يوفقكم لما يُحب ويرضى

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

هل الطرق واللوغاريثميات المستخدمة في data mining نستطيع استخدامها في multimedia data mining ؟

نعم نستطيع اخي بارك الله فيك ..

والله انت رائع يا اخي hassan في طرح مواضيع مهمة باسلوب مبسط اتذكر مشروع عن ( التقييم التلقائي للمفالات ) حبث كان يستخدم خوارزمية تاخذ الكلمات وتستخدم قسم منها ك feature ويربط فيما بينها بعلاقات ... بعد ذلك تبدا مرحلة التعليم بان تعطيه سؤال ( تكلم عن النظم الخبيرة ) ومعها عدد من الاجوبة المصححة سابقا ومفسمة الى مجاميع (a b c d f) فيقوم هو استخراج نسبة لكل feature ,, وتلك التي ستساعده في تقييم الدرجة لاي جواب (مرحلة الاختبار) الله يوفقكم لما يُحب ويرضى

اهلا وسهلا بك اخي العزيز ..

يا حبذا لو ترفق شرح لهذا الموضوع فيما بعد لكي تعم الفائده ونتشارك به لعلنا نخرج بتطبيق وننفذه هنا في المنتدى ان شاء الله ..

بالتوفيق .

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

السلام عليكم ورحمة الله

من مدة طويلة لم ادخل للمنتدى وخصوصا بعد متابعتي قبل 5 سنوات بدقة وبعده عدت لمتابعة قبل سنتين تقريبا

والان ادرس في الماجستير وصراحة هذا الموضوع جاء في وقته وخصوصا حتى الان مازالت في بداية الدراسة وليس عندي خبرة الكافية

والدراسة والمفاهيم حذيثه وبالغة الانجليزية ومتطورة والمواد مطالبه كثيرة .

حاليا لا استطيع ان اضيف شيئا لانني مازالت ليست لديه دراية بما تقوله ولكن بارك الله فيك لانني ساستفيد كثيرا وستختصر عليه وقتا طويلا لدراسة تنقيب البيانات

فعلى الاقل استطيع الان البدء من نقطة حتى اصل الى ما اريده .

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

ما شاء الله عليكم

يجزيكم الله خير

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

السلام عليكم

المهندس : حسان

أريد توضيح طريقة استخدام data mining in education or finance

أنا عندي موضوع مناقشة , لو الافضل الرد على الخاص وهذا الايميل

[email protected]

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

السلام عليكم

صحيح انو انا جديد بالموقع والموضوع الو فترة بس بصراحة انو

بدي اشكر الجميع الي شاركو في الموضوع لانو مهم جدا وحابي

اذا حدا بشرح Assioation Rule

مع اعطاء كمان أمثلة والكل مشكور لان الموضوع رائع جدا

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

موضع رائع ووفي غاية الاهمية، ونشكر الاخ حسن على هذا الاسلوب الرائع في العرض، انا الان داخل جديد الى عالم التنقيب بالبيانات، انا شغال على " KNN Arabic Text Classification with N-Grams Based Document Indexing "، وبحاول اعمل تطيبق له، بفكر استخدم لغة السي شارب، فما بعرف اذا ممكن ترشدوني لطريقة البدء في هذا المشروع وماهي اقتراحاتكم لبدء التطبيق، باستخدام هذه اللغة او انكم تنصحوني باستخدام لغة اخرى ( افضل السي شارب لاني بشتغل فيها كويس )...

وشكرا

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

شكرا كتير إلك ع هالمجهود الطيب والموضوع المهم

أدعو الله أن ينفع بك الاسلام والمسلمين

تحيتي ..

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه
  • 0

السلام عليكم

جزاك الله خيرا اخ حسان انت والاخوة بارك الله فيكم

وهناك استفسار ما هى الطريقة الاحصائية الاعم التى تستخدم لتحديد الوزن والتأثير ، وايضا لتحديد التمايز والمفاضلة ؟

0

شارك هذا الرد


رابط المشاركة
شارك الرد من خلال المواقع ادناه

من فضلك سجل دخول لتتمكن من التعليق

ستتمكن من اضافه تعليقات بعد التسجيل



سجل دخولك الان

  • يستعرض القسم حالياً   0 members

    لا يوجد أعضاء مسجلين يشاهدون هذه الصفحة .