تحليل البيانات

تحليل البيانات Data analysis، هي عملية فحص، تطهير، تحويل ونمذجة البيانات بهدف الكشف عن المعلومات المفيدة، استنباط الاستنتاجات ودعم اتخاذ القرارات. لتحليل البيانات جوانب وأساليب متعددة، تشمل تقنيات متنوعة تحت مجموعة متنوعة من الأسماء، ويستخدم في مجالات تجارية وعلمية وعلمية اجتماعية مختلفة. في عالم الأعمال اليوم، يلعب تحليل البيانات دوراً هاماً في اتخاذ قرارات أكثر علمية ومساعدة الشركات على العمل بشكل أكثر فعالية.[1]

التنقيب في البيانات هي تقنية معينة لتحليل البيانات تركز على نمذجة واكتشاف المعرفة لأغراض تنبؤية وليست وصفية بحتة، بينما يغطي ذكاء الأعمال تحليل البيانات الذي يعتمد بشكل كبير على التجميع، مع التركيز بشكل أساسي على معلومات الأعمال.[2]

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

أنواع تحليل البيانات

  • تحليل وصفي: يُراد منه وصف ملخص للبيانات ولا يتطلب إيجاد تفسيرات لها، مثل ما يقدمه تحليل البيانات لإحصاء السكاني لبلد معين، حيث لا يقدم التحليل أكثر من خلاصة لما يشمله إستبيان الاحصاء من جنس، وعمر، وعنوان وغيرها.
  • تحليل إستكشافي: تحليل البيانات الاستكشافي يحاول إيجاد علاقات، اكتشافات، ارتباطات، ميول من القياسات لعدة متغيرات بغرض إيجاد أفكار وفرضيات معينة. مثال على التحليل الاستكشافي هو ما قام به مجموعة من الهواة الذين حللوا بيانات فضائية كثيرة جمعها مقراب كبلر فوجدوا نظاماً شمسياً من أربعة كواكب من خلال تحليل خصائص الضوء.
  • تحليل إستنتاجي: أحد أكثر تحليلات البيانات شيوعاً في البحوث العلمية، ويذهب إلى ما وراء التحليل الاستكشافي ليرى إن كانت الأنماط المكتشفة صالحة لكي تكون وراء مجاميع البيانات المتوفرة. مثال عليه كشف العلاقة بين التلوث البيئي ومتوسط العمر على مستوى الولايات في الولايات المتحدة. يقوم هذا التحليل بتقييس واحتساب العلاقات المختلفة بين القياسات المتوفرة.
  • تحليل تنبؤي: بينما يقوم النوع السابق بتقييس العلاقات واحتساب قيمها، يقوم التحليل التنبؤي بتوقع قياسات معينة من قياسات موجودة. مثلاً ما تقوم به مؤسسات الاحصاء في تنبؤ نتيجة الانتخابات من خلال تحليل سلوك التنبؤ الذي تتم ملاحظته في الإستبيانات.
  • تحليل سببي: يقوم هذا التحليل بإحتساب مقاييس معينة في حال تغير مقاييس أخرى، مثلاً إحتساب تأثير ممارسة طبية معينة على تقليل الإصابة بمرض معين.
  • تحليل ميكانيكي: يقوم التحليل السببي السابق بإيجاد علاقة لها نسبة معينة من الحدوث وعلى أثر بيانات قد تكون ضخمة جداً، مثلاً على مدى عقود تقول البيانات أن التدخين يؤدي إلى الإصابة بالسرطان، لكن الأمر ليس مؤكداً فقد لا تموت بالسرطان رغم تدخينك. ما يقوم به التحليل الميكانيكي هو إيجاد علاقة مؤكدة وحتمين بين قياسين.


الأهداف

يهدف تحليل البيانات إلى اعداد ما يسمى بنموذج بيانات النظام. وتعتبر هذه العملية من الأنشطة الرئيسية لمرحلة التحليل وتتم نمذجة البيانات غالبا باستخدام النماذج البيانية،أي المخططات والرسوم التي تشبه إلى حد ما مخططات تدفق البيانات . [3]

عملية تحليل البيانات

مخطط بيانات معالجة البيانات العلمية من Doing Data Science,لسكوت أونيل (2013).



تحديد متطلبات البيانات

هي الخطوة الأولي في تحليل البيانات ويقصد بها التعريف والتحديد بنوعية وكمية وغيرها من الأشياء المهمة المطلوب توافراها في البيانات المراد تحليلها.مثال: البيانات المطلوبة هل هي ارقام، نصوص ام صور، هل ستكون البيانات محسوبة لشخص واحد ام لكل الاشخاص في هذا المكان، .... الخ من المتطلبات.


تجميع البيانات

The phases of the intelligence cycle used to convert raw information into actionable intelligence or knowledge are conceptually similar to the phases in data analysis.

يتم فيها تجميع البيانات من مصادر مختلفة بحيث تحقق المتطالبات في الخطوة الاولي . ومن الممكن ان يقوم بجمعها اشخاص، او الحصول عليها من خلال التقنيات الحديثة مثل الاقمار الصناعية، اشارات المرور،الانترنت ... الخ.

تنظيم البيانات

بعد مرحلة تجميع البيانات تبدأ عملية توزيع البيانات في شكل جداول لها صفوف واعمد كما في ملفات Excel.

فحص البيانات

من الضروري فحص البيانات حتي لا تكون المعلومات الناتجة بها اخطاء وغير صحيحة. ويتم ذلك من خلال مراجعة البيانات وازالة او تصحيح المغلوطة . البيانات المغلوطة قد تكون ارقام غير صحيحة ،بيانات مكررة ،بيانات مرتبات ولكن يوجد بها حروف ابجدية. ومن الممكن التخلص من البيانات المغلوطة بازالة المكرر واعادة حساب الارقام وفي عملية تدخيل البيانات نتأكد ان البيانات المدخلة لها نفس النوع لنفس العمود.


اعداد النموذج المفاهيمي للبيانات

تسمى هذه الخطوة أيضا نمذجة بيانات النظام. ويتم خلالها بناء النموذج الذي يعكس الموضوعات(الأشياء) الرئيسية للبيانات ، وعلاقاتها مع بعضها البعض.ويسمى التحليل في هذا المستوى بتحليل المضمون أو المعنى.


تحليل العلاقات

ويتم فيه تحسين النموذج المفاهيمي بإعادة تصميم الكينونات بطريقة تقلل التكرارات وتحول الكينونات إلى علاقات مبسطة يمكن التعامل معها بمرونة وسهولة .وتسمى هذه العملية أيضا تسوية أو تطبيع البيانات وبناء النموذج العلاقي للبيانات.

تصميم قاعدة البيانات

وتهتم بتحويل النموذج العلاقاني إلى توصيف قاعدة بيانات النظام .


التواصل

تصوير البيانات لفهم نتائج تحليل البيانات.[4]


الرسائل الكمومية

مقال رئيسي: تصوير البيانات
A time series illustrated with a line chart demonstrating trends in U.S. federal spending and revenue over time.
A scatterplot illustrating correlation between two variables (inflation and unemployment) measured at points in time.



. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

تقنيات تحليل البيانات الكمومية

  • Check raw data for anomalies prior to performing your analysis;
  • Re-perform important calculations, such as verifying columns of data that are formula driven;
  • Confirm main totals are the sum of subtotals;
  • Check relationships between numbers that should be related in a predictable way, such as ratios over time;
  • Normalize numbers to make comparisons easier, such as analyzing amounts per person or relative to GDP or as an index value relative to a base year;
  • Break problems into component parts by analyzing factors that led to the results, such as DuPont analysis of return on equity.[5]

الأنشطة التحليلية لمستخدمي البيانات

# المهمة وصف
عام
Pro Forma
Abstract
أمثلة
1 Retrieve Value Given a set of specific cases, find attributes of those cases. What are the values of attributes {X, Y, Z, ...} in the data cases {A, B, C, ...}? - What is the mileage per gallon of the Ford Mondeo?

- How long is the movie Gone with the Wind?

2 Filter Given some concrete conditions on attribute values, find data cases satisfying those conditions. Which data cases satisfy conditions {A, B, C...}? - What Kellogg's cereals have high fiber?

- What comedies have won awards?

- Which funds underperformed the SP-500?

3 Compute Derived Value Given a set of data cases, compute an aggregate numeric representation of those data cases. What is the value of aggregation function F over a given set S of data cases? - What is the average calorie content of Post cereals?

- What is the gross income of all stores combined?

- How many manufacturers of cars are there?

4 Find Extremum Find data cases possessing an extreme value of an attribute over its range within the data set. What are the top/bottom N data cases with respect to attribute A? - What is the car with the highest MPG?

- What director/film has won the most awards?

- What Marvel Studios film has the most recent release date?

5 Sort Given a set of data cases, rank them according to some ordinal metric. What is the sorted order of a set S of data cases according to their value of attribute A? - Order the cars by weight.

- Rank the cereals by calories.

6 Determine Range Given a set of data cases and an attribute of interest, find the span of values within the set. What is the range of values of attribute A in a set S of data cases? - What is the range of film lengths?

- What is the range of car horsepowers?

- What actresses are in the data set?

7 Characterize Distribution Given a set of data cases and a quantitative attribute of interest, characterize the distribution of that attribute’s values over the set. What is the distribution of values of attribute A in a set S of data cases? - What is the distribution of carbohydrates in cereals?

- What is the age distribution of shoppers?

8 Find Anomalies Identify any anomalies within a given set of data cases with respect to a given relationship or expectation, e.g. statistical outliers. Which data cases in a set S of data cases have unexpected/exceptional values? - Are there exceptions to the relationship between horsepower and acceleration?

- Are there any outliers in protein?

9 Cluster Given a set of data cases, find clusters of similar attribute values. Which data cases in a set S of data cases are similar in value for attributes {X, Y, Z, ...}? - Are there groups of cereals w/ similar fat/calories/sugar?

- Is there a cluster of typical film lengths?

10 Correlate Given a set of data cases and two attributes, determine useful relationships between the values of those attributes. What is the correlation between attributes X and Y over a given set S of data cases? - Is there a correlation between carbohydrates and fat?

- Is there a correlation between country of origin and MPG?

- Do different genders have a preferred payment method?

- Is there a trend of increasing film length over the years?

11 Contextualization[6] Given a set of data cases, find contextual relevancy of the data to the users. Which data cases in a set S of data cases are relevant to the current users' context? - Are there groups of restaurants that have foods based on my current caloric intake?

عقبات التحليل الفعال

الخلط بين الحقيقة والرأي

You are entitled to your own opinion, but you are not entitled to your own facts.

Daniel Patrick Moynihan


التحيزات المعرفية

عدم معرفة القواعد الحسابية

موضوعات أخرى

المباني الذكية

التحليل وذكاء الأعمال


التعليم

الأنشطة التحليلية لتصوير بيانات المستخدمين.


ملاحظات الممارس

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

تحليل البيانات الأولية

تحليل البيانات الرئيسية

برمجيات حرة لتحليل البيانات

  • DevInfo – a database system endorsed by the United Nations Development Group for monitoring and analyzing human development.
  • ELKI – data mining framework in Java with data mining oriented visualization functions.
  • KNIME – the Konstanz Information Miner, a user friendly and comprehensive data analytics framework.
  • أورانج – A visual programming tool featuring interactive data visualization and methods for statistical data analysis, data mining, and machine learning.
  • Pandas – Python library for data analysis
  • PAW – FORTRAN/C data analysis framework developed at CERN
  • R – a programming language and software environment for statistical computing and graphics.
  • ROOT – C++ data analysis framework developed at CERN
  • SciPy – Python library for data analysis

المسابقات الدولية لتحليل البيانات

انظر أيضاً

المصادر

الهوامش

  1. ^ Xia, B. S., & Gong, P. (2015). Review of business intelligence through data analysis. Benchmarking, 21(2), 300-311. doi:10.1108/BIJ-08-2012-0050
  2. ^ Exploring Data Analysis
  3. ^ Adèr, 2008, p. 334-335.
  4. ^ Grandjean, Martin (2014). "La connaissance est un réseau" (PDF). Les Cahiers du Numérique. 10 (3): 37–54. doi:10.3166/lcn.10.3.37-54.
  5. ^ خطأ استشهاد: وسم <ref> غير صحيح؛ لا نص تم توفيره للمراجع المسماة Koomey1
  6. ^ خطأ استشهاد: وسم <ref> غير صحيح؛ لا نص تم توفيره للمراجع المسماة ConTaaS
  7. ^ "The machine learning community takes on the Higgs". Symmetry Magazine. July 15, 2014. Retrieved 14 January 2015.
  8. ^ Nehme, Jean (September 29, 2016). "LTPP International Data Analysis Contest". Federal Highway Administration. Retrieved October 22, 2017.
  9. ^ "Data.Gov:Long-Term Pavement Performance (LTPP)". May 26, 2016. Retrieved November 10, 2017.

المراجع

قراءات إضافية

Wikiversity
At Wikiversity, you can learn about: تحليل البيانات
  • Adèr, H.J. & Mellenbergh, G.J. (with contributions by D.J. Hand) (2008). Advising on Research Methods: A Consultant's Companion. Huizen, the Netherlands: Johannes van Kessel Publishing.
  • Chambers, John M.; Cleveland, William S.; Kleiner, Beat; Tukey, Paul A. (1983). Graphical Methods for Data Analysis, Wadsworth/Duxbury Press. ISBN 0-534-98052-X
  • Fandango, Armando (2008). Python Data Analysis, 2nd Edition. Packt Publishers.
  • Juran, Joseph M.; Godfrey, A. Blanton (1999). Juran's Quality Handbook, 5th Edition. New York: McGraw Hill. ISBN 0-07-034003-X
  • Lewis-Beck, Michael S. (1995). Data Analysis: an Introduction, Sage Publications Inc, ISBN 0-8039-5772-6
  • NIST/SEMATECH (2008) Handbook of Statistical Methods,
  • Pyzdek, T, (2003). Quality Engineering Handbook, ISBN 0-8247-4614-7
  • Richard Veryard (1984). Pragmatic Data Analysis. Oxford : Blackwell Scientific Publications. ISBN 0-632-01311-7
  • Tabachnick, B.G.; Fidell, L.S. (2007). Using Multivariate Statistics, 5th Edition. Boston: Pearson Education, Inc. / Allyn and Bacon, ISBN 978-0-205-45938-4