فضاءات البيانات

(تم التحويل من Dataspaces)

فضاءات البيانات Dataspaces هي فكرة مجردة في إدارة البيانات تهدف إلى التغلب على بعض المشكلات التي تواجه نظام تكامل البيانات. الهدف هو تقليل الجهد المطلوب لإنشاء نظام تكامل البيانات من خلال الاعتماد على تقنيات المطابقة الحالية وإنشاء الخرائط، وتحسين النظام بطريقة "الدفع أولاً بأول" عند استخدامه. يتم تأجيل جوانب تكامل البيانات كثيفة الجهد إلى أن تكون هناك حاجة ماسة إليها.[1][2][3][4][5][6][7][8]

تقليدياً، تهدف أنظمة تكامل البيانات و تبادل البيانات إلى تقديم العديد من الخدمات المزعومة لنظم فضاءات البيانات. يمكن النظر إلى فضاءات البيانات كخطوة تالية في تطور بنيات تكامل البيانات، ولكنها تختلف عن أنظمة تكامل البيانات الحالية بالطريقة التالية. تتطلب أنظمة تكامل البيانات التكامل الدلالي قبل تقديم أي خدمات. ومن ثم، على الرغم من عدم وجود مخطط واحد تتوافق معه جميع البيانات وتوجد البيانات في العديد من الأنظمة المضيفة، فإن نظام تكامل البيانات يعرف العلاقات الدقيقة بين المصطلحات المستخدمة في كل مخطط. نتيجة لذلك، يلزم بذل جهد كبير مقدماً من أجل إعداد نظام تكامل البيانات.

تحول فضاءات البيانات التركيز إلى نهج تعايش البيانات الذي يوفر وظائف أساسية على جميع مصادر البيانات، بغض النظر عن مدى تكاملها. على سبيل المثال، يمكن لمنصة دعم فضاء البيانات (DSSP) توفير بحث بكلمة مفتاحية عبر جميع مصادر البيانات، على غرار تلك التي توفرها أنظمة بحث سطح المكتب الحالية. عندما تكون هناك حاجة لعمليات أكثر تعقيداً، مثل الاستعلامات ذات النمط الترابطي، التنقيب عن البيانات، أو مراقبة مصادر معينة، فيمكن عندئذٍ بذل جهد إضافي لدمج هذه المصادر عن كثب بطريقة تدريجية. وبالمثل، فيما يتعلق بضمانات قواعد البيانات التقليدية، يمكن لنظام فضاء البيانات في البداية أن يوفر فقط ضمانات أضعف من الاتساق والمتانة. عندما تكون هناك حاجة إلى ضمانات أقوى، يمكن بذل المزيد من الجهود لعقد اتفاقيات بين مختلف مالكي مصادر البيانات، وفتح واجهات معينة (على سبيل المثال، لپروتوكولات الالتزام).

تلعب الرسوم البيانية للبيانات دوراً مهماً في نظم فضاءات البيانات. فهي تعمل على حقيقة قائمة (ثلاثية أو "كيانات بيانات" مكونة من موضوع - مفعول به - كائن)[9] نهج نمذجة البيانات الذي يدعم تقنيات "الدفع أولاً بأول" الموضحة أعلاه. فهي تدعم تعايش البيانات وبالتالي فهي تقنية مثالية لـ التكامل الدلالي. يمكن أن تعمل الاستعلامات والتحليلات البحثية والترابطية في وقت واحد على الرسوم البيانية للبيانات التي تعد خاصية أخرى مهمة لفضاءات البيانات.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

تطبيقات فضاءات البيانات

إدارة المعلومات الشخصية

الهدف من إدارة المعلومات الشخصية هو توفير وصول سهل ومعالجة لجميع المعلومات الموجودة على سطح مكتب الشخص، مع إمكانية امتدادها إلى الأجهزة المحمولة، أو المعلومات الشخصية على الوب، أو حتى جميع المعلومات التي تم الوصول إليها خلال حياة الشخص. تعتبر أدوات بحث سطح المكتب الحديثة خطوة أولى مهمة لـ PIM، ولكنها تقتصر على استعلامات الكلمات الرئيسية. تحتوي أجهزة سطح المكتب لدينا عادةً على بعض البيانات المنظمة (على سبيل المثال، جداول البيانات) وهناك ارتباطات مهمة بين العناصر المتباينة على سطح المكتب. ومن ثم ، فإن الخطوة التالية لـ PIM هي السماح للمستخدم بالبحث في سطح المكتب بطرق أكثر وضوحاً. على سبيل المثال، "ابحث عن قائمة المبتدئين الذين درسوا دورة قاعدة البيانات الخاصة بي في الربع الأخير من العام، "أو" حساب الرصيد الإجمالي لحساباتي المصرفية ". نود أيضاً البحث حسب الاقتران، على سبيل المثال، " العثور على البريد الإلكتروني الذي أرسله إليّ جون في اليوم الذي عدت فيه من هاواي "، أو" استرداد ملفات التجارب المرتبطة بورقة SIGMOD الخاصة بي هذا العام. "أخيراً، نود الاستعلام عن المصادر، على سبيل المثال، " العثور على جميع الأوراق التي أقرت فيها بمنحة معينة "، أو" ابحث عن جميع التجارب التي أجراها طالب معين، "أو "ابحث عن جميع جداول البيانات التي تحتوي على عمود التباين."

مبادئ فضاءات البيانات في اللعب في هذا المثال هي أن

  1. يجب أن تتيح أداة PIM الوصول إلى جميع المعلومات الموجودة على سطح المكتب، وليس مجرد مجموعة فرعية تم اختيارها صراحةً أو ضمناً، و
  2. بينما يتضمن PIM غالباً دمج البيانات من مصادر متعددة، لا يمكننا افتراض أن المستخدمين سيستثمرون الوقت في التكامل. بدلاً من ذلك، سيتعين على النظام في معظم الأوقات تقديم أفضل النتائج، وسيتم إنشاء عمليات تكامل أكثر إحكاماً فقط في الحالات التي تفوق فيها الفوائد بوضوح الاستثمار.

إدارة البيانات العلمية

لنأخذ بعين الاعتبار مجموعة بحث علمي تعمل في مجال المراقبة والتنبؤ البيئي، مثل نظام CORIE 1. قد يكونون يراقبون نظاماً بيئياً ساحلياً من خلال محطات الطقس وأجهزة الاستشعار المثبتة على الشاطئ والعوامات والصور البعيدة. بالإضافة إلى ذلك ، يمكنهم تشغيل نماذج الغلاف الجوي وديناميكيات السوائل التي تحاكي الظروف الماضية والحالية والمستقبلية القريبة. قد تتطلب الحسابات استيراد البيانات ومخرجات النماذج من مجموعات أخرى، مثل تدفقات الأنهار وتوقعات دوران المحيطات. الملاحظات والمحاكاة هي مدخلات للبرامج التي تولد مجموعة واسعة من منتجات البيانات، لاستخدامها داخل المجموعة ومن قبل الآخرين: مخططات المقارنة بين البيانات المرصودة والمحاكاة، وصور توزيعات درجة حرارة السطح، والرسوم المتحركة لتطفل المياه المالحة في المصب. يمكن لمثل هذه المجموعة أن تجمع بسهولة الملايين من منتجات البيانات في غضون سنوات قليلة. في حين أنه قد يكون هذا بالنسبة لكل ملف، يعرف شخص ما في المجموعة مكانه وما يعنيه، لا يمكن لأي شخص معرفة المقتنيات بالكامل ولا معنى كل ملف. يرغب الأشخاص الذين يصلون إلى هذه البيانات، لا سيما من خارج المجموعة، في البحث في مخزون رئيسي يحتوي على سمات ملف أساسية، مثل الفترة الزمنية المغطاة، والمنطقة الجغرافية، والارتفاع أو العمق، والمتغير المادي (الملوحة، ودرجة الحرارة، وسرعة الرياح)، نوع من منتج البيانات (رسم بياني، مخطط عزل، رسوم متحركة)، توقعات أو أحداث سابقة، وما إلى ذلك. بمجرد تحديد منتجات البيانات ذات الأهمية، يكون فهم النسب أمراً بالغ الأهمية في القدرة على تحليل المنتجات ومقارنتها: ما إصدار الكود الذي تم استخدامه؟ أي شبكة العناصر المحدودة؟ كم كانت فترة المحاكاة الزمنية؟ ما هي مجموعة بيانات الغلاف الجوي التي تم استخدامها كمدخلات؟

ستحتاج المجموعات إلى الاتحاد مع مجموعات أخرى لإنشاء مساحات بيانات علمية ذات نطاق إقليمي أو وطني. سيحتاجون إلى تصدير بياناتهم بسهولة في تنسيقات علمية قياسية وبتفاصيل (ملف فرعي أو ملف متعدد) لا تتوافق بالضرورة مع الأقسام التي يستخدمونها لتخزين البيانات. قد يرغب مستخدمو فضاء البيانات الموحدة في رؤية مجموعات البيانات التي تقطع المجموعات في الاتحاد، مثل جميع الملاحظات ومنتجات البيانات المتعلقة بسرعة المياه، أو جميع البيانات المتعلقة بامتداد معين من الساحل خلال الشهرين الماضيين. قد تتطلب هذه المجموعات نسخاً محلية أو فهارس إضافية للبحث السريع.

يوضح هذا السيناريو العديد من متطلبات فضاء البيانات، بما في ذلك

  1. كتالوگ على مستوى فضاء البيانات،
  2. دعم سلالة البيانات و
  3. إنشاء مجموعات وفهارس عبر الكيانات التي تمتد لأكثر من مصدر مشارك واحد.

See also

References

  1. ^ Belhajjame, K.; Paton, N. W.; Embury, S. M.; Fernandes, A. A. A.; Hedeler, C. (2013). "Incrementally improving dataspaces based on user feedback". Information Systems. 38 (5): 656. CiteSeerX 10.1.1.303.1957. doi:10.1016/j.is.2013.01.006.
  2. ^ (2010) "Proceedings of the 13th International Conference on Extending Database Technology - EDBT '10".: 573. doi:10.1145/1739041.1739110. 
  3. ^ Talukdar, P. P.; Ives, Z. G.; Pereira, F. (2010). "Automatically incorporating new sources in keyword search-based data integration". Proceedings of the 2010 international conference on Management of data - SIGMOD '10. p. 387. doi:10.1145/1807167.1807211. ISBN 9781450300322.
  4. ^ Sarma, A. D.; Dong, X. (L.; Halevy, A. Y. (2009). "Data Modeling in Dataspace Support Platforms". Conceptual Modeling: Foundations and Applications. Lecture Notes in Computer Science. Vol. 5600. p. 122. doi:10.1007/978-3-642-02463-4_8. ISBN 978-3-642-02462-7.
  5. ^ Dong, X. L.; Halevy, A.; Yu, C. (2008). "Data integration with uncertainty". The VLDB Journal. 18 (2): 469. CiteSeerX 10.1.1.176.3648. doi:10.1007/s00778-008-0119-9.
  6. ^ Howe, B.; Maier, D.; Rayner, N.; Rucker, J. (2008). "Quarrying dataspaces: Schemaless profiling of unfamiliar information sources". 2008 IEEE 24th International Conference on Data Engineering Workshop. p. 270. doi:10.1109/ICDEW.2008.4498331. ISBN 978-1-4244-2161-9.
  7. ^ Dong, X.; Halevy, A. (2007). "Indexing dataspaces". Proceedings of the 2007 ACM SIGMOD international conference on Management of data - SIGMOD '07. p. 43. doi:10.1145/1247480.1247487. ISBN 9781595936868.
  8. ^ Franklin, M.; Halevy, A.; Maier, D. (2005). "From databases to dataspaces". ACM SIGMOD Record. 34 (4): 27. doi:10.1145/1107499.1107502.
  9. ^ [1] ZDNet, Actian adds SPARQL City's graph analytics engine to its arsenal.

Further reading

External links