Apache Hadoop هو حل مفتوح المصدر للحوسبة الموزعة على البيانات الضخمة
البيانات الضخمة هي مصطلح تسويقي يشمل الفكرة الكاملة لـ البيانات المستخرجة strong> من مصادر مثل محركات البحث وأنماط شراء متاجر البقالة التي يتم تتبعها من خلال بطاقات النقاط وما إلى ذلك. في العالم الحديث ، يوجد الكثير من الإنترنت مصادر البيانات ، التي تجعلها في كثير من الأحيان غير قابلة للاستخدام دون المعالجة والمعالجة تستغرق وقتًا لا يُصدق بواسطة أي خادم واحد. أدخل Apache Hadoop
وقت أقل لمعالجة البيانات h3>
من خلال الاستفادة من بنية Hadoop لتوزيع مهام المعالجة عبر أجهزة متعددة على شبكة strong> ، يتم تقليل أوقات المعالجة بشكل فلكي ويمكن تحديد الإجابات بكميات معقولة من الوقت. ينقسم Apache Hadoop إلى مكونين مختلفين: مكون تخزين ومكون معالجة. بعبارات أبسط ، يصنع Hapood خادمًا افتراضيًا واحدًا من عدة أجهزة فعلية strong>. في الواقع ، يدير Hadoop الاتصال بين أجهزة متعددة بحيث تعمل معًا بشكل وثيق بما يكفي بحيث يبدو كما لو كان هناك جهاز واحد فقط يعمل على العمليات الحسابية. يتم توزيع البيانات عبر أجهزة متعددة strong> ليتم تخزينها و يتم تخصيص مهام المعالجة وتنسيقها بواسطة بنية Hadoop . هذا النوع من النظام هو مطلب لتحويل البيانات الأولية إلى معلومات مفيدة على مقياس مدخلات البيانات الضخمة. ضع في اعتبارك مقدار البيانات التي تتلقاها Google كل ثانية من المستخدمين الذين يدخلون طلبات البحث. كمجموعة كاملة من البيانات ، لن تعرف من أين تبدأ ، ولكن Hadoop سيقلل تلقائيًا مجموعة البيانات إلى مجموعات فرعية منظمة أصغر من البيانات وتعيين هذه المجموعة الفرعية التي يمكن إدارتها لموارد محددة. ثم يتم الإبلاغ عن جميع النتائج و تجميعها في معلومات قابلة للاستخدام strong>.
خادم سهل الضبط h3>
بالرغم من أن النظام يبدو معقدًا ، إلا أن معظم الأجزاء المتحركة محجوبة خلف التجريد. إعداد خادم Hadoop بسيط إلى حد ما strong> ، ما عليك سوى تثبيت مكونات الخادم على الأجهزة التي تفي بمتطلبات النظام. الجزء الأصعب هو تخطيط شبكة أجهزة الكمبيوتر strong> التي يستخدمها خادم Hadoop من أجل توزيع أدوار التخزين والمعالجة. يمكن أن يتضمن ذلك إعداد شبكة منطقة محلية أو توصيل شبكات متعددة معًا عبر الإنترنت strong>. يمكنك أيضًا الاستفادة من الخدمات السحابية الحالية والدفع مقابل مجموعة Hadoop على الأنظمة الأساسية السحابية الشائعة مثل Microsoft Azure و Amazon EC2. هذه أسهل في التهيئة حيث يمكنك تدويرها حسب الطلب ثم إيقاف تشغيل المجموعات عندما لا تحتاج إليها بعد الآن. تعتبر هذه الأنواع من المجموعات مثالية للاختبار حيث أنك تدفع فقط مقابل الوقت الذي تكون فيه مجموعة Hadoop نشطة.
معالجة بياناتك للحصول على المعلومات التي تحتاجها h3>
تعد البيانات الضخمة موردًا قويًا للغاية ، ولكن البيانات لا فائدة منها ما لم يتم تصنيفها بشكل صحيح وتحويلها إلى معلومات. في الوقت الحالي ، تقدم مجموعات Hadoop طريقة فعالة للغاية من حيث التكلفة strong> لمعالجة مجموعات البيانات هذه وتحويلها إلى معلومات.