طور الباحثون ذكاءً اصطناعيًا متخصصًا في "الدارك ويب" (dark web) أو الويب المظلم. تم تدريب الـ (DarkBERT)، هذا هو اسمه، باستخدام البيانات المتاحة على "الدارك ويب" (dark web)، لمساعدة السلطات وخبراء الأمن السيبراني على فهم المجرمين بشكل أفضل.
في أعقاب برنامج ChatGPT أو Bard أو Claude أو Prometheus من Microsoft Bing، ظهر عدد كبير من برامج الدردشة الآلية في الأشهر الأخيرة. تتطلع معظم الشركات حاليا إلى ركوب موجة الذكاء الاصطناعي، إما عن طريق تطوير نماذج لغتها الخاصة أو من خلال استغلال نماذج اللغة الحالية.
من بين هذه الموجة من روبوتات الدردشة المتنوعة الـ (DarkBERT). تم تطوير هذا "الشات بوت" (chatbot) من قبل فريق من الباحثين من كوريا الجنوبية، وهو مصمم لتسريع البحث على "الدارك ويب" (dark web). يقول العلماء الذين يقفون وراء المشروع، إن هذا المشروع، الموثق على نطاق واسع في تقرير يمكن الوصول إليه عبر Arxiv، هو "مورد قيم للبحث في المستقبل". بالتفصيل، يعتمد هذا "الشات بوت" (chatbot) على بنية Meta RoBERTa، التي تعتمد في حد ذاتها على BERT (Bidirectional Encoder Representations from Transformers). يعد نموذج اللغة هذا جزءًا من مجموعة كبيرة للنماذج الموجهة نحو التعلم العميق الخاصة بجوجل.
بيانات ملتقطة حصريًا من "الدارك ويب" (dark web)
لتطوير روبوت المحادثة هذا، قام الباحثون بتغذية النموذج اللغوي بمجموعة من البيانات الملتقطة حصريًا من "الديب ويب" أو "الدارك ويب" (dark web). على عكس نمودج الذكاء الإصطناعي مثل GPT-4 أو PaLM 2، لم يتم تدريب (DarkBERT) باستخدام البيانات المتاحة على "الكليرنيت" (Clearnet) أو (clear web)، وهو الويب المفهرس في محركات البحث أو بمعنى آخر الأنترنت غير المشفر.
وفقًا لتقرير الباحثين، تم استخدام 5.83 "جيجا بايت" من الكتابة من "الدارك ويب" (dark web) لتدريب DarkBERT. لجمع البيانات، وتغذية نموذج الذكاء الاصطناعي بها، قام الباحثون بالزحف إلى مواقع "الدارك ويب" (dark web) من خلال استخدام متصفح "تور" (بالإنجليزية : Tor Browser)، الذي يستخدم الشبكة اللامركزية التي تخفي هوية جميع الاتصالات. هذا المتصفح ضروري للولوج إلى "الدارك ويب" (dark web). ثم جمع العلماء ملايين المعلومات، بما في ذلك الكتابات المكتوبة باللهجات الخاصة ببعض المجتمعات الإجرامية. على سبيل المثال، "اطلعت" الخوارزميات على الوثائق من الأسواق السوداء، بما في ذلك قواعد البيانات المسروقة والرسائل المتبادلة في المنتديات.
اضطر المصممون إلى فرز البيانات التي تم جمعها "لتفادي المشاكل المحتملة في النصوص المتعلقة بالمعلومات الحساسة". تم حذف قاعدة البيانات من المحتوى الذي يهدد خصوصية مستخدمي الإنترنت، مثل البيانات الشخصية الحساسة. على شبكة الإنترنت المظلمة، يوجد بالفعل العديد من الملفات التي تحتوي على أسماء مستخدمين أو كلمات مرور مسروقة، أو معلومات تتعلق بالاحتيال أو إنتاج المخدرات. وأيضا، واجه الخبراء سيلاً من المحتويات الجنائية، ولا سيما استغلال الأطفال في المواد الإباحية. لمنع هذه البيانات من تغذية نموذج الذكاء الإصطناعي، اقتصر الباحثون على جمع النصوص فقط، واستثنوا الصور ومقاطع الفيديو.
حذف برنامج زحف الويب الآلي الخاص بنا جميع الوسائط غير النصية وخزّن البيانات النصية فقط. فعلنا هذا لتفادي التعرض للفيديوهات والصور التي يحتمل أن تكون غير قانونية.
مثل معظم نماذج الذكاء الإصطناعي، يعتمد DarkBERT بشكل كبير على بيانات اللغة الإنجليزية، والتي تشكل الغالبية العظمى منها على شبكة الإنترنت المظلمة "الدارك ويب" (dark web). في الواقع، يقدر الخبراء أن 90٪ من النصوص المتاحة مكتوبة باللغة الإنجليزية.
ما هو "الدارك بيرت" (DarkBERT) ؟
كما أوضح المعهد الكوري المتقدم للعلوم والتكنولوجيا، "يمكن أن توفر النماذج اللغوية الخاصة بالويب المظلم رؤى قيمة"، حيث إن الدراسات التي يتم إجراؤها "تتطلب عادةً تحليلًا نصيًا للمجال". مع وضع هذا في الاعتبار، يجب أن يساعد النموذج السلطات والمحققين والباحثين على فهم أداء الشبكة المظلمة "الدارك ويب" (dark web) بشكل أفضل، والتي يستخدمها المجرمون من جميع الطينات على نطاق واسع.
قبل كل شيء، يسعى DarkBERT لمساعدة الباحثين في الأمن السيبراني. بفضل كمية المعلومات التي تم جمعها، يمكن للذكاء الاصطناعي اكتشاف "حوارات "الدارك ويب" أو برامج الفدية أو تسريبات البيانات". يمكن توثيق دخول قاعدة بيانات جديدة مسروقة أو ظهور برنامج فدية جديد على الإنترنت من خلال النموذج اللغوي. فوق هذا، يهدف الباحثون إلى تحسين الذكاء الاصطناعي تدريجيًا حتى يتمكن من فحص "الدارك ويب" (dark web) بانتظام بحثًا عن تهديدات جديدة.