تخيل أنك تريد أن تعطي ChatGPT أو Gemini معلومات من موقع معين — لكن المواقع مليئة بالإعلانات والأكواد والعناصر غير المفيدة. كيف تعطي الذكاء الاصطناعي فقط ما يحتاجه؟
هذا بالضبط ما تحله Crawl4AI.
ما هي Crawl4AI؟
Crawl4AI هي أداة مفتوحة المصدر مصممة خصيصاً لتحويل أي موقع ويب إلى Markdown نظيف وجاهز للذكاء الاصطناعي.
بدل أن يستقبل نموذج AI صفحة HTML فوضوية مليئة بالإعلانات والقوائم والأكواد — تقوم Crawl4AI بـ:
- زيارة الموقع تلقائياً
- استخراج المحتوى المفيد فقط
- تنظيفه وتحويله إلى Markdown منظم
- تسليمه جاهزاً لأي نموذج AI تستخدمه
وصل المشروع إلى 61,600 نجمة على GitHub و6,300 fork — ليصبح أشهر web crawler مفتوح المصدر في العالم حالياً.
لمن هي Crawl4AI؟
- مطورو AI الذين يبنون RAG pipelines ويحتاجون بيانات نظيفة من الويب
- صانعو البوتات الذين يريدون تغذية نماذجهم بمعلومات حديثة
- الباحثون الذين يجمعون بيانات من مواقع متعددة
- صناع المحتوى الذين يريدون استخراج معلومات منظمة بسرعة
- أي شخص يريد تحويل محتوى الويب إلى صيغة يفهمها الذكاء الاصطناعي
لماذا Crawl4AI وليس Scrapy أو BeautifulSoup؟
الأدوات القديمة مثل Scrapy وBeautifulSoup تعطيك HTML خاماً — وأنت من يتعامل مع الفوضى.
Crawl4AI مصممة من الأساس للذكاء الاصطناعي:
مخرجات LLM-Ready — Markdown نظيف مع عناوين وجداول وأكواد وروابط مرجعية جاهزة مباشرة.
سريعة عملياً — تعمل بـ async browser pool وcaching وتقلل عدد الطلبات.
تتحكم بكل شيء — sessions، proxies، cookies، JavaScript execution، hooks.
تتجاوز الحماية — Stealth Mode يحاكي سلوك المستخدم الحقيقي لتجنب الحجب.
تنشر في أي مكان — CLI وDocker وCloud بدون أي مفاتيح API مطلوبة.
المميزات الرئيسية
توليد Markdown ذكي:
- تنظيف المحتوى وإزالة الضوضاء تلقائياً
- خوارزمية BM25 لاستخراج المعلومات الجوهرية
- تحويل الروابط إلى قائمة مراجع منظمة
استخراج بيانات منظمة:
- استخراج بـ CSS selectors وXPath بدون LLM
- استخراج ذكي بنماذج AI مثل GPT-4 وClaude
- تصدير مباشر إلى JSON
تحكم كامل بالمتصفح:
- دعم Chromium وFirefox وWebKit
- تنفيذ JavaScript للصفحات الديناميكية
- إدارة Sessions والـ Cookies
- دعم Proxies للوصول الآمن
زحف متقدم:
- Deep Crawl مع BFS وDFS وBest-First strategies
- استرداد من الأعطال مع crash recovery
- Prefetch Mode أسرع بـ 5-10x لاكتشاف الروابط
- دعم الصفحات ذات infinite scroll
طريقة التثبيت
الطريقة الأولى: pip (الأسرع والأسهل)
متطلبات: Python 3.10 أو أحدث
تثبيت الأداة
pip install crawl4ai
إعداد المتصفح (مطلوب مرة واحدة فقط)
crawl4ai-setup
التحقق من التثبيت
crawl4ai-doctor
إذا واجهت مشكلة في المتصفح:
python -m playwright install chromium
الطريقة الثانية: Docker (للنشر الاحترافي)
تشغيل الخادم
docker pull unclecode/crawl4ai:latest docker run -d -p 11235:11235 --name crawl4ai --shm-size=1g unclecode/crawl4ai:latest
افتح لوحة التحكم
http://localhost:11235/dashboard
أو جرب الـ playground
http://localhost:11235/playground
أول استخدام — مثال عملي
code : ```python import asyncio from crawl4ai import AsyncWebCrawler
async def main(): async with AsyncWebCrawler() as crawler: result = await crawler.arun( url="https://example.com/article", ) # المحتوى نظيف وجاهز للذكاء الاصطناعي print(result.markdown)
asyncio.run(main())
أو من سطر الأوامر مباشرة:
زحف بسيط مع مخرج Markdown
crwl https://example.com -o markdown
زحف عميق حتى 10 صفحات
crwl https://docs.example.com --deep-crawl bfs --max-pages 10
استخراج بسؤال محدد
crwl https://example.com/products -q "استخرج كل الأسعار"
آخر التحديثات — v0.8.0
أحدث إصدار يضيف:
Crash Recovery للزحف العميق — يحفظ حالته تلقائياً ويكمل من حيث توقف إذا انقطع الاتصال.
Prefetch Mode — يكتشف الروابط بسرعة 5-10 أضعاف بتخطي معالجة المحتوى.
إصلاحات أمنية لـ Docker — الـ hooks معطلة افتراضياً، وحجب روابط file:// لمنع ثغرات LFI.
تنبيه مهم — الاستخدام الأخلاقي
Crawl4AI أداة قوية لجمع البيانات — استخدمها بمسؤولية:
- احترم ملف
robots.txtلكل موقع - لا تزحف على مواقع خاصة أو تحتاج تسجيل دخول بدون إذن
- لا تضغط على الخوادم بطلبات كثيرة ومتسارعة
- تأكد من توافق استخدامك مع شروط خدمة الموقع
الخلاصة
Crawl4AI ليست مجرد أداة scraping عادية — هي البنية التحتية لتغذية الذكاء الاصطناعي بمحتوى الويب.
61,600 نجمة على GitHub في وقت قصير دليل واضح على أن مجتمع AI اعتمدها كمعيار. إذا كنت تبني أي شيء يحتاج بيانات من الويب — سواء RAG pipeline أو bot أو data pipeline — Crawl4AI هي الأداة الأولى التي يجب أن تجربها.
رابط المشروع على GitHub: Crawl4AI
الوثائق الرسمية: docs.crawl4ai.com
هل تريد معرفة كيف تجد أفكار مشاريع ناجحة من Reddit؟ → التسريب الذي يستخدمه المؤسسون لاستخراج أفكار بملايين الدولارات



