تخيل أنك تريد أن تعطي ChatGPT أو Gemini معلومات من موقع معين — لكن المواقع مليئة بالإعلانات والأكواد والعناصر غير المفيدة. كيف تعطي الذكاء الاصطناعي فقط ما يحتاجه؟

هذا بالضبط ما تحله Crawl4AI.

ما هي Crawl4AI؟

Crawl4AI هي أداة مفتوحة المصدر مصممة خصيصاً لتحويل أي موقع ويب إلى Markdown نظيف وجاهز للذكاء الاصطناعي.

بدل أن يستقبل نموذج AI صفحة HTML فوضوية مليئة بالإعلانات والقوائم والأكواد — تقوم Crawl4AI بـ:

زيارة الموقع تلقائياً
استخراج المحتوى المفيد فقط
تنظيفه وتحويله إلى Markdown منظم
تسليمه جاهزاً لأي نموذج AI تستخدمه

وصل المشروع إلى 61,600 نجمة على GitHub و6,300 fork — ليصبح أشهر web crawler مفتوح المصدر في العالم حالياً.

لمن هي Crawl4AI؟

مطورو AI الذين يبنون RAG pipelines ويحتاجون بيانات نظيفة من الويب
صانعو البوتات الذين يريدون تغذية نماذجهم بمعلومات حديثة
الباحثون الذين يجمعون بيانات من مواقع متعددة
صناع المحتوى الذين يريدون استخراج معلومات منظمة بسرعة
أي شخص يريد تحويل محتوى الويب إلى صيغة يفهمها الذكاء الاصطناعي

لماذا Crawl4AI وليس Scrapy أو BeautifulSoup؟

الأدوات القديمة مثل Scrapy وBeautifulSoup تعطيك HTML خاماً — وأنت من يتعامل مع الفوضى.

Crawl4AI مصممة من الأساس للذكاء الاصطناعي:

مخرجات LLM-Ready — Markdown نظيف مع عناوين وجداول وأكواد وروابط مرجعية جاهزة مباشرة.

سريعة عملياً — تعمل بـ async browser pool وcaching وتقلل عدد الطلبات.

تتحكم بكل شيء — sessions، proxies، cookies، JavaScript execution، hooks.

تتجاوز الحماية — Stealth Mode يحاكي سلوك المستخدم الحقيقي لتجنب الحجب.

تنشر في أي مكان — CLI وDocker وCloud بدون أي مفاتيح API مطلوبة.

المميزات الرئيسية

توليد Markdown ذكي:

تنظيف المحتوى وإزالة الضوضاء تلقائياً
خوارزمية BM25 لاستخراج المعلومات الجوهرية
تحويل الروابط إلى قائمة مراجع منظمة

استخراج بيانات منظمة:

استخراج بـ CSS selectors وXPath بدون LLM
استخراج ذكي بنماذج AI مثل GPT-4 وClaude
تصدير مباشر إلى JSON

تحكم كامل بالمتصفح:

دعم Chromium وFirefox وWebKit
تنفيذ JavaScript للصفحات الديناميكية
إدارة Sessions والـ Cookies
دعم Proxies للوصول الآمن

زحف متقدم:

Deep Crawl مع BFS وDFS وBest-First strategies
استرداد من الأعطال مع crash recovery
Prefetch Mode أسرع بـ 5-10x لاكتشاف الروابط
دعم الصفحات ذات infinite scroll

طريقة التثبيت

الطريقة الأولى: pip (الأسرع والأسهل)

متطلبات: Python 3.10 أو أحدث

تثبيت الأداة

pip install crawl4ai

إعداد المتصفح (مطلوب مرة واحدة فقط)

crawl4ai-setup

التحقق من التثبيت

crawl4ai-doctor

إذا واجهت مشكلة في المتصفح:

python -m playwright install chromium

الطريقة الثانية: Docker (للنشر الاحترافي)

تشغيل الخادم

docker pull unclecode/crawl4ai:latest docker run -d -p 11235:11235 --name crawl4ai --shm-size=1g unclecode/crawl4ai:latest

افتح لوحة التحكم

http://localhost:11235/dashboard

أو جرب الـ playground

http://localhost:11235/playground

أول استخدام — مثال عملي

code : ```python import asyncio from crawl4ai import AsyncWebCrawler

async def main(): async with AsyncWebCrawler() as crawler: result = await crawler.arun( url="https://example.com/article", ) # المحتوى نظيف وجاهز للذكاء الاصطناعي print(result.markdown)

asyncio.run(main())

أو من سطر الأوامر مباشرة:

زحف بسيط مع مخرج Markdown

crwl https://example.com -o markdown

زحف عميق حتى 10 صفحات

crwl https://docs.example.com --deep-crawl bfs --max-pages 10

استخراج بسؤال محدد

crwl https://example.com/products -q "استخرج كل الأسعار"

آخر التحديثات — v0.8.0

أحدث إصدار يضيف:

Crash Recovery للزحف العميق — يحفظ حالته تلقائياً ويكمل من حيث توقف إذا انقطع الاتصال.

Prefetch Mode — يكتشف الروابط بسرعة 5-10 أضعاف بتخطي معالجة المحتوى.

إصلاحات أمنية لـ Docker — الـ hooks معطلة افتراضياً، وحجب روابط file:// لمنع ثغرات LFI.

تنبيه مهم — الاستخدام الأخلاقي

Crawl4AI أداة قوية لجمع البيانات — استخدمها بمسؤولية:

احترم ملف robots.txt لكل موقع
لا تزحف على مواقع خاصة أو تحتاج تسجيل دخول بدون إذن
لا تضغط على الخوادم بطلبات كثيرة ومتسارعة
تأكد من توافق استخدامك مع شروط خدمة الموقع

الخلاصة

Crawl4AI ليست مجرد أداة scraping عادية — هي البنية التحتية لتغذية الذكاء الاصطناعي بمحتوى الويب.

61,600 نجمة على GitHub في وقت قصير دليل واضح على أن مجتمع AI اعتمدها كمعيار. إذا كنت تبني أي شيء يحتاج بيانات من الويب — سواء RAG pipeline أو bot أو data pipeline — Crawl4AI هي الأداة الأولى التي يجب أن تجربها.

رابط المشروع على GitHub: Crawl4AI

الوثائق الرسمية: docs.crawl4ai.com

هل تريد معرفة كيف تجد أفكار مشاريع ناجحة من Reddit؟ → التسريب الذي يستخدمه المؤسسون لاستخراج أفكار بملايين الدولارات

هذا بالضبط ما تحله Crawl4AI.

ما هي Crawl4AI؟

Crawl4AI هي أداة مفتوحة المصدر مصممة خصيصاً لتحويل أي موقع ويب إلى Markdown نظيف وجاهز للذكاء الاصطناعي.

بدل أن يستقبل نموذج AI صفحة HTML فوضوية مليئة بالإعلانات والقوائم والأكواد — تقوم Crawl4AI بـ:

زيارة الموقع تلقائياً
استخراج المحتوى المفيد فقط
تنظيفه وتحويله إلى Markdown منظم
تسليمه جاهزاً لأي نموذج AI تستخدمه

وصل المشروع إلى 61,600 نجمة على GitHub و6,300 fork — ليصبح أشهر web crawler مفتوح المصدر في العالم حالياً.

لمن هي Crawl4AI؟

مطورو AI الذين يبنون RAG pipelines ويحتاجون بيانات نظيفة من الويب
صانعو البوتات الذين يريدون تغذية نماذجهم بمعلومات حديثة
الباحثون الذين يجمعون بيانات من مواقع متعددة
صناع المحتوى الذين يريدون استخراج معلومات منظمة بسرعة
أي شخص يريد تحويل محتوى الويب إلى صيغة يفهمها الذكاء الاصطناعي

لماذا Crawl4AI وليس Scrapy أو BeautifulSoup؟

الأدوات القديمة مثل Scrapy وBeautifulSoup تعطيك HTML خاماً — وأنت من يتعامل مع الفوضى.

Crawl4AI مصممة من الأساس للذكاء الاصطناعي:

مخرجات LLM-Ready — Markdown نظيف مع عناوين وجداول وأكواد وروابط مرجعية جاهزة مباشرة.

سريعة عملياً — تعمل بـ async browser pool وcaching وتقلل عدد الطلبات.

تتحكم بكل شيء — sessions، proxies، cookies، JavaScript execution، hooks.

تتجاوز الحماية — Stealth Mode يحاكي سلوك المستخدم الحقيقي لتجنب الحجب.

تنشر في أي مكان — CLI وDocker وCloud بدون أي مفاتيح API مطلوبة.

المميزات الرئيسية

توليد Markdown ذكي:

تنظيف المحتوى وإزالة الضوضاء تلقائياً
خوارزمية BM25 لاستخراج المعلومات الجوهرية
تحويل الروابط إلى قائمة مراجع منظمة

استخراج بيانات منظمة:

استخراج بـ CSS selectors وXPath بدون LLM
استخراج ذكي بنماذج AI مثل GPT-4 وClaude
تصدير مباشر إلى JSON

تحكم كامل بالمتصفح:

دعم Chromium وFirefox وWebKit
تنفيذ JavaScript للصفحات الديناميكية
إدارة Sessions والـ Cookies
دعم Proxies للوصول الآمن

زحف متقدم:

Deep Crawl مع BFS وDFS وBest-First strategies
استرداد من الأعطال مع crash recovery
Prefetch Mode أسرع بـ 5-10x لاكتشاف الروابط
دعم الصفحات ذات infinite scroll

طريقة التثبيت

الطريقة الأولى: pip (الأسرع والأسهل)

متطلبات: Python 3.10 أو أحدث

تثبيت الأداة

pip install crawl4ai

إعداد المتصفح (مطلوب مرة واحدة فقط)

crawl4ai-setup

التحقق من التثبيت

crawl4ai-doctor

إذا واجهت مشكلة في المتصفح:

python -m playwright install chromium

الطريقة الثانية: Docker (للنشر الاحترافي)

تشغيل الخادم

docker pull unclecode/crawl4ai:latest docker run -d -p 11235:11235 --name crawl4ai --shm-size=1g unclecode/crawl4ai:latest

افتح لوحة التحكم

http://localhost:11235/dashboard

أو جرب الـ playground

http://localhost:11235/playground

أول استخدام — مثال عملي

code : ```python import asyncio from crawl4ai import AsyncWebCrawler

asyncio.run(main())

أو من سطر الأوامر مباشرة:

زحف بسيط مع مخرج Markdown

crwl https://example.com -o markdown

زحف عميق حتى 10 صفحات

crwl https://docs.example.com --deep-crawl bfs --max-pages 10

استخراج بسؤال محدد

crwl https://example.com/products -q "استخرج كل الأسعار"

آخر التحديثات — v0.8.0

أحدث إصدار يضيف:

Crash Recovery للزحف العميق — يحفظ حالته تلقائياً ويكمل من حيث توقف إذا انقطع الاتصال.

Prefetch Mode — يكتشف الروابط بسرعة 5-10 أضعاف بتخطي معالجة المحتوى.

إصلاحات أمنية لـ Docker — الـ hooks معطلة افتراضياً، وحجب روابط file:// لمنع ثغرات LFI.

تنبيه مهم — الاستخدام الأخلاقي

Crawl4AI أداة قوية لجمع البيانات — استخدمها بمسؤولية:

احترم ملف robots.txt لكل موقع
لا تزحف على مواقع خاصة أو تحتاج تسجيل دخول بدون إذن
لا تضغط على الخوادم بطلبات كثيرة ومتسارعة
تأكد من توافق استخدامك مع شروط خدمة الموقع

الخلاصة

Crawl4AI ليست مجرد أداة scraping عادية — هي البنية التحتية لتغذية الذكاء الاصطناعي بمحتوى الويب.

رابط المشروع على GitHub: Crawl4AI

الوثائق الرسمية: docs.crawl4ai.com

ما هي Crawl4AI؟

لمن هي Crawl4AI؟

لماذا Crawl4AI وليس Scrapy أو BeautifulSoup؟

المميزات الرئيسية

طريقة التثبيت

الطريقة الأولى: pip (الأسرع والأسهل)

تثبيت الأداة

إعداد المتصفح (مطلوب مرة واحدة فقط)

التحقق من التثبيت

الطريقة الثانية: Docker (للنشر الاحترافي)

تشغيل الخادم

افتح لوحة التحكم

http://localhost:11235/dashboard

أو جرب الـ playground

http://localhost:11235/playground

أول استخدام — مثال عملي

زحف بسيط مع مخرج Markdown

زحف عميق حتى 10 صفحات

استخراج بسؤال محدد

آخر التحديثات — v0.8.0

تنبيه مهم — الاستخدام الأخلاقي

الخلاصة

مقالات قد تهمك

METATRON: اختراق بالذكاء الاصطناعي يعمل بدون إنترنت وبدون API على لينكس

PentAGI: نظام الاختراق الأخلاقي الذي يعمل بالذكاء الاصطناعي بدون إنترنت

Robin: أداة OSINT بالذكاء الاصطناعي للبحث في الدارك ويب بخصوصية كاملة 2026

اشترك في القائمة البريدية

ما هي Crawl4AI؟

لمن هي Crawl4AI؟

لماذا Crawl4AI وليس Scrapy أو BeautifulSoup؟

المميزات الرئيسية

طريقة التثبيت

الطريقة الأولى: pip (الأسرع والأسهل)

تثبيت الأداة

إعداد المتصفح (مطلوب مرة واحدة فقط)

التحقق من التثبيت

الطريقة الثانية: Docker (للنشر الاحترافي)

تشغيل الخادم

افتح لوحة التحكم

http://localhost:11235/dashboard

أو جرب الـ playground

http://localhost:11235/playground

أول استخدام — مثال عملي

زحف بسيط مع مخرج Markdown

زحف عميق حتى 10 صفحات

استخراج بسؤال محدد

آخر التحديثات — v0.8.0

تنبيه مهم — الاستخدام الأخلاقي

الخلاصة

مقالات قد تهمك

METATRON: اختراق بالذكاء الاصطناعي يعمل بدون إنترنت وبدون API على لينكس

PentAGI: نظام الاختراق الأخلاقي الذي يعمل بالذكاء الاصطناعي بدون إنترنت

Robin: أداة OSINT بالذكاء الاصطناعي للبحث في الدارك ويب بخصوصية كاملة 2026