Crawl4AI란

Crawl4AI에 대해서

AI
Crawl4AI에 대해서
Author

gabriel yang

Published

April 5, 2025

Crawl4AI란 무엇인가?

Crawl4AI는 대규모 언어 모델(LLM) 및 AI 애플리케이션을 위해 설계된 오픈소스 웹 크롤러입니다. 이 도구는 비동기 방식으로 웹 페이지를 크롤링하고, 데이터를 효율적으로 추출하여 JSON, HTML, Markdown 등 다양한 형식으로 출력할 수 있습니다.

Crawl4AI는 Playwright를 기반으로 작동하며, JavaScript 실행 및 CSS 셀렉터를 사용한 고급 데이터 추출을 지원합니다.

주요 기능

  • 비동기 크롤링: 여러 URL을 동시에 처리하여 빠르고 효율적인 데이터 수집 가능.
  • 다양한 출력 형식: LLM 친화적인 JSON, HTML, Markdown 형식 지원.
  • 고급 데이터 추출: CSS 셀렉터 및 JavaScript 실행을 통해 정밀한 데이터 추출 가능.
  • 프록시 및 세션 관리: 복잡한 웹 페이지 접근과 개인 정보 보호 지원.
  • 스크린샷 저장: 웹 페이지의 스크린샷을 파일로 저장 가능14.

1. Python 및 Virtualenv 설치 확인

(1) Python 버전 확인

Crawl4AI는 Python 3.8 이상을 요구합니다. 다음 명령어를 실행하여 현재 설치된 Python 버전을 확인하세요.

python3 --version

출력 예시:

Python 3.10.6

만약 Python 버전이 3.8 이하라면, 최신 버전으로 업데이트하세요. (예: sudo apt install python3.10)

(2) Virtualenv 설치

Linux 환경에서 virtualenv가 설치되어 있는지 확인하고, 없으면 설치합니다.

pip3 install --user virtualenv

설치 완료 후, virtualenv 버전을 확인하세요.

virtualenv --version

출력 예시:

20.24.2

2. 가상 환경 설정 및 프로젝트 구조

(1) 프로젝트 디렉터리 생성 및 이동

mkdir crawl4ai_project && cd crawl4ai_project

(2) Virtualenv를 이용한 가상 환경 생성

virtualenv venv

venv라는 이름의 가상 환경이 생성됩니다.

(3) 가상 환경 활성화

source venv/bin/activate

가상 환경이 활성화되면 터미널 프롬프트 앞에 (venv)가 표시됩니다.

(venv) user@linux:~/crawl4ai_project$
  • 가상 환경을 비활성화하려면 deactivate 명령어를 사용하세요.
  • 가상 환경이 활성화된 상태에서만 패키지를 설치해야 합니다.

3. Crawl4AI 설치 및 설정

(1) Crawl4AI 패키지 설치

Crawl4AI는 Python 패키지로 설치할 수 있습니다:

pip install crawl4ai
playwright install

Playwright 설치에 문제가 발생하면 다음 명령어를 실행하세요:

python -m playwright install chromium

(2) Playwright 브라우저 설정

crawl4ai-setup

이 명령어는 크롤링에 필요한 Playwright 브라우저(Chromium, Firefox, WebKit)를 다운로드하고, 환경을 설정합니다. 설치를 완료하면 아래와 같은 설치완료 로그를 확인할 수 있으며 설치에는 시간이 꽤 필요합니다.

[COMPLETE] ● Playwright installation completed successfully.
[INIT].... → Starting database initialization...
[COMPLETE] ● Database backup created at: /home/sungmoyang/.crawl4ai/crawl4ai.db.backup_20250328_220354
[INIT].... → Starting database migration...
[COMPLETE] ● Migration completed. 0 records processed.
[COMPLETE] ● Database initialization completed successfully.
[COMPLETE] ● Post-installation setup completed!

💡 Playwright란?
Playwright는 Microsoft에서 개발한 자동화 브라우저 라이브러리로, Chromium, Firefox, WebKit을 지원합니다. Selenium보다 빠르고 안정적인 브라우저 자동화 기능을 제공하며, 동적 웹사이트 크롤링에 최적화되어 있습니다.

(3) 설치 확인

crawl4ai-doctor

이 명령어는 Python 버전, Playwright 설치 상태 등을 점검하여 환경이 올바르게 구성되었는지 확인합니다.

4. 크롤링 테스트

Crawl4AI는 Python 코드 없이도 CLI(Command Line Interface)를 통해 간단한 크롤링을 수행할 수 있습니다.

(1) 기본 크롤링 실행

crwl https://www.example.com

출력 예시:

[INFO] Fetching https://www.example.com
[INFO] Successfully retrieved webpage content
[RESULT] Extracted text:
...

(2) Markdown 형식으로 저장

웹사이트의 크롤링 결과를 Markdown 파일로 저장하려면 다음과 같이 실행합니다.

crwl https://www.example.com -o markdown > result.md

(3) JSON 형식으로 저장

JSON 파일로 데이터를 저장하려면 다음과 같이 실행합니다.

crwl https://www.example.com -o json >  result.json

출력 예시 (result.json 내용):

{
    "url": "https://www.example.com",
    "title": "Example Domain",
    "content": "This domain is for use in illustrative examples..."
}

5. 추가 기능 설치 (선택 사항)

필요에 따라 다양한 추가 기능을 설치할 수 있습니다.

  • PyTorch 기반 기능 추가

    pip install crawl4ai[torch]
  • Transformers 기반 기능 추가

    pip install crawl4ai[transformer]
  • 모든 기능 한꺼번에 설치

    pip install crawl4ai[all]

6. 프로젝트 실행 및 유지보수

(1) 가상 환경 비활성화

deactivate

가상 환경을 종료하면 (venv) 프롬프트가 사라집니다.

(2) 프로젝트 다시 시작하기

다시 프로젝트를 실행하려면 디렉터리로 이동한 후, 가상 환경을 활성화하고 실행하면 됩니다.

cd crawl4ai_project
source venv/bin/activate
python main.py

카테고리 다른 글

Date Title Author
Jan 1, 3000 전체 카테고리 gabriel yang
Apr 9, 2025 구글 시트 API 접속 설정하기 gabriel yang
Apr 6, 2025 Crawl4AI를 이용한 웹크롤링 gabriel yang
Mar 30, 2025 Ollama에서 Generation Parameter 설정 가이드 gabriel yang
Mar 23, 2025 Google PSE로 Local LLM에 웹검색 기능 추가 gabriel yang
Dec 23, 2023 ChatGPT3.5와 ChatGPT4의 차이점 gabriel yang
Dec 22, 2023 Google Gemeni API Key 얻기 gabriel yang
Dec 14, 2023 RAG(Retrieval Argumented Generation) 정리하기 gabriel yang
No matching items
Back to BLOG LIST