Crawl4AI란
Crawl4AI에 대해서
Crawl4AI란 무엇인가?
Crawl4AI는 대규모 언어 모델(LLM) 및 AI 애플리케이션을 위해 설계된 오픈소스 웹 크롤러입니다. 이 도구는 비동기 방식으로 웹 페이지를 크롤링하고, 데이터를 효율적으로 추출하여 JSON, HTML, Markdown 등 다양한 형식으로 출력할 수 있습니다.
Crawl4AI는 Playwright를 기반으로 작동하며, JavaScript 실행 및 CSS 셀렉터를 사용한 고급 데이터 추출을 지원합니다.
주요 기능
1. Python 및 Virtualenv 설치 확인
(1) Python 버전 확인
Crawl4AI는 Python 3.8 이상을 요구합니다. 다음 명령어를 실행하여 현재 설치된 Python 버전을 확인하세요.
python3 --version
출력 예시:
Python 3.10.6
만약 Python 버전이 3.8 이하라면, 최신 버전으로 업데이트하세요. (예: sudo apt install python3.10
)
(2) Virtualenv 설치
Linux 환경에서 virtualenv
가 설치되어 있는지 확인하고, 없으면 설치합니다.
pip3 install --user virtualenv
설치 완료 후, virtualenv
버전을 확인하세요.
virtualenv --version
출력 예시:
20.24.2
2. 가상 환경 설정 및 프로젝트 구조
(1) 프로젝트 디렉터리 생성 및 이동
mkdir crawl4ai_project && cd crawl4ai_project
(2) Virtualenv를 이용한 가상 환경 생성
virtualenv venv
venv
라는 이름의 가상 환경이 생성됩니다.
(3) 가상 환경 활성화
source venv/bin/activate
가상 환경이 활성화되면 터미널 프롬프트 앞에 (venv)
가 표시됩니다.
(venv) user@linux:~/crawl4ai_project$
- 가상 환경을 비활성화하려면
deactivate
명령어를 사용하세요. - 가상 환경이 활성화된 상태에서만 패키지를 설치해야 합니다.
3. Crawl4AI 설치 및 설정
(1) Crawl4AI 패키지 설치
Crawl4AI는 Python 패키지로 설치할 수 있습니다:
pip install crawl4ai
playwright install
Playwright 설치에 문제가 발생하면 다음 명령어를 실행하세요:
python -m playwright install chromium
(2) Playwright 브라우저 설정
crawl4ai-setup
이 명령어는 크롤링에 필요한 Playwright 브라우저(Chromium, Firefox, WebKit)를 다운로드하고, 환경을 설정합니다. 설치를 완료하면 아래와 같은 설치완료 로그를 확인할 수 있으며 설치에는 시간이 꽤 필요합니다.
[COMPLETE] ● Playwright installation completed successfully.
[INIT].... → Starting database initialization...
[COMPLETE] ● Database backup created at: /home/sungmoyang/.crawl4ai/crawl4ai.db.backup_20250328_220354
[INIT].... → Starting database migration...
[COMPLETE] ● Migration completed. 0 records processed.
[COMPLETE] ● Database initialization completed successfully.
[COMPLETE] ● Post-installation setup completed!
💡 Playwright란?
Playwright는 Microsoft에서 개발한 자동화 브라우저 라이브러리로, Chromium, Firefox, WebKit을 지원합니다. Selenium보다 빠르고 안정적인 브라우저 자동화 기능을 제공하며, 동적 웹사이트 크롤링에 최적화되어 있습니다.
(3) 설치 확인
crawl4ai-doctor
이 명령어는 Python 버전, Playwright 설치 상태 등을 점검하여 환경이 올바르게 구성되었는지 확인합니다.
4. 크롤링 테스트
Crawl4AI는 Python 코드 없이도 CLI(Command Line Interface)를 통해 간단한 크롤링을 수행할 수 있습니다.
(1) 기본 크롤링 실행
crwl https://www.example.com
출력 예시:
[INFO] Fetching https://www.example.com
[INFO] Successfully retrieved webpage content
[RESULT] Extracted text:
...
(2) Markdown 형식으로 저장
웹사이트의 크롤링 결과를 Markdown 파일로 저장하려면 다음과 같이 실행합니다.
crwl https://www.example.com -o markdown > result.md
(3) JSON 형식으로 저장
JSON 파일로 데이터를 저장하려면 다음과 같이 실행합니다.
crwl https://www.example.com -o json > result.json
출력 예시 (result.json
내용):
{
"url": "https://www.example.com",
"title": "Example Domain",
"content": "This domain is for use in illustrative examples..."
}
5. 추가 기능 설치 (선택 사항)
필요에 따라 다양한 추가 기능을 설치할 수 있습니다.
PyTorch 기반 기능 추가
pip install crawl4ai[torch]
Transformers 기반 기능 추가
pip install crawl4ai[transformer]
모든 기능 한꺼번에 설치
pip install crawl4ai[all]
6. 프로젝트 실행 및 유지보수
(1) 가상 환경 비활성화
deactivate
가상 환경을 종료하면 (venv)
프롬프트가 사라집니다.
(2) 프로젝트 다시 시작하기
다시 프로젝트를 실행하려면 디렉터리로 이동한 후, 가상 환경을 활성화하고 실행하면 됩니다.
cd crawl4ai_project
source venv/bin/activate
python main.py
카테고리 다른 글
Date | Title | Author |
---|---|---|
Jan 1, 3000 | 전체 카테고리 | |
Apr 9, 2025 | 구글 시트 API 접속 설정하기 | |
Apr 6, 2025 | Crawl4AI를 이용한 웹크롤링 | |
Mar 30, 2025 | Ollama에서 Generation Parameter 설정 가이드 | |
Mar 23, 2025 | Google PSE로 Local LLM에 웹검색 기능 추가 | |
Dec 23, 2023 | ChatGPT3.5와 ChatGPT4의 차이점 | |
Dec 22, 2023 | Google Gemeni API Key 얻기 | |
Dec 14, 2023 | RAG(Retrieval Argumented Generation) 정리하기 |