가이드 홈 챗봇 학습 데이터 웹사이트 크롤링

웹사이트 크롤링

운영 중인 웹사이트 URL을 입력하면 시스템이 해당 페이지들을 자동으로 수집(크롤링)하여 챗봇에게 학습시킵니다. 웹사이트에 이미 정리된 내용이 있다면 별도 작업 없이 빠르게 학습 데이터를 추가할 수 있습니다.

웹사이트 크롤링 방법

  1. 챗봇 편집 화면에서 학습(Train) 탭을 클릭합니다.
  2. 웹사이트(Web Sites) 탭을 선택합니다.
  3. 크롤링할 웹사이트 URL을 입력합니다. (예: https://example.com)
  4. 불러오기 또는 크롤링 시작 버튼을 클릭합니다.
  5. 크롤링이 완료되면 수집된 페이지 목록이 표시됩니다.
  6. 학습에 포함할 페이지를 선택하고 학습 시작을 클릭합니다.

크롤링 주의 사항

가능 불가능
공개된 웹사이트 (누구나 접근 가능) 로그인이 필요한 페이지
일반 HTML 구조의 페이지 JavaScript로만 렌더링되는 SPA (일부 제한)
텍스트 콘텐츠가 있는 페이지 이미지만으로 구성된 페이지
국내/해외 공개 URL 접근이 차단된 URL (보안 설정 등)

내용 업데이트

웹사이트 내용이 변경된 경우 크롤링 결과가 자동으로 업데이트되지 않습니다. 내용 변경 후에는 기존 크롤링 항목을 삭제하고 다시 크롤링해야 최신 정보가 반영됩니다.

자주 묻는 질문

크롤링에 시간이 얼마나 걸리나요?

페이지 수와 서버 상태에 따라 다르지만, 일반적으로 수십 페이지는 수십 초 이내, 페이지가 많을 경우 수 분이 소요됩니다.

하위 페이지도 자동으로 수집되나요?

입력한 URL의 하위 페이지들도 자동으로 탐색하여 목록을 만듭니다. 불필요한 페이지는 목록에서 선택 해제할 수 있습니다.

내 웹사이트의 모든 페이지를 다 크롤링해야 하나요?

챗봇이 답변해야 할 내용이 있는 페이지만 선택하면 됩니다. 관련 없는 페이지를 포함하면 오히려 답변 품질이 낮아질 수 있습니다.