View Categories

localGPT-vision을 ubuntu서버에 설치 및 사용

localGPT-VISION 은 문서와 이미지를 함께 분석하여 대화할 수 있는 강력한 RAG(Retrieval-Augmented Generation) 시스템입니다.


설치 방법 #

1단계: 사전 요구사항 및 저장소 복제 #

먼저, 시스템에 Python 3.10 이상Git이 설치되어 있는지 확인합니다. 그 다음, GitHub 저장소를 복제합니다.

# 저장소 복제 및 디렉토리 이동
git clone https://github.com/PromtEngineer/localGPT-Vision.git
cd localGPT-Vision

2단계: 파이썬 가상 환경 생성 및 활성화 #

프로젝트별 의존성을 관리하기 위해 conda 또는 venv를 사용하여 가상 환경을 만듭니다.

Conda 사용 시:

conda create -n localgpt-vision python=3.10 -y
conda activate localgpt-vision

venv 사용 시:

python3 -m venv venv
source venv/bin/activate

3단계: 필수 라이브러리 설치 #

requirements.txt 파일에 명시된 라이브러리들을 설치합니다.

pip install -r requirements.txt

4단계: 모델 다운로드 #

이 프로젝트는 LLaVA v1.5와 같은 로컬 Vision 모델을 사용합니다. 스크립트를 처음 실행할 때 필요한 모델 파일들이 자동으로 다운로드되어 캐시 폴더에 저장됩니다. (약 4GB)

  • 참고: 만약 OpenAI의 GPT-4 Vision이나 Google Gemini와 같은 상용 모델을 사용하려면, 해당 API 키를 환경 변수로 설정해야 합니다.
    • export OPENAI_API_KEY="YOUR_OPENAI_API_KEY"
    • export GENAI_API_KEY="YOUR_GOOGLE_API_KEY"

사용 요령 #

1단계: 데이터 준비 #

대화하고 싶은 문서(PDF, TXT 등)나 이미지(JPG, PNG 등)를 SOURCE_DOCUMENTS 폴더 안에 넣습니다.

2단계: 데이터 색인화 (Ingest) #

ingest.py 스크립트를 실행하여 SOURCE_DOCUMENTS 폴더 안의 파일들을 AI가 이해할 수 있는 벡터 형태로 변환하고 데이터베이스에 저장합니다. 이 과정을 **”Ingestion”**이라고 합니다.

python ingest.py

이 작업은 파일의 양과 크기에 따라 시간이 걸릴 수 있습니다. Ingestion complete 메시지가 나오면 완료된 것입니다.

3. 챗봇 실행 및 질문하기 #

run_localgpt.py 스크립트를 실행하여 챗봇 인터페이스를 시작합니다. 기본적으로 로컬 LLaVA 모델을 사용합니다.

python run_localgpt.py

스크립트가 실행되면 명령줄(CLI)에 질문을 입력할 수 있습니다.

Enter a query: (여기에 질문을 입력하세요)

질문을 입력하면 AI가 SOURCE_DOCUMENTS 폴더의 내용을 바탕으로 답변과 함께 근거가 된 문서의 출처를 함께 보여줍니다.

💡 사용 예시:

  • 자동차 매뉴얼 PDF와 차량 내부 사진을 넣고 “에어컨 필터는 어디에 있어?”라고 질문할 수 있습니다.
  • 재무제표 PDF와 그래프 이미지를 넣고 “작년 대비 매출이 가장 많이 증가한 분기는 언제야?”라고 물어볼 수 있습니다.

(선택) 상용 모델 사용하기 #

만약 GPT-4 Vision 모델을 사용하고 싶다면 --model_type 플래그를 추가하여 실행합니다.

python run_localgpt.py --model_type gpt4-vision

Powered by BetterDocs

Leave a Reply