파이썬(Python)

[파이썬] Python Tesseract 설치 및 사용법

닥터패퍼3 2023. 6. 21. 22:48

파이썬으로 이미지에서 텍스트를 추출하는 작업을 윈도우에서 진행할 작업이 생겨서 Tesseract를 찾아보고 사용해 볼 계기가 생겼습니다.

 

Tesseract OCR 소개

 

이미지에서 텍스트를 추출하는 작업은 데이터 처리, 문서 자동화, 정보 추출 등 다양한 분야에서 필수적입니다. 이를 위해 Tesseract OCR 엔진은 강력한 도구 중 하나로 알려져 있습니다

 

Windows에서의 Tesseract OCR 설치방법

 

1) 직접 다운로드 및 환경변수 설정

2) pip으로 설치

 

1) 직접 다운로드 및 환경변수 설정

 

  • 설치 시 기본 폴더 위치는 아래와 같습니다.
    C:\Program Files (x86)\Tesseract-OCR

 

  • "제어판" → "시스템 및 보안" → "시스템" → "고급 시스템 설정" → "환경 변수" 클릭

 

  • 아래와 같이 Path 클릭 후 편집을 눌러주세요

 

  • 그런 다음 새로 만들기를 클릭해 주세요

 

  • 위와 같이 기본으로 설치된 경로(C:\Program Files (x86)\Tesseract-OCR)를 복사한 후, 새로 만들기에 추가하고 확인 버튼을 눌러주세요 

 

2) pip으로 설치

  • terminal에서 pip install pytesseract로 설치를 해주세요
    pip install pytesseract
  • 설치 후 아래와 같이 pytesseract 가 설치 된 경로를 지정해 준 다음, 이미지 path를 불러와 실행해주시면 됩니다.
From PIL import Image
import pytesseract

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR'

text = pytesseract.image_to_string(Image.open(img_path), lang='Eng+kor')