Deep Learning

[OCR] Tesseract, PyTesseract Install on Windows(테스트 소스코드 포함)

박민혀기 2023. 1. 18. 10:54

1. Tesseract Download & Install

Windows용 Tesseract 설치 프로그램 다운로드

https://github.com/UB-Mannheim/tesseract/wiki

 

GitHub - UB-Mannheim/tesseract: Tesseract Open Source OCR Engine (main repository)

Tesseract Open Source OCR Engine (main repository) - GitHub - UB-Mannheim/tesseract: Tesseract Open Source OCR Engine (main repository)

github.com

 

본인 OS에 맞게 설치

다운로드 파일 실행 후 Next, I Agree를 눌러 설치 진행

한국어 추가 과정

※참고 영어는 기본 설치

 

추후 Next, Install, Next, Finish를 눌러 설치를 마무리한다. (쭉 따라 설치하면 됨)

 

2. OpenCV, PyTesseract Install

pip install numpy opencv-contrib-python
pip install pytesseract

 

3. Test Source Code

import pytesseract
import cv2
import matplotlib.pyplot as plt

pytesseract.pytesseract.tesseract_cmd = R'C:\Program Files\Tesseract-OCR\tesseract'

path = "img/test1.png"
img = cv2.imread(path)
img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

text = pytesseract.image_to_string(img, lang='kor+eng')
print(text)
cv2.imshow("img", img)
cv2.waitKey(0)

 

Line 5 : R'tesseract.exe의 주소'를 입력

Line 7 : 이미지의 주소

 

Sample Image

원본
진한글씨

 

4. Result

Image to String이 정상적으로 작동하는걸 확인할 수 있다.