반응형
1. 시작
STT관련 프로젝트 덕분에 STT를 알게 되었다.
STT는 Speech To Text의 줄임말로 사람의 음성을 텍스트로 변환한다.
반대로는 TTS(Text To Speech)가 있으며 우리가 알고 있는 BJ한테 후원하면 나오는 여자음성(and 쿠쿠루삥뽕), 내비게이션 길안내 등이 TTS이다.
2. STT종류 및 특징
STT를 사용해 볼수 있는 것은 OpenAI(ChatGPT를 만든 조직)에서 만든 Whisper와 Naver에서 만든 ClovaSpeech가 있다.
2.1. OpenAI - Whisper 주요 특징
[참고 : whisper github]
https://github.com/openai/whisper
- 모델을 직접 다운받아 사용할 수 있다.
- 모델을 직접 다운받아 사용할 경우 무료다.(API를 사용할 경우 유료다)
- 모델을 직접 다운받아 사용할 경우 WhisperSTT를 실행하는 컴퓨터의 GPU 사양을 따른다.
- 나는 이미 RTX 3060 12GB를 보유하고 있어 사양을 맞추기 위한 비용은 필요하지 않았다.
- 사용해 본 결과 Whisper보다 ClovaSpeech가 한글 인식이 좀 더 괜찮았고, Whisper는 백그라운드 음성까지 인식하여 조금 소름 돋았다.(주 음성자 뒤에 있는 라디오, TV소리 등) 그래서 주 음성이 명확하지 않을 경우 백그라운드 음성을 인식하는데 처음에는 "시청해 주셔서 감사합니다"로 인식하여 "응?" 했었다. 자세히 들어보니 주 음성자 뒤에서 나는 TV 뉴스 소리였다.
2.2. NAVER - ClovaSpeech 주요 특징
[참고 : 체험 사이트]
[참고 : ClovaSpeech 소개]
https://www.ncloud.com/product/aiService/clovaSpeech
- 월 20분만 무료다.
- API를 직접 발급받아 사용하는 방식
- 유료라 마음에 안든다.
- 하지만 한글 인식률이 Whisper보다 좋다.(매우 차이 나진 않지만 유의미하게 차이는 났다.)
3. 끝
다음 글에서는 Python Whisper 모듈을 이용하여 Whisper를 사용해보려고 한다.
API로 사용하는 것은 다양한 프로그래밍언어로 사용할 수 있고 사용법 또한 쉬워서 딱히 쓰지 않으려 한다.
반응형
'잡것 > STT' 카테고리의 다른 글
[STT][Whisper설치과정] #2 ffmpeg , whisper 설치하기 (1) | 2023.09.24 |
---|---|
[STT][Whisper설치과정] #1 Python, NVIDIA Driver, PyTorch 설치하기 (0) | 2023.09.24 |