1. 시작
아래 링크에서 이어서 작성된 글입니다.
[참고 : Python, NVIDIA CUDA, PyTorch 설치하기]
https://hbcha0916.tistory.com/72
[STT][Whisper설치과정] #1 Python, NVIDIA Driver, PyTorch 설치하기
1. 시작 Whisper를 사용하기 위해 우선 그래픽 드라이버 및 PyTorch를 설치한다. 1.1. 설치 버전 Whisper를 사용하기 위해 아래와 같은 버전을 사용합니다. 아래와 같은 버전이 아닐 경우 2번으로 넘어가
hbcha0916.tistory.com
1.1. FFmpeg란
요약
FFmpeg는 인간과 기계가 만든 거의 모든 것을 디코딩, 인코딩, 트랜스코딩, 믹스, 디믹스, 스트리밍, 필터링 및 재생할 수 있는 선도적인 멀티미디어 프레임워크입니다. 가장 잘 알려지지 않은 고대 포맷부터 최첨단 포맷까지 지원합니다. 표준 위원회, 커뮤니티 또는 기업에서 설계한 포맷이든 상관없습니다. 또한 휴대성도 뛰어납니다: FFmpeg는 다양한 빌드 환경, 머신 아키텍처 및 구성에서 Linux, Mac OS X, Microsoft Windows, BSD, Solaris 등에서 테스트 인프라 FATE를 컴파일, 실행 및 통과합니다.
아래 사이트에 FFmpeg에 대한 자세한 설명이 있습니다.
[참고 : FFmpeg 소개 사이트]
About FFmpeg
FFmpeg is the leading multimedia framework, able to decode, encode, transcode, mux, demux, stream, filter and play pretty much anything that humans and machines have created. It supports the most obscure ancient formats up to the cutting edge. No matter if
ffmpeg.org
2. FFmpeg설치
2.1. 다운로드 및 압축 풀기
- 윈도우 기준 설치법입니다.
- 아래 링크로 들어가 `ffmpeg-git-full.7z` 혹은 `ffmpeg-git-essentials.7z`을 다운로드합니다.
https://www.gyan.dev/ffmpeg/builds/
Builds - CODEX FFMPEG @ gyan.dev
FFmpeg is a widely-used cross-platform multimedia framework which can process almost all common and many uncommon media formats. It has over 1000 internal components to capture, decode, encode, modify, combine, stream media, and it can make use of dozens o
www.gyan.dev

- FFmpeg를 설치할 디렉터리에 압축을 풉니다.
- 압축을 푼 디렉터리를 편의상 `FFMPEG_HOME`라고 부르겠습니다.
2.2. 환경 변수 설정
- 시작에서 "환경 변수"를 검색하면 아래와 같이 나옵니다. 여기서 "시스템 환경 변수 편집"을 클릭합니다.

- 아래 사진과 같은 절차로 환경 변수를 설정합니다. 저는 C드라이브 최상위에 압축을 풀었습니다.

PATH 설정
`FFMPEG_HOME\bin`
- 저 같은 경우는 `FFMPEG_HOME` 가 `C:\ffmpeg-2023-07-19-git-efa6cec759-full_build` 이겠죠?
- 터미널에서 `ffmpeg`를 입력합니다. 아래와 같이 나오면 정상설치입니다.
$ ffmpeg
ffmpeg version 2023-07-19-git-efa6cec759-full_build-www.gyan.dev Copyright (c) 2000-2023 the FFmpeg developers
built with gcc 12.2.0 (Rev10, Built by MSYS2 project)
configuration: --enable-gpl --enable-version3 --enable-static --disable-w32threads --disable-autodetect --enable-fontconfig --enable-iconv --enable-gnutls --enable-libxml2 --enable-gmp --enable-bzlib --enable-lzma --enable-libsnappy --enable-zlib --enable-librist --enable-libsrt --enable-libssh --enable-libzmq --enable-avisynth --enable-libbluray --enable-libcaca --enable-sdl2 --enable-libaribb24 --enable-libaribcaption --enable-libdav1d --enable-libdavs2 --enable-libuavs3d --enable-libzvbi --enable-librav1e --enable-libsvtav1 --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxavs2 --enable-libxvid --enable-libaom --enable-libjxl --enable-libopenjpeg --enable-libvpx --enable-mediafoundation --enable-libass --enable-frei0r --enable-libfreetype --enable-libfribidi --enable-libharfbuzz --enable-liblensfun --enable-libvidstab --enable-libvmaf --enable-libzimg --enable-amf --enable-cuda-llvm --enable-cuvid --enable-ffnvcodec --enable-nvdec --enable-nvenc --enable-d3d11va --enable-dxva2 --enable-libvpl --enable-libshaderc --enable-vulkan --enable-libplacebo --enable-opencl --enable-libcdio --enable-libgme --enable-libmodplug --enable-libopenmpt --enable-libopencore-amrwb --enable-libmp3lame --enable-libshine --enable-libtheora --enable-libtwolame --enable-libvo-amrwbenc --enable-libcodec2 --enable-libilbc --enable-libgsm --enable-libopencore-amrnb --enable-libopus --enable-libspeex --enable-libvorbis --enable-ladspa --enable-libbs2b --enable-libflite --enable-libmysofa --enable-librubberband --enable-libsoxr --enable-chromaprint
libavutil 58. 14.100 / 58. 14.100
libavcodec 60. 22.100 / 60. 22.100
libavformat 60. 10.100 / 60. 10.100
libavdevice 60. 2.101 / 60. 2.101
libavfilter 9. 8.102 / 9. 8.102
libswscale 7. 3.100 / 7. 3.100
libswresample 4. 11.100 / 4. 11.100
libpostproc 57. 2.100 / 57. 2.100
Hyper fast Audio and Video encoder
usage: ffmpeg [options] [[infile options] -i infile]... {[outfile options] outfile}...
Use -h to get full help or, even better, run 'man ffmpeg'
3. whisper 라이브러리 설치
whisper라이브러리를 설치합니다.
[참고 : OpenAI - Whisper - GibHub]
https://github.com/openai/whisper
GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
Robust Speech Recognition via Large-Scale Weak Supervision - GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
github.com
위 사이트에 설치 및 간단한 사용법이 포함되어 있습니다.
이 글에선 요약만 합니다.
- 아래 명령어를 이용해 setuptools 와 whisper라이브러리를 설치합니다.
pip3 install setuptools-rust
pip3 install git+https://github.com/openai/whisper.git
3.1. 라이브러리 위치?
whisper 예제를 가동하면 `~/.cache/whisper` 디렉토리에 `$MODEL_SIZE.pt` 파일로 모델 파일이 있습니다.
'잡것 > STT' 카테고리의 다른 글
[STT][Whisper설치과정] #1 Python, NVIDIA Driver, PyTorch 설치하기 (0) | 2023.09.24 |
---|---|
[STT] Whisper와 ClovaSpeech (0) | 2023.09.24 |
1. 시작
아래 링크에서 이어서 작성된 글입니다.
[참고 : Python, NVIDIA CUDA, PyTorch 설치하기]
https://hbcha0916.tistory.com/72
[STT][Whisper설치과정] #1 Python, NVIDIA Driver, PyTorch 설치하기
1. 시작 Whisper를 사용하기 위해 우선 그래픽 드라이버 및 PyTorch를 설치한다. 1.1. 설치 버전 Whisper를 사용하기 위해 아래와 같은 버전을 사용합니다. 아래와 같은 버전이 아닐 경우 2번으로 넘어가
hbcha0916.tistory.com
1.1. FFmpeg란
요약
FFmpeg는 인간과 기계가 만든 거의 모든 것을 디코딩, 인코딩, 트랜스코딩, 믹스, 디믹스, 스트리밍, 필터링 및 재생할 수 있는 선도적인 멀티미디어 프레임워크입니다. 가장 잘 알려지지 않은 고대 포맷부터 최첨단 포맷까지 지원합니다. 표준 위원회, 커뮤니티 또는 기업에서 설계한 포맷이든 상관없습니다. 또한 휴대성도 뛰어납니다: FFmpeg는 다양한 빌드 환경, 머신 아키텍처 및 구성에서 Linux, Mac OS X, Microsoft Windows, BSD, Solaris 등에서 테스트 인프라 FATE를 컴파일, 실행 및 통과합니다.
아래 사이트에 FFmpeg에 대한 자세한 설명이 있습니다.
[참고 : FFmpeg 소개 사이트]
About FFmpeg
FFmpeg is the leading multimedia framework, able to decode, encode, transcode, mux, demux, stream, filter and play pretty much anything that humans and machines have created. It supports the most obscure ancient formats up to the cutting edge. No matter if
ffmpeg.org
2. FFmpeg설치
2.1. 다운로드 및 압축 풀기
- 윈도우 기준 설치법입니다.
- 아래 링크로 들어가 `ffmpeg-git-full.7z` 혹은 `ffmpeg-git-essentials.7z`을 다운로드합니다.
https://www.gyan.dev/ffmpeg/builds/
Builds - CODEX FFMPEG @ gyan.dev
FFmpeg is a widely-used cross-platform multimedia framework which can process almost all common and many uncommon media formats. It has over 1000 internal components to capture, decode, encode, modify, combine, stream media, and it can make use of dozens o
www.gyan.dev

- FFmpeg를 설치할 디렉터리에 압축을 풉니다.
- 압축을 푼 디렉터리를 편의상 `FFMPEG_HOME`라고 부르겠습니다.
2.2. 환경 변수 설정
- 시작에서 "환경 변수"를 검색하면 아래와 같이 나옵니다. 여기서 "시스템 환경 변수 편집"을 클릭합니다.

- 아래 사진과 같은 절차로 환경 변수를 설정합니다. 저는 C드라이브 최상위에 압축을 풀었습니다.

PATH 설정
`FFMPEG_HOME\bin`
- 저 같은 경우는 `FFMPEG_HOME` 가 `C:\ffmpeg-2023-07-19-git-efa6cec759-full_build` 이겠죠?
- 터미널에서 `ffmpeg`를 입력합니다. 아래와 같이 나오면 정상설치입니다.
$ ffmpeg
ffmpeg version 2023-07-19-git-efa6cec759-full_build-www.gyan.dev Copyright (c) 2000-2023 the FFmpeg developers
built with gcc 12.2.0 (Rev10, Built by MSYS2 project)
configuration: --enable-gpl --enable-version3 --enable-static --disable-w32threads --disable-autodetect --enable-fontconfig --enable-iconv --enable-gnutls --enable-libxml2 --enable-gmp --enable-bzlib --enable-lzma --enable-libsnappy --enable-zlib --enable-librist --enable-libsrt --enable-libssh --enable-libzmq --enable-avisynth --enable-libbluray --enable-libcaca --enable-sdl2 --enable-libaribb24 --enable-libaribcaption --enable-libdav1d --enable-libdavs2 --enable-libuavs3d --enable-libzvbi --enable-librav1e --enable-libsvtav1 --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxavs2 --enable-libxvid --enable-libaom --enable-libjxl --enable-libopenjpeg --enable-libvpx --enable-mediafoundation --enable-libass --enable-frei0r --enable-libfreetype --enable-libfribidi --enable-libharfbuzz --enable-liblensfun --enable-libvidstab --enable-libvmaf --enable-libzimg --enable-amf --enable-cuda-llvm --enable-cuvid --enable-ffnvcodec --enable-nvdec --enable-nvenc --enable-d3d11va --enable-dxva2 --enable-libvpl --enable-libshaderc --enable-vulkan --enable-libplacebo --enable-opencl --enable-libcdio --enable-libgme --enable-libmodplug --enable-libopenmpt --enable-libopencore-amrwb --enable-libmp3lame --enable-libshine --enable-libtheora --enable-libtwolame --enable-libvo-amrwbenc --enable-libcodec2 --enable-libilbc --enable-libgsm --enable-libopencore-amrnb --enable-libopus --enable-libspeex --enable-libvorbis --enable-ladspa --enable-libbs2b --enable-libflite --enable-libmysofa --enable-librubberband --enable-libsoxr --enable-chromaprint
libavutil 58. 14.100 / 58. 14.100
libavcodec 60. 22.100 / 60. 22.100
libavformat 60. 10.100 / 60. 10.100
libavdevice 60. 2.101 / 60. 2.101
libavfilter 9. 8.102 / 9. 8.102
libswscale 7. 3.100 / 7. 3.100
libswresample 4. 11.100 / 4. 11.100
libpostproc 57. 2.100 / 57. 2.100
Hyper fast Audio and Video encoder
usage: ffmpeg [options] [[infile options] -i infile]... {[outfile options] outfile}...
Use -h to get full help or, even better, run 'man ffmpeg'
3. whisper 라이브러리 설치
whisper라이브러리를 설치합니다.
[참고 : OpenAI - Whisper - GibHub]
https://github.com/openai/whisper
GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
Robust Speech Recognition via Large-Scale Weak Supervision - GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
github.com
위 사이트에 설치 및 간단한 사용법이 포함되어 있습니다.
이 글에선 요약만 합니다.
- 아래 명령어를 이용해 setuptools 와 whisper라이브러리를 설치합니다.
pip3 install setuptools-rust
pip3 install git+https://github.com/openai/whisper.git
3.1. 라이브러리 위치?
whisper 예제를 가동하면 `~/.cache/whisper` 디렉토리에 `$MODEL_SIZE.pt` 파일로 모델 파일이 있습니다.
'잡것 > STT' 카테고리의 다른 글
[STT][Whisper설치과정] #1 Python, NVIDIA Driver, PyTorch 설치하기 (0) | 2023.09.24 |
---|---|
[STT] Whisper와 ClovaSpeech (0) | 2023.09.24 |