일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- Коркабулкунӣ барои хориҷиён
- Hello World
- Kotlin
- အလုပ်
- စကားစမြည်ပြောခြင်း
- အယ်လ်ဘာ
- အလုပ်အကိုင်
- နိုင်ငံခြားသား
- Data Lake
- 빅데이터
- Кор барои хориҷиён
- Кори нопурра дар Корея
- Чои кор барои хоричиён
- Мобиль замима
- 계정삭제 요청
- Шуғ дар Корея
- Spring boot
- java
- Job
- Кор дар Корея
- Чати тарҷумаи худкор
- 스프링부트
- ကိုရီးယား
- 비바버튼
- Mobiele toepassing
- Werwingtoepassing
- မြန်မာ
- BigData
- korea
- Ҷойҳо дар Корея
- Today
- Total
VivaButton
STT POC 계획 본문
STT(Speech To Text) 란?
음성을 텍스트로 변환 하는 기술을 통틀어서 Speech To Text(STT) 또는 음성인식라 한다.
회사에서 STT API 도입을 위한 국내외 STT API 중 대표적인 몇개의 API POC를 계획중에 있다.
일단 간략한 요구사항은 다음과 같다.
* 대략의 요구사항
1. STT API 제공 업체별 차이 확인.
2. STT API별 장단점.
3. STT API별 특화된 기능 확인
4. 비용확인.
대략 국내 업체와 국외 업체의 STT API를 비교해보려 한다.
제일 중요한건 얼마나 음성 데이터를 한국어 텍스트로 정확하게 변환하는가 일것이다.
2017년 자료를 찾아보면 구글이나 AWS의 한국어 인식률이 많이 좋지는 않았다는것을 알 수 있으나,
1년이라는 시간이 지난 현재는 얼마나 개선이 되었을지 기대된다.
* STT API POC를 통해 얻고자 하는 것
1. 국내외사의 STT API 한국어, 문장, 숫자 인식률(신뢰도), 오인식률 검토
2. STT API별 프로토타이핑
3. STT API별 장/단점 확인
4. 실시간 스트리밍/배치 처리 기능 검증
사실 우리가 알고 있는 STT API들은 모두 아주 훌륭한 수준일 것이다.
이정도 인식률을 가진 STT를 개발하기까지 엄청난 수고와 노력을 들어왔을 것이다.
일단 구글의 Speech-to-Text API 부터 검증을 시작해 나갈 것이다.
* 국내 STT API 검증 대상
1. 네이버 - Clova Speech Recognition
2. 다음 카카오 - 뉴톤
3. ETRI(한국전자통신연구원) - 음성인식 API
위 3가지 STT들은 모두 API 형태로 제공한다.
하지만 네이버와 다음카카오는 모바일 디바이스에서만 API 호출이 가능하다.
WEB이나 다른 디바이스에서는 사용 할 수 없는 걸로 확인됬다.
그리고 위 세가지 API 모두 1건당 60초이내의 음성만 요청이 가능하다.
* 국외 STT 검증 대상
1. 구글 - Cloud Speech-to-Text(음성에서 텍스트로 변환 API)
API 형태로 제공(월 최대 1백만분 사용제한)
비용 : 최초 1시간 무료, 15초당 6.8원 (음성인식 API 호출 1회당 동기식,스트리밍 최대 60초, 비동기식 최대 180분)
디바이스 제한 없이 모두 사용 가능
2. AWS - Amazon Transcribe(자동음성인식)
API 형태로 제공(월 최대 1백만분 사용제한)
비용 : 12개월 매월 60분 무료, 기본 15초 6.8원 초과 1초당 0.45원 (음성인식 API 호출 1회당 최대 120분)
디바이스 제한 없이 모두 사용 가능
구글과 AWS의 STT API는 모든 디바이스에서 모두 사용 가능하다.