koscom cloud

CLOVA Speech

길고 복잡한 음성을 텍스트로 바꿔주며 다양한 음성인식 서비스에 활용할 수 있습니다.

긴 음성 기반 서비스에 높은 인식률 제공

음성 메모, 영상 자막 생성, 통화 녹취록 관리 등의 서비스를 만들 때 활용할 수 있는 음성인식 서비스 입니다.
음성 데이터는 Clova Speech Media 엔진으로 전송되며, 해당 데이터를 텍스트로 변환하여 전달해줍니다.
이렇게 인식된 결과를 Tool을 통해 편집 및 재가공할 수 있습니다.

정형화되지 않은 음성을 인식하는 특화 엔진

CLOVA Speech 엔진은  CLOVA의 AI 기술로 정형화되지 않은 길고 복잡한 문장에 대해서도 정확한 음성 인식을 제공합니다.

  • 높은 성능의 한국어 장문 딕테이션
  • 미디어 인식에 강한 모델
  • 전화망 음성 인식을 강화한 모델
  • 지속적인 품질 향상으로 똑똑해지는 CLOVA Speech 엔진
  • 문장 자동 분리 및 타임 스탬프 지원
  • 인식결과 수정 에디터 제공

상세기능

미디어 최적화된 음성 엔진 제공

CLOVA Speech 는 정형화되지 않은 긴 문장 인식에 특화된 음성 인식 엔진을 제공합니다.
AI 기술을 통한 자동 딕테이션 기능으로 방송 영상이나 오디오 클립과 같이, 길이가 긴 음성을 텍스트로 변환할 수 있습니다.
또한 타임 스탬프를 통해 문장의 시작과 끝 시각 정보를 제공하여 자동으로 자막을 생성하는 등 고객 서비스에 다양한 방식으로 활용할 수 있습니다.

CLOVA Speech 활용 가능 영역

인식 결과 수정 에디터 제공

CLOVA Speech 를 통해 인식된 데이터를 손쉽게 수정, 편집하여 재가공할 수 있습니다.
편집하고자하는 파일을 재생하며 인식된 데이터를 바로바로 수정할 수 있으며, 적절한 길이로 문장을 분리하여 타임 스탬프 정보를 표시해줍니다.
자막은 물론 다양한 파일 포맷으로 추출하여 다양한 고객 서비스에 활용할 수 있습니다.

API 기반 인식 제공

CLOVA Speech 의 API를 이용하여 파일을 전송하면 서버에서 인식 결과를 텍스트로 리턴합니다.
REST API는 Client ID와 Client Secret을 이용하여 인증합니다. 인증부터 API 이용까지 데이터 전송 구간은 모두 암호화를 적용할 수 있습니다.

이용 방식인식 가능 언어인식 가능 시간인식 파일 크기인식 가능 음성파일 포맷CLOVA Speech
엔진 전달 데이터
REST API한국어, 영어최대 2시간최대 2GBaudio: mp3, aac, ac3, ogg, flac, wav
video: avi, mp4, mov, wmv, flv, mkv
녹음 파일 / Streaming(제공예정)

요금 안내

CLOVA Speech 서비스는 음성인식 시간에 대해 비용 효율적으로 사용하실 수 있는 서비스 입니다.

서비스 플랜서비스 이용료(Batch)서비스 이용료(Streaming 제공예정)자막 편집 에디터
Free 플랜무료 제공 20분/월
(계정당 1개의 Free 플랜 생성가능)
한시적 무료
Basic 플랜12원 / 15초추후 안내한시적 무료