보다 정확한 Speech to text 결과를 얻기 위해 음성을 분석 할 필요가 있을 수 있음 예를 들면 * 발화의 시작/종료 시점 * 2명 이상의 음성이 겹쳐 있는지 여부 * 음성 외 효과음, 배경음 등이 있는지 여부
보다 정확한 Speech to text 결과를 얻기 위해 음성을 분석 할 필요가 있을 수 있음
예를 들면