Аннотация:В работе предложен оригинальный алгоритм обработки аудио-текстов, представленных в свободном доступе в сети Интернет и прочитанных профессиональными дикторами. Обработка заключается в автоматической разбивке текста на предложения, используя статистические данные о скорости чтения и амплитудные колебания речи для выявления пауз.
Предложенный подход минимизирует человеческое участие в процессе и является универсальным, то есть в перспективе поможет увеличить корпуса для разных языков, не только казахского.