Как расшифровать интервью: способы и сервисы

Как расшифровать интервью быстро: транскрибация вручную, голосовой ввод и нейросети. Плюсы и минусы каждого способа, сколько времени уходит, как ускорить.

Час записи это пять-шесть часов работы, если садишься расшифровывать вручную. Не опечатка. Один разговор на шестьдесят минут, и ты потерял почти рабочий день только на то, чтобы перегнать звук в буквы. А разговоров у тебя, скажем, десять.

Артём, UX-исследователь в Aski. За последние пару лет расшифровал столько интервью, что цифру даже называть стыдно, и почти на каждом способе успел обжечься. Поэтому дальше честно: какие вообще есть варианты расшифровать интервью, чем каждый хорош, где подстава, и что я в итоге делаю сам. Без рекламы волшебных кнопок, их нет.

Сразу оговорюсь: «правильного» способа на все случаи не существует. Под NDA и юридический разговор одно, под двадцать кастдев-интервью подряд совсем другое. Ниже разложу, как выбирать.

Зачем вообще расшифровывать интервью

Можно же просто переслушать запись и выписать важное? Можно. Я сам так делал первый год и до сих пор иногда делаю, когда интервью одно и короткое.

Но как только разговоров становится больше трёх, аудио превращается в чёрный ящик. Ты помнишь, что «кто-то говорил про цену», а кто именно и какими словами, уже нет. Чтобы найти, надо отматывать запись на слух, а это ад. Текст ищется по Ctrl+F за секунду, звук не ищется никак.

Что даёт расшифровка интервью на руках:

По тексту можно искать, цитировать, выделять цветом. Аудио так не разрежешь.
Цитаты клиента слово в слово идут потом в отчёт, на лендинг, в рекламу. По памяти ты их перевираешь, проверено.
Несколько интервью рядом видно глазами. Что повторяется у разных людей, где единичная история. На слух это не сопоставить.
Текст можно отдать коллеге или скормить нейросети для первичного разбора. Запись на час никто слушать не будет.

Короче, расшифровка это не бюрократия ради галочки. Без неё анализ интервью либо не случается, либо случается криво, по обрывкам памяти. Про сам разбор, кстати, у нас отдельная статья про анализ результатов интервью, тут только про этап «перевести запись в текст».

Три способа расшифровать интервью, и у каждого своя цена

Грубо говоря, путей перевести запись в текст три. Руками, голосовым перенабором, автоматом через нейросеть. Разберу каждый, а потом сведу в таблицу, чтоб было видно сразу.

Способ первый: руками, с нуля

Открываешь плеер, открываешь документ, печатаешь то, что слышишь. Останавливаешь, отматываешь, переписываешь.

Плюс ровно один, зато весомый: точность. Ты слышишь контекст, понимаешь, где человек оговорился, где пошутил, где имя собственное, которое автомат превратит в кашу. Ничего не теряется. Под юридическую расшифровку или интервью, где важна каждая запятая, до сих пор делают так.

Минус вы уже знаете. Время. Те самые пять-шесть часов на час записи у среднего человека. Профессиональные транскрибаторы быстрее, у них набита скорость печати и они работают с педалью-перемоткой, но и они редко спускаются ниже трёх часов на час чистого звука. Для большинства из нас это просто неподъёмно, когда интервью не одно.

Способ второй: голосовой перенабор (надиктовка)

Хитрость, про которую мало кто помнит. Ты слушаешь запись в наушниках и своим голосом надиктовываешь услышанное в систему голосового ввода. Получается, переозвучиваешь интервью.

Звучит странно, но работает быстрее ручного набора. Почему: твой собственный голос, чистый, без фоновых шумов и без второго спикера, который перебивает, распознаётся куда точнее, чем исходная запись с улицы или из шумного кафе. Плюс ты на лету правишь, расставляешь знаки препинания голосом, пропускаешь мычание.

Минус: всё равно реальное время плюс правки. Час записи это минимум час надиктовки, чаще полтора. И к вечеру садится голос, серьёзно. Я пробовал так разгрести три интервью подряд и охрип. Способ нишевый, но если запись грязная, а автомат на ней захлёбывается, иногда спасает.

Способ третий: авто-транскрибация нейросетью

Загружаешь файл, через несколько минут получаешь текст. Современные модели распознавания речи дошли до того, что на чистой записи делают это с точностью под 90 с лишним процентов, и это правда удобно.

Тут плюсов много. Скорость в первую очередь: час аудио обрабатывается за минуты, а не часы. Многие движки сразу размечают спикеров (кто говорит) и ставят таймкоды. Дёшево или вообще бесплатно на небольших объёмах.

Но давайте честно про минусы, их обычно замалчивают. Точность плавает. На чистой студийной записи отлично, а на реальном интервью с шумом, акцентом, перебиваниями и специфическими терминами автомат начинает фантазировать. Имена, названия продуктов, профессиональный жаргон он коверкает регулярно. Поэтому сырую авто-расшифровку всё равно надо вычитывать, и вот этот этап вычитки люди забывают заложить в план. Он съедает от двадцати минут до часа на запись, смотря насколько грязный исходник.

Ещё момент, неприятный: данные. Когда ты заливаешь интервью с реальными клиентами на сторонний сервис, запись уходит на чужие серверы. Под NDA или с персональными данными это вопрос, который стоит задать до того, как нажал «загрузить», а не после.

Сводка: что выбрать под свою задачу

Чтобы не держать всё в голове, вот таблица. Цифры по времени усреднённые, по моему опыту и опыту коллег, у вас могут гулять.

Вручную с нуля. Время на 1 час записи — 5–6 часов (профи 3). Точность — максимальная. Когда брать — юридические, спорные, где важна каждая фраза.
Голосовой перенабор. Время на 1 час записи — 1–1,5 часа. Точность — высокая. Когда брать — грязная запись, где автомат захлёбывается.
Авто нейросетью. Время на 1 час записи — минуты + 20–60 мин вычитки. Точность — плавает, зависит от качества звука. Когда брать — объём, кастдев, рабочие интервью.
Транскрибация на лету. Время на 1 час записи — 0, готова сразу. Точность — зависит от движка. Когда брать — когда интервью только предстоит провести.

Последнюю строку поясню чуть ниже, она про другой подход в принципе.

Если совсем коротко свести логику выбора. Одно важное интервью, где цена ошибки высокая, руками или с тщательной вычиткой автомата. Десять рабочих разговоров под исследование, авто-транскрибация плюс быстрая вычитка, иначе утонешь. Запись отвратительного качества, где нейросеть выдаёт бред, голосовой перенабор как запасной аэродром.

На что смотреть, когда выбираешь подход

Не только на скорость. Я для себя свёл к нескольким вопросам, которые задаю до начала, а не после.

Качество исходной записи. Это решает почти всё. Чистый звук с петличкой или хорошего созвона автомат разберёт прекрасно. Запись с телефона в шумном помещении, где двое перебивают друг друга, угробит любую нейросеть, и тогда либо руки, либо надиктовка. Поэтому первое правило, которое стоило выучить раньше: позаботься о качестве записи на этапе самого интервью. Хороший микрофон экономит часы расшифровки потом.

Сколько спикеров и нужна ли их разметка. Об этом отдельно ниже, но если в разговоре больше двух человек, авто-разметка спикеров начинает путаться, и придётся разводить вручную.

Конфиденциальность. Куда уходит файл. Если интервью под NDA, сторонний облачный сервис может быть просто нельзя по договору. Проверяй заранее.

Что будет с текстом дальше. Если расшифровка нужна как промежуточный шаг к выводам, а не как самоценный документ, то идеальная пунктуация не нужна, можно жертвовать вылизанностью ради скорости. А если текст пойдёт в публикацию или отчёт заказчику, вычитку никто не отменял.

Объём. Одно интервью и двадцать интервью это разные истории. На объёме мелкие неудобства способа множатся и превращаются в боль.

Разметка спикеров: маленькая деталь, которая всё ломает

Отдельно про это, потому что недооценивают. Расшифровка, где не видно, кто что сказал, почти бесполезна для анализа.

Тебе же надо отделить вопросы интервьюера от ответов респондента. Иначе потом, читая текст, не поймёшь, где мысль клиента, а где ты сам её ему подсказал наводящим вопросом. А подсказанные ответы это главная ловушка интервью, про неё мы подробно писали в материале про глубинное интервью.

Автоматическая разметка спикеров (на английском это называют диаризацией) у современных движков работает, но неидеально. На двух говорящих с разными голосами, мужским и женским, обычно ок. На двух похожих голосах или когда люди перебивают друг друга, начинает склеивать реплики и присваивать их не тому. Так что размеченную автоматом расшифровку всё равно надо пробежать глазами и поправить, кто есть кто. Эти десять-пятнадцать минут тоже закладывайте в план.

Ручная разметка точнее, но это снова время. Замкнутый круг, в общем.

Как реально ускорить расшифровку

Собрал то, что работает у меня, без магии.

Первое и главное, повторюсь, потому что важнее всего: качество записи на входе. Чем чище звук, тем меньше правок на выходе. Отдельный микрофон, тихая комната, попросить респондента не есть и не шуршать. Скучно, но экономит часы.

Второе: не вылизывай то, что не пойдёт в публикацию. Если расшифровка нужна тебе для анализа, мычание, «эээ» и кривую пунктуацию можно оставить. Главное смысл и кто сказал. Перфекционизм тут крадёт время.

Третье: гибрид. Автомат делает черновик, ты вычитываешь по записи на ускоренной перемотке, поправляя только грубые ошибки и имена. Это быстрее и ручного набора, и слепого доверия автомату. Так делаю чаще всего.

И четвёртое, до которого многие не доходят. А что, если расшифровка вообще не нужна как отдельный этап? Если убрать сам момент «провёл интервью, потом сел разбирать гору аудио»?

Когда расшифровывать нечего: интервью сразу в тексте

Вот к чему я подводил последней строкой в таблице. Все три способа выше решают одну задачу: у тебя УЖЕ есть запись, и её надо перевести запись в текст. А самый быстрый способ, как водится, это не делать работу вовсе.

Это, собственно, та боль, под которую мы и собирали Aski. Фотореалистичный аватар сам проводит голосовое интервью, и расшифровка идёт прямо по ходу разговора, со спикерами и таймкодами. К моменту, когда человек попрощался, текст уже готов и сразу падает в отчёт. Отдельного сервиса транскрибации, загрузки файлов, ожидания и вычитки сырого автотекста просто нет, этап выпадает целиком. Респондент открывает ссылку в браузере, без установки и регистрации, говорит как на обычном созвоне, а ты в тот же день получаешь и расшифровку, и сведённые по всем встречам выводы.

Честно про границы. Это не отменяет ручную расшифровку там, где она реально нужна: суд, запись старого интервью, которое у тебя уже лежит файлом, разговор не на русском (в первой версии язык интервью русский). Если интервью УЖЕ записано, его всё равно надо расшифровывать одним из трёх способов выше. Aski убирает этап только тогда, когда интервью тебе ещё предстоит провести. Зато тогда убирает целиком. Первые интервью бесплатные, карта не нужна, можно прогнать на своей задаче сегодня и посмотреть, как это выглядит.

Коротко

Расшифровать интервью можно тремя путями: руками (точно, но пять-шесть часов на час записи), голосовым перенабором (быстрее, но садится голос) и нейросетью (минуты плюс вычитка, но точность плавает на грязном звуке). Выбор зависит от качества записи, числа спикеров, конфиденциальности и объёма, а не только от скорости.

И помните про две вещи, которые экономят больше всего: хороший звук на входе и разметку спикеров, без неё расшифровка для анализа почти бесполезна. А если интервью только предстоит, иногда дешевле вообще убрать этап транскрибации, чтобы текст собирался сам по ходу разговора.

FAQ

Сколько времени занимает расшифровать интервью вручную?

В среднем пять-шесть часов на один час записи у обычного человека. Профессиональные транскрибаторы быстрее, около трёх часов на час чистого звука, за счёт скорости печати и перемотки педалью. Поэтому ручную расшифровку держат для случаев, где важна каждая фраза, а на объёме переходят на автоматические способы.

Насколько точна авто-транскрибация нейросетью?

На чистой записи современные движки распознавания речи дают точность за 90 процентов, это правда удобно. Но на реальном интервью с шумом, акцентом, перебиваниями и специфическими терминами точность падает, и автомат коверкает имена, названия и жаргон. Поэтому сырую авто-расшифровку всегда надо вычитывать, закладывайте на это от двадцати минут до часа на запись.

Что такое разметка спикеров и зачем она нужна?

Это отметки в тексте, кто именно говорит: интервьюер или респондент. Без неё расшифровка для анализа почти бесполезна, потому что не отделить мысль клиента от вопроса, который ты ему сам подсказал. Автоматическая разметка работает, но путается на похожих голосах и при перебиваниях, так что её обычно надо проверять и поправлять вручную.

Как ускорить расшифровку, не теряя в качестве?

Три вещи. Позаботьтесь о чистом звуке на этапе записи, это решает почти всё. Не вылизывайте текст, который не пойдёт в публикацию, для анализа достаточно смысла и спикеров. И делайте гибрид: автомат готовит черновик, вы вычитываете его по записи на перемотке, правя только грубые ошибки и имена.

Безопасно ли загружать записи интервью на сторонний сервис?

Зависит от того, что в записи и какие у вас обязательства. Если интервью под NDA или содержит персональные данные, заливать его на сторонний облачный сервис может быть нельзя по договору, и проверять это надо до загрузки, а не после. Уточняйте, где и сколько хранится файл и кто к нему имеет доступ.

Можно ли вообще обойтись без отдельной расшифровки?

Если интервью уже записано файлом, то нет, его всё равно придётся перевести в текст одним из способов. Но если интервью только предстоит провести, расшифровку можно собирать прямо во время разговора, тогда отдельного этапа транскрибации не возникает: текст готов сразу, как разговор закончился.

Источники

Собственный опыт расшифровки интервью в UX-исследованиях Aski (усреднённые оценки времени по способам).
Оценка «час записи ≈ 5–6 часов ручной расшифровки»: отраслевой ориентир, который называют профессиональные транскрибаторы; на чистом звуке у опытных специалистов опускается примерно до 3 часов на час аудио.
Стив Бланк. «Четыре шага к озарению» (The Four Steps to the Epiphany), 2005. Про важность дословной фиксации слов клиента в customer development.
Роб Фитцпатрик. «Спроси маму» (The Mom Test). Почему важно отделять реплики респондента от наводящих вопросов интервьюера при разборе.

Как расшифровать интервью: способы, которые реально работают, и сколько времени они съедают