AI-интервьюер: как ИИ проводит интервью

AI-интервьюер: что это, как ИИ ведёт интервью с клиентами голосом, уточняет, расшифровывает и сводит отчёт. Что умеет нейросеть для интервью и где её границы.

Я не верил в эту штуку, пока не отдал ей первую живую задачу. Гипотеза горела, времени на десять созвонов не было, и я просто отправил людям ссылку, где интервью вёл не я, а аватар. К вечеру открыл отчёт и поймал себя на дурацкой мысли: респонденты местами раскрылись лучше, чем со мной. Не потому что аватар умнее. Просто человеку иногда проще говорить машине, чем живому исследователю, которого боишься обидеть.

Меня зовут Артём, в Aski я как раз про UX-исследования. И раз уж тема горячая, давайте по-честному разберём, что такое AI-интервьюер, как ИИ проводит интервью, что он реально умеет и где у него стенка, в которую он бьётся лбом. Без «революции» и «будущее уже здесь», я этого не люблю.

Что такое AI-интервьюер

AI-интервьюер это программа, которая сама проводит интервью с человеком: задаёт вопросы голосом, слушает ответ, на ходу придумывает следующий вопрос, расшифровывает разговор и складывает из него выводы. Грубо говоря, на месте исследователя сидит нейросеть. Ты ставишь ей цель и список тем, а дальше она разговаривает с людьми вместо тебя.

Ключевое слово тут «разговаривает». Не «показывает форму», не «присылает анкету». Именно ведёт диалог: реагирует на конкретный ответ, переспрашивает, копает глубже, когда чует, что человек что-то недоговорил.

Внешне для респондента это выглядит как обычный видеозвонок. На экране лицо, оно говорит, слушает, кивает. Человек отвечает голосом, как на созвоне с живым интервьюером. Только по ту сторону не сотрудник, а модель.

Часто такие штуки называют по-разному: ии интервьюер, виртуальный интервьюер, нейросеть для интервью. Суть одна. Меняется только, насколько глубоко оно ведёт диалог, и вот тут разброс огромный, от тупого бота со скриптом до системы, которая реально импровизирует.

Как ИИ проводит интервью: что происходит под капотом

Разложу по шагам, потому что «магия» тут быстро кончается, как только понимаешь механику.

Сначала ты готовишь задачу. Формулируешь цель («понять, почему люди бросают оплату на втором шаге»), даёшь список вопросов или хотя бы тем, подкидываешь материалы о продукте, чтобы модель была в курсе контекста. У нас этим занимается встроенный помощник: помогает поставить цель и собрать вопросы, чтобы они не были наводящими. Дальше выбираешь лицо и голос аватара. Пара минут, и можно отправлять ссылку.

Респондент открывает её в браузере. Без регистрации, без скачивания приложения, без «давайте я вам в зум скину». Просто переходит и начинает говорить.

Дальше начинается само интервью, и тут крутится цепочка из нескольких кусков:

Распознавание речи. Модель переводит то, что человек сказал голосом, в текст, на лету.
Языковая модель. Читает ответ, держит в голове цель и заданные вопросы, решает, что спросить следующим. Если ответ размытый, формулирует уточнение. Если человек ушёл в сторону, мягко возвращает.
Синтез речи. Ответный вопрос озвучивается голосом, лицо аватара его проговаривает.

Всё это происходит за секунды, по кругу, пока разговор не закончится. А параллельно идёт расшифровка: каждая реплика сразу ложится в текст, кто что сказал, в каком порядке.

Когда интервью заканчивается, остаётся не аудиофайл, который надо потом полдня разбирать, а готовый текст разговора. И уже поверх десятка таких текстов система сводит отчёт: какие боли повторялись, у скольких людей всплыла та или иная тема, где мотивы сходятся, а где разговор был единичной историей.

Вот это сведение, на мой взгляд, и есть самая полезная часть. Провести разговор это полдела. По-настоящему больно сесть и наложить десять интервью друг на друга, не запутавшись в именах и цитатах. Про то, сколько недель съедает анализ результатов интервью, мы подробно писали отдельно, повторяться не буду.

Чем AI-интервьюер отличается от формы и от живого модератора

Самый частый вопрос, который мне задают: «а чем это лучше обычного гугл-опроса?». Свёл в таблицу, так нагляднее.

Формат. Форма / опрос — анкета с полями. AI-интервьюер — голосовой диалог. Живой модератор — голосовой диалог.
Уточнения по ходу. Форма / опрос — нет, вопросы заданы заранее. AI-интервьюер — да, реагирует на ответ. Живой модератор — да.
Глубина. Форма / опрос — поверхностно, что спросил, то и получил. AI-интервьюер — средняя-высокая, копает за первую формулировку. Живой модератор — максимальная, ловит нюансы.
Расшифровка. Форма / опрос — не нужна, сразу текст. AI-интервьюер — автоматически, на лету. Живой модератор — вручную, отдельная работа.
Сколько идёт параллельно. Форма / опрос — сколько угодно. AI-интервьюер — сколько угодно, доступен круглосуточно. Живой модератор — один разговор за раз.
Невербалика, контекст. Форма / опрос — ноль. AI-интервьюер — почти ноль. Живой модератор — видит всё.
Стоимость за разговор. Форма / опрос — копейки. AI-интервьюер — дёшево. Живой модератор — дорого, час времени специалиста.

Если коротко, AI-интервьюер сидит ровно посередине. Он не такой глубокий, как опытный исследователь, который чует, когда собеседник врёт из вежливости. Но он несравнимо живее формы: задаёт уточнения, вытаскивает то, о чём ты не догадался спросить заранее.

И главная его сила не в качестве отдельного разговора, а в масштабе. Один живой модератор проведёт три-четыре интервью в день и сдохнет. AI-интервьюер ведёт хоть двадцать параллельно, ночью, пока ты спишь. Для проверки гипотезы, где важна не виртуозность каждой беседы, а суммарная картина по многим людям, это меняет правила.

Что AI-интервьюер реально умеет

Перечислю по делу, без приукрашивания.

Ведёт живой диалог голосом. Не зачитывает список, а реагирует. Человек ответил коротко, аватар переспросит «а почему именно так?». Человек ушёл в сторону, аватар дослушает и вернёт к теме.

Уточняет. Это, пожалуй, главное отличие от анкеты. Хорошая модель чувствует размытый ответ и копает: «вы сказали неудобно, а что конкретно бесило в последний раз?». Та самая воронка вопросов, про которую мы пишем в разборе техники глубинного интервью, только её ведёт машина.

Расшифровывает на лету. Пока человек говорит, реплики уже ложатся в текст. Никакого аудио, которое потом надо переслушивать с отматыванием назад. Если интересно, как обычно мучаются с этим вручную и сколько часов уходит, мы разбирали способы расшифровки интервью в отдельной статье.

Сводит отчёт. Берёт все разговоры и складывает: частые боли, мотивы, формулировки самих клиентов. Отмечает, на скольких сессиях всплыла каждая тема, видно насыщение выборки, то есть момент, когда новые интервью перестают добавлять новое.

Работает круглосуточно и параллельно. Респонденту не надо подстраиваться под твой календарь. Открыл ссылку, когда удобно, хоть в полночь. Десять человек могут говорить одновременно.

Где у AI-интервью границы, честно

Тут начинается часть, которую большинство статей про «ии для интервью» стыдливо пропускает. А зря, без неё картинка кривая.

Невербалику он не считывает. Живой исследователь видит, как человек поморщился, замялся, отвёл глаза на неудобном вопросе. Вот это «слова говорят одно, лицо другое» машина пока не ловит толком. А в исследованиях это иногда самый сочный сигнал. Так что для тем, где важна именно реакция тела, а не слова, я бы AI-интервьюера не ставил вперёд живого.

Очень узкий экспертный B2B он тянет хуже. Если ты опрашиваешь, скажем, троих главных инженеров в редкой отрасли, где каждый ответ это разговор на уровне «мы тут пересобрали техпроцесс по своей методике», то ценность одного такого человека огромна, а уточнения должны быть филигранными. Тут лучше сесть самому. AI-интервьюер блестит на объёме однотипных респондентов, а не на трёх уникальных экспертах, где цена ошибки в одном вопросе высокая.

Сложную импровизацию он ведёт ровно настолько, насколько хороша модель и насколько ты сам подготовил задачу. Скормил кривые наводящие вопросы, получишь кривые ответы, ровно как с живым новичком-интервьюером. Мусор на входе, мусор на выходе, это правило никуда не делось.

И ещё одна честная оговорка. Часть людей всё-таки настораживает разговор с аватаром. У нас по статистике до конца доходит большинство, но кто-то закрывает на первой минуте. С живым человеком из вежливости досидели бы. Так что стопроцентной замены живому формату тут нет, и я бы не обещал.

Короче, это не «уволь всех исследователей». Это инструмент, который снимает рутину и даёт масштаб там, где раньше его не было. Голову он не заменяет, выводы всё равно читать и трактовать тебе.

Кому AI-интервьюер реально подходит

По моему опыту, заходит он вот в каких ситуациях.

Когда нужно много однотипных разговоров и быстро. Проверяешь гипотезу, нужно поговорить с двадцатью пользователями за выходные, а команду отрывать жалко. Классический случай.

Когда расшифровка и сведение превратились в ад. Если ты уже тонул в горе аудиозаписей и понимаешь, о какой боли речь, AI-интервьюер снимает именно эту часть.

Когда исследования нужны регулярно, а ресурса на них нет. Поддержке и customer success важно стабильно собирать обратную связь, но руками это не вытянуть каждую неделю. Тут автопилот в тему.

Когда нужен язык клиента для текстов. Маркетологу важно услышать, какими словами люди сами называют свою проблему. Эти формулировки потом идут в заголовки и офферы. AI-интервьюер вытаскивает их пачкой.

А вот если у тебя три уникальных эксперта и каждое слово на вес золота, или тема, где надо смотреть в глаза, не майся, поговори сам.

Aski как пример: что это на практике

Чтобы не быть голословным, покажу на том, что делаем мы, благо я внутри и знаю, где швы.

Aski это SaaS, где фотореалистичный аватар сам проводит голосовое видео-интервью. Ставишь цель, встроенный помощник помогает собрать вопросы, выбираешь лицо и голос. Дальше отправляешь ссылку, респондент открывает её в браузере и разговаривает, без регистрации и установок. Каждый разговор расшифровывается на лету, а по серии встреч собирается отчёт с болями, мотивами и выводами. Несколько интервью идут параллельно, аватар доступен круглосуточно.

Что это даёт по деньгам и времени. Кастдев из десяти интервью своими силами легко съедает под девяносто часов команды и десятки тысяч рублей. Через AI-интервьюера те же десять разговоров идут параллельно и сводятся в отчёт в тот же день, а по цене это от полутора тысяч рублей за серию.

Важно: данные видит только владелец и его рабочее пространство, наружу записи не уходят. Для исследований это не мелочь.

И про границы я не лукавлю даже в рекламном абзаце. Живой исследователь местами поймает то, что аватар пропустит. Но рутину вокруг интервью, подготовку, созвоны, расшифровку, первичный разбор, он снимает целиком. А спотыкаются почти всегда именно на ней, а не на самом разговоре.

Самое честное тут вот что: можно не верить мне на слово, а просто попробовать на своей гипотезе. Первые интервью бесплатные, карта не нужна. Прогнал, посмотрел отчёт, сам решил, твоё это или нет.

Коротко

AI-интервьюер это нейросеть, которая ведёт интервью голосом вместо тебя: уточняет, расшифровывает, сводит отчёт. Он живее формы и масштабнее живого модератора, но не считывает невербалику и пасует на узких экспертных разговорах. Идеально, когда нужно много однотипных интервью быстро и без рутины. На штучных уникальных собеседниках лучше по старинке, самому.

Хочешь пощупать, как ИИ проводит интервью на твоём вопросе, запусти первое AI-интервью в Aski бесплатно и посмотри отчёт.

FAQ

Чем AI-интервьюер отличается от чат-бота?

Чат-бот гоняет человека по заранее прописанному сценарию: нажми кнопку, выбери вариант, получи ветку. AI-интервьюер ведёт свободный голосовой диалог, сам формулирует следующий вопрос исходя из конкретного ответа и уточняет, когда чувствует недосказанность. Бот идёт по рельсам, интервьюер импровизирует в рамках цели.

Респонденты вообще нормально говорят с аватаром?

Большинство да, и часть даже охотнее, чем с живым человеком, потому что машину не боишься обидеть или показаться глупым. Но честно: кого-то аватар настораживает, и такой человек может закрыть разговор раньше. Стопроцентной замены живому формату нет, это надо держать в голове.

AI-интервью заменит живого исследователя?

Нет, и не в этом смысл. Он снимает рутину (расшифровку, сведение, бесконечные созвоны) и даёт масштаб. Но невербалику и тонкие сигналы в сложных разговорах живой человек ловит лучше. Выводы из отчёта всё равно читать и трактовать тебе. Это инструмент, а не замена головы.

Для каких задач нейросеть для интервью подходит лучше всего?

Когда нужно много похожих разговоров и быстро: проверка гипотезы, регулярный сбор обратной связи, изучение языка аудитории, кастдев на старте. Чем однотипнее респонденты и чем важнее суммарная картина, а не виртуозность отдельной беседы, тем лучше заходит. На трёх уникальных экспертах из узкой ниши эффект слабее.

Нужно ли респонденту что-то устанавливать?

Нет. Человек открывает ссылку в браузере и говорит голосом, как на обычном созвоне. Ни регистрации, ни приложений, ни логинов. Это как раз одна из причин, почему до конца доходит больше людей, чем с тяжёлым онбордингом.

Как AI-интервьюер расшифровывает разговор?

Распознавание речи переводит голос в текст прямо по ходу беседы, реплика за репликой, с разметкой, кто говорит. На выходе сразу готовый транскрипт, а не аудиофайл, который потом надо переслушивать. Поверх серии таких текстов система сводит общий отчёт.

Источники

Aski, продуктовая логика и статистика платформы (aski.pro): доля интервью, доходящих до конца; стоимость и время серии кастдева; модель работы аватара. Внутренние данные продукта.
Стив Бланк. «Четыре шага к озарению» (The Four Steps to the Epiphany), 2005. База методологии customer development, на которой строятся интервью с клиентами.
Роб Фитцпатрик. «Спроси маму» (The Mom Test). Про то, как формулировать вопросы интервью, чтобы не получать ложноположительные ответы, и почему это критично для любого интервьюера, хоть живого, хоть AI.

AI-интервьюер: как ИИ проводит интервью вместо тебя