Как ИИ делает Zoom-разговоры веселее

Джулиан Грин объяснял мне большую проблему с виртуальными совещаниями, и тут наш разговор затормозился. Пиксели его лица изменились. Голос стал заикаться. Потом он зашипел, замер и раздвоился.

Мы с Грином общались по Headroom. Это новая платформа для видеоконференций, которую он и его соучредитель Эндрю Рабинович запустили этой осенью. Они заверили меня, что сбой вызван не их программным обеспечением, а качеством wi-fi у Грина. «Я думаю, что все соседи на моей улице заняты сейчас домашним обучением, — сказал он. Проблема, решать которую Headroom не призван. Он был создан для решения других проблем: утомительное ведение заметок, постоянно фонящие коллеги и сложность с тем, чтобы поддерживать внимание каждого участника. Пока мы говорили, программа выводила транскрипцию в реальном времени в окошке прямо рядом с нашими лицами.

Она неустанно подсчитывала, сколько слов сказал каждый человек (Рабинович доминировал). Когда встреча закончилась, программное обеспечение Headroom синтезировало концепции из стенограммы, определило ключевые темы, даты, идеи и действия, и, наконец, выдала запись, которую можно будет просмотреть позже. Программа даже пыталась измерить, насколько внимателен был каждый участник во время видеочата.

Совещания и встречи — неизбежное зло сегодня. У них множество разновидностей: ежедневные стендапы, сидячие встречи, всеобщие, индивидуальные, короткие семинары, сверка текущих результатов, мозговые штурмы, разборы отчетов, обсуждение дизайна. Но чем больше времени мы проводим на этих корпоративных собраниях, тем сильнее страдает собственно работа. Исследователи обнаружили, что совещания связаны со снижением производительности, удовлетворения от работы и даже доли компании на рынке. И в год, когда так много офисных взаимодействий стали цифровыми, привычная монотонность собраний усугубляется шквалом телеконференций.

Недавно появилась новая волна стартапов, которые оптимизируют эти встречи с помощью каких-то еще технологий. Macro («наделите вашу встречу суперсилой») создает интерфейс для совместной работы в Zoom. Mmhmm предлагает интерактивные фоны и инструменты для демонстрации слайдов. Fireflies, ИИ-инструмент для транскрипции, интегрируется с популярными платформами видеоконференцсвязи, чтобы создавать записи о каждой встрече с возможностью поиска. А Sidekick («пусть удаленная команда снова почувствует близость друг с другом») продает специальный планшет для видеозвонков.

Идея Headroom, которая появилась еще до пандемии, заключается в том, чтобы решить как личные, так и виртуальные проблемы собраний с помощью ИИ. (Рабинович возглавлял разработку ИИ в Magic Leap.) Видеоконференцсвязь становилась все популярнее и до 2020 года, но в этом году произошел резкий рост, так что Грин и Рабинович делают ставку на то, что этот формат сохранится, ведь удаленка становится привычной для все большего числа компаний. Однако за последние девять месяцев многие люди поняли, что виртуальные собрания порождают новые проблемы: нужно интерпретировать язык тела других людей на экране или понять, слушает ли вас кто-нибудь вообще.

«Одна из трудностей на видеоконференциях возникает, когда кто-то выступает, а я хочу сказать, что мне это нравится», — говорит Грин. При личной встрече, по его словам, «можно кивнуть головой или сказать «ага». Но в видеочате спикер может не увидеть это, если в это время он демонстрирует слайды, или в собрании слишком много участников, или все, кто может вставить реплику, отключили микрофон. «Вы не знаете, понравилось ли людям то, что вы сказали».

Headroom пытается преодолеть дистанцию виртуальных встреч несколькими способами. Во-первых, он использует компьютерное зрение для преобразования жестов одобрения в цифровые значки — поднятый вверх большой палец или маленький, кивающий головой смайлик, — которые может видеть говорящий. Эти смайлики также добавляются в официальную стенограмму, которая автоматически генерируется софтом, чтобы избавить участников от необходимости делать заметки. Грин и Рабинович говорят, что всех участников встречи предупреждают об этой функции, и они могут от нее отказаться, если захотят.

Более того, Headroom использует распознавание эмоций, чтобы периодически оценивать, сколько внимания участники уделяют спикеру. Эти показатели отображаются в окне на экране. Это своего рода обратная связь, которая иногда теряется в виртуальном контексте. «Если пять минут назад все были в восторге от того, что я говорю, а теперь нет, может, мне пора уже замолчать», — говорит Грин.

Распознавание эмоций — новая область ИИ. «Цель в том, чтобы попытаться распознать выражения лица с помощью таких ориентиров, как подъем брови, форма рта, раскрытие зрачков», — говорит Рабинович. Каждое из этих движений лица можно представить в виде данных, которые теоретически затем можно перевести в эмоцию: счастье, грусть, скука, смущение. На практике это не так просто. Раньше бывали случаи, когда программы для распознавания эмоций навешивали ярлыки на людей с другим цветом кожи. Одна программа, используемая службой безопасности аэропорта, переоценила, насколько часто черные мужчины проявляют отрицательные эмоции, такие как «гнев». Такие алгоритмы также не учитывают культурный контекст, например, отводит ли кто-то глаза из уважения, стыда или застенчивости.

Для Headroom это не так уж важно. «Нам все равно, просто ли вы счастливы или очень счастливы, пока мы можем сказать, что вы активно вовлечены в процесс», — говорит Рабинович. Но Элис Сян, руководитель исследования справедливости, прозрачности и подотчетности в «Partnership on AI», говорит, что даже базовое распознавание лиц пока далеко от идеала. Например, алгоритмы не могут определить, когда у азиатских людей открыты глаза, потому что ИИ часто тренируют на белых лицах. «Если у вас глаза меньшего размера или с нависающим веком, функция распознавания лиц может прийти к выводу, что вы постоянно смотрите вниз или закрываете глаза», — говорит Сян. Это может иметь серьезные последствия, поскольку программное обеспечение для распознавания лиц все чаще используется на рабочих местах. Headroom — не первая компания, которая внедряет такой софт. Технологическая компания по подбору персонала HireVue недавно представила алгоритм для распознавания эмоций, который оценивает соискателей на работу на основе таких факторов, как выражения лица и голос.

Исследователь из бизнес-школы Бостонского университета Констанс Хадли говорит, что сбор данных о поведении людей во время собраний может выявить что-то полезное как для работодателей, так и для сотрудников. Но когда люди знают, что за ними следят, это может изменить их поведение. «Если мониторинг используется для понимания существующих закономерностей, это прекрасно, — говорит Хадли. — Но если его используют для стимулирования определенных типов поведения, он может в конечном итоге вызвать неадекватную реакцию». На занятиях Хадли, когда студенты знают, что 25% оценки дается за участие в дискуссии, они чаще поднимают руки, но не обязательно говорят что-то интересное. Когда Грин и Рабинович продемонстрировали мне свое программное обеспечение, я обнаружила, что поднимаю брови, расширяю глаза и маниакально ухмыляюсь, чтобы изменить уровень считываемых эмоций.

По оценке Хадли, время проведения встреч не менее важно, чем то, как они проходят. Плохо спланированные совещания не дают сотрудникам времени на выполнение собственных задач, и поток встреч внушает им ощущение, что они зря тратят время, тогда как с работой у них завал. Естественно, и для этого есть программные решения. Clockwise, платформа управления временем на базе ИИ, запущенная в 2019 году, использует алгоритм для оптимизации времени встреч. «Время стало общим активом внутри компании, а не личным, — говорит основатель Clockwise Мэтт Мартин. — Люди балансируют между всеми этими средствами общения, скорость возросла, требования совместной работы стали более острыми. И, что главное, нет такого инструмента, чтобы любой мог сказать: «Вот время, которое мне нужно, чтобы выполнить свою работу. Не отвлекайте меня!»

Clockwise синхронизируется с календарем Google, чтобы проанализировать, как человек проводит свое время и как можно его оптимизировать. Программа добавляет защищенные временные блоки на основе индивидуальных предпочтений. Она может зарезервировать часть времени с пометкой «не беспокоить» для работы во второй половине дня. (Также автоматически блокируется время для обеда. «Как бы глупо это ни звучало, но это имеет большое значение», — говорит Мартин.) И, анализируя несколько календарей в рамках одной команды, софт может автоматически переносить встречи во временные интервалы, которые подходят всем. Программа также формирует непрерывные отрезки времени, когда сотрудники могут заниматься «глубокой работой», не отвлекаясь.

Clockwise, запущенный в 2019 году, только что закрыл раунд финансирования на $18 млн и говорит, что набирает обороты в Кремниевой долине. Сейчас у них 200 тысяч пользователей, большинство из которых работают в таких компаниях, как Uber, Netflix и Twitter. Около половины из них — инженеры. Headroom также ищет клиентов в сфере высоких технологий, в проблемах которой Грин и Рабинович разбираются лучше всего. Но нетрудно представить себе, что подобное программное обеспечение вырвется из пузыря Кремниевой долины. Грин, у которого есть дети школьного возраста, был возмущен тем, как было организовано их дистанционное обучение. В классах по два десятка учеников, а учитель не может видеть их всех сразу. «Если учитель показывает слайды, он фактически не видит ни одного из учеников, — говорит Грин. — Он даже не видит, если кто-то из детей поднимает руку, чтобы задать вопрос».

Действительно, телеконференции не ограничиваются офисами. Поскольку мы все чаще и чаще общаемся через экраны, будет появляться все больше программных инструментов для оптимизации пользовательского опыта. Другие проблемы, такие как медленный wi-fi, придется решать кому-то другому.

Источник

22 декабря 2020

Как ИИ делает Zoom-разговоры веселее

Неотения человечества: Кевин Келли о «самоприрученных» людях

Акт веры: почему ведутся споры о первооткрывателях

Начинающие бессмертные: что произойдет, когда изобретут долголетие