Машинное обучение (МО), вероятно, — самая фундаментальная тенденция современных технологий. Поскольку основа машинного обучения — это данные, много-много данных, то довольно часто можно услышать опасения, что компании, уже обладающие множеством данных, станут еще сильнее. В этом есть доля правды, но в довольно узком смысле, и в связи с тем, что в области машинного обучения наблюдается значительный разброс возможностей, возможны как централизация, так и децентрализация.
Во-первых, что значит — машинное обучение опирается на данные? Благодаря академической культуре, из которой происходит МО, почти все новое, что появляется в этой сфере, публикуется сразу после создания. Эти статьи можно читать и пользоваться ими. Но что вы создаете? В прошлом, если разработчик программного обеспечения хотел создать систему для распознавания чего-либо, он выстраивал логические шаги («правила»). Чтобы распознать кошку на картинке, нужно сформулировать правила, позволяющие найти шерсть, лапы, глаза, заостренные уши и т.д., соединить все это и надеяться, что сработает. Теоретически – возможно, а на практике это все равно, что пытаться сделать механическую лошадь: дело настолько сложное, что становится нецелесообразным.
Мы не можем описать все логические шаги, необходимые человеку, чтобы ходить или распознавать кошек. Поэтому в машинном обучении вместо написания правил статистическому алгоритму дают примеры (множество примеров), и этот алгоритм генерирует модель, которая умеет различать категории. Вы предлагаете ему 100 тысяч картинок, помеченные как «кошка», и 100 тысяч картинок, помеченные «нет кошки», и машина распознает разницу. МО заменяет задаваемые вручную логические этапы автоматически определяемыми паттеррнами в данных и работает намного лучше для очень широкого класса вопросов. Самое очевидное — это компьютерное зрение, язык и речь, но варианты использования гораздо шире. Есть разработки, позволяющие МО работать с относительно небольшим набором данных, но на данный момент (очень) больше данных почти всегда — лучше.
Отсюда вопрос: если машинное обучение позволяет вам делать новые и важные вещи, и оно тем лучше, чем больше у вас данных, означает ли это, что компании, которые уже добились лидерских позиций и имеют много данных, становятся еще сильнее? Как далеко заходит эффект «победитель получает все»? Легко представить, что замкнутый круг делает победителя сильнее: «Больше данных=более точная модель=более качественный продукт=больше пользователей=больше данных». Отсюда напрашиваются выводы типа «у Google/Facebook/Amazon есть все данные в мире» или даже «у Китая есть все данные в мире». Они олицетворяют страх, что сильнейшие технологические компании станут еще сильнее, равно как и страны с большим населением и «разрешительным» отношением к централизованному использованию данных.
Ну, все не совсем так.
Во-первых, хотя вам и нужно много данных для машинного обучения, все они относятся к конкретной узкой проблеме, которую вы пытаетесь решить. У GE много телеметрических данных с газовых турбин, у Google много поисковых данных, а у Amex много данных о мошенничестве с кредитными картами. Нельзя использовать данные о турбинах как примеры для обнаружения мошеннических транзакций, или веб-поиск, чтобы найти газовые турбины, которые могут выйти из строя. То есть МО — это технология общего назначения. Можно использовать ее для обнаружения мошенничества или распознавания лиц — но приложения, которые создаются на ее основе, не универсальны. Каждый из созданных инструментов умеет делать что-то одно. Это почти то же самое, как и все предыдущие волны автоматизации: стиральная машина умеет стирать одежду, а не мыть посуду или готовить еду, шахматная программа не может платить налоги, система машинного перевода не распознает кошек. И приложения, которые мы создаем, и наборы данных, которые для этого требуются, специфичны для конкретной задачи, которую мы пытаемся решить (хотя опять же, предпринимаются попытки сделать так, чтобы алгоритмы МО могли переключаться с одного набора данных на другой).
Это означает, что в сфере машинного обучения будет сильный разброс. У Google не будет «всех данных в мире» — у Google будут все данные Google. У Google будут более релевантные результаты поиска, у GE будет улучшенная телеметрия, а у Vodafone — более качественный анализ паттернов в телефонных звонках и планирование сети, и это разные вещи, созданные разными компаниями. Google становится лучше в своей нише, но это не значит, что компания каким-то образом становится лучше во всем.
Далее, отталкиваясь от этого, можно утверждать, что крупные компании в каждой отрасли становятся сильнее: у Vodafone, GE и Amex есть «все данные» в их сфере, и это мешает свободной конкуренции. Но здесь опять все сложнее: есть много разных интересных вопросов о том, кто именно владеет данными, насколько они уникальны, на каких уровнях они уникальны, и где может быть правильная точка агрегации и анализа.
К примеру: будучи промышленной компанией, храните ли вы свои собственные данные и создаете ли системы МО для их анализа или же платите подрядчику, делающему это за вас? Покупаете ли вы готовый продукт, который уже обучен на основе данных других компаний? Добавляете ли вы свои данные к ним или к алгоритмам, основанным на них? Нужны ли вообще поставщику ваши данные, или имеющихся данных уже достаточно? Ответы будут отличаться в разных частях вашего бизнеса, в разных отраслях и для разных вариантов использования.
Взглянем на это с другой стороны. Если вы создаете компанию, чтобы решать реальные проблемы с помощью МО, существуют два основных вопроса касательно данных: откуда взять первичные данные для обучения моделей, чтобы получить первого клиента, и сколько данных на самом деле нужно? Конечно, второй вопрос разбивается на множество других: решается ли проблема при помощи относительно небольшого объема данных, которые вы можете довольно легко получить (но и многие конкуренты тоже могут), или вам нужно гораздо больше данных, которые получить трудно? И если это так, то есть ли сетевой эффект, приносящий выгоду? Наблюдается ли динамика, при которой победитель получает все? Обязательно ли продукт становится лучше с большим количеством данных, или имеет место S-образная кривая?
Когда как.
- Некоторые данные уникальны для бизнеса или продукта или дают сильное специализированное преимущество. Телеметрия двигателей GE может быть не очень полезна для анализа двигателей Rolls Royce, но если бы она была полезна, компания не стала бы делиться этими данными. Это может быть как возможностью для создания нового бизнеса, так и местом, где разворачивается множество внутренних ИТ-проектов крупных компаний и подрядчиков.
- Некоторые данные будут применяться в довольно общих сценариях, которые возникают во многих компаниях или даже во многих отраслях. «В этом запросе есть что-то странное» — такой диагноз могут поставить некой операции практически все компании-эмитенты кредитных карт. Вывод «клиент, кажется, сердит» может быть сформулирован применительно к работе любой компании, у которой есть колл-центр. Множество компаний создаются для решения проблем во многих других компаниях или даже в различных отраслях, и здесь имеет место сетевой эффект.
- Но также будут случаи, когда после определенного момента продавцу даже не понадобятся данные каждого следующего клиента — продукт и так уже работает.
На практике, поскольку машинное обучение распространяется практически на все, один стартап может взять несколько направлений. Наша портфельная компания Everlaw производит программное обеспечение для анализа юридической информации: если вы предъявляете кому-то иск, а вам присылают в ответ кипу бумаг, софт помогает ее обобщить. Благодаря машинному обучению можно проанализировать эмоциональный тон миллиона электронных писем («покажите тревожные имейлы»), не обучая эту модель на основе ваших конкретных данных, потому что примеры настроений не обязательно должны исходить из конкретного иска (или любого другого иска). И наоборот, можно выполнять кластерный анализ («покажите имейлы, которые примерно одинаковы с этим») ваших конкретных данных, не выходя за пределы вашего кейса.
Я недавно разговаривал с производителем очень больших автомобилей, который использует машинное обучение, чтобы получить более точный детектор спущенных шин. Система обучается на данных (много-много признаков спущенных и не спущенных шин), конечно, но эти данные несложно получить.
Как я сказал ранее, перед стартапом, занимающимся машинным обучением, стоят два вопроса: как получить данные, и сколько их нужно? Но это только технические вопросы. Также нужно решить, как выходить на рынок, определить целевой рынок, понять, насколько ценна для клиентов проблема, которую вы решаете — и так далее, и так далее. То есть довольно скоро не будет никаких «стартапов», которые занимаются искусственным интеллектом вообще — это будут компании, занимающиеся конкретно анализом промышленных процессов, или юридические платформы, или компании по оптимизации продаж. Распространение машинного обучения означает не только, что Google становится сильнее, но и то, что различные стартапы могут создавать продукты с помощью этой передовой науки гораздо быстрее, чем раньше.
Машинное обучение — это важный структурный элемент, который делает возможными новые и важные вещи, и который будет везде, как сегодня базы данных на основе SQL. Если вы им не пользуетесь, как это делают ваши конкуренты, вы будете отставать. Некоторые люди будут создавать совершенно новые компании — частично успех Wal-Mart объясняется использованием баз данных для более эффективного управления запасами и логистикой. Но сегодня, если вы начинаете вести розничную торговлю и говорите «…и мы будем использовать базы данных», это не делает ваш бизнес выдающимся и интересным — SQL проник повсюду, а затем растворился в бизнесе. То же самое произойдет с машинным обучением.