Излюбленный пирог американцев?
Аудитория: Яблочный.
Кеннет Кукьер: Яблочный. Конечно же. Откуда мы это знаем? Благодаря данным. Смотрим на продажи супермаркетов. Смотрим на продажи 30-сантиметровых замороженных пирогов, и яблочный пирог лидирует, вне конкуренции. Большинство продаж — яблочный пирог. Но потом супермаркеты стали продавать пироги поменьше, 11-сантиметровые, и внезапно яблочный пирог переместился на 4 или 5 место. Почему? Что случилось? Хорошо, задумайтесь. При покупке 30-сантиметрового пирога вся семья должна прийти к согласию, и яблочный пирог второй по предпочтению каждого человека. Но при покупке отдельного 11-сантиметрового пирога вы можете купить то, чего вы желаете. Ваш первый выбор. У вас больше данных. Вы можете увидеть то, чего не могли раньше, когда у вас были лишь маленькие части этого.
Здесь важно то, что больше данных не только позволяет нам видеть больше в самом обозреваемом. Больше данных позволяет нам видеть новое. Позволяет видеть лучше. Позволяет видеть по-другому. В данном случае, позволяет понять какой пирог излюбленный у американцев: не яблочный.
Вы, вероятно, слышали термин «большие данные». Вы, вероятно, уже устали слышать термин «большие данные». Действительно, термин разрекламирован, что очень печально, потому что большие данные — это очень важный инструмент, благодаря которому общество прогрессирует. Раньше мы смотрели на малые данные и думали о том, что бы это значило: попробовать понять мир. А сейчас у нас намного больше данных, больше, чем мы могли добыть раньше. И когда у нас большой корпус данных, мы можем делать то, чего не могли делать, когда данные были меньше. Большие данные важны, и большие данные — новинка, и если задуматься, для нашей планеты единственный путь справиться с мировыми проблемами – накормить людей, предоставить им медицинскую помощь, снабдить их энергией, электричеством, да чтобы не поджарились до корочки с глобальным потеплением – это результативное использование данных.
Так что же ново в больших данных? Что же в них так важно? Чтобы ответить на этот вопрос, давайте подумаем о том, как информация выглядела, физически выглядела в прошлом. В 1908 году на острове Крит археологи нашли глиняный диск. Он датировался 2000 годом до н.э., то есть ему 4000 лет. На диске есть надписи, но нам неизвестно их значение. Полная загадка, но главное то, что так раньше выглядела информация, 4000 лет назад. Так общество хранило и передавало информацию.
Общество не так уж и продвинулось с тех пор. Мы до сих пор храним информацию на дисках, только теперь мы можем хранить намного больше информации, больше, чем когда-либо. Ее поиск легче. Копирование легче. Обмен ею легче. Ее обработка легче. И мы можем использовать ее повторно для целей, которых и не представляли при первоначальном сборе информации. В этом отношении информация прошла путь от залежи до сели, от чего-то стационарного, статичного до чего-то текучего и динамичного. Свойство ликвидности информации, если хотите. Диск, найденный на Крите, которому 4000 лет, тяжелый, не хранит много информации, и эта информация неизменяема. Напротив, все файлы, которые Эдвард Сноуден взял из Агентства национальной безопасности США умещаются на карте памяти размером с ноготь, и она может быть распространена со скоростью света. Больше информации. Больше.
Одна из причин такого большого объема данных — это сбор информации о том, о чем мы всегда ее собирали. А другая причина в том, что мы собираем данные, которые всегда были информационны, но никогда не были переведены в информационный формат, а сейчас мы это документируем. Подумайте, например, о проблеме местоположения. Возьмем, например, Мартина Лютера. Если вы, будучи в 1500-х хотели узнать, где находится Мартин Лютер, вам пришлось бы ходить за ним все время, может с пером и чернильницей, и записывать; а теперь подумайте, как это выглядит сегодня. Вы понимаете, что где-то в базе данных поставщика телекоммуникационных услуг есть таблица или, по крайней мере, запись в базе данных с информацией о том, где вы бываете. Если у вас есть мобильный телефон, и в телефоне есть система GPS, да даже если нет, он может записывать информацию о вас. В этом отношении, местоположение стало документированым.
Теперь подумайте, например, о проблеме осанки, о том, как вы сейчас сидите: как сидите вы, как сидите вы, как сидите вы. Все сидят по-разному в зависимости от длины ног, спины и формы спины; и если бы я установил сотни сенсоров во все сиденья, я бы смог вывести индивидуальный индекс для каждого из вас, что-то вроде отпечатков пальцев, только это не пальцы.
Так что же мы с этим можем сделать? Ученые в Токио используют это как потенциальную противоугонную систему для машин. Идея в том, что угонщик садится за руль, пытается удрать, но машина опознает, что за рулем водитель без доступа, и двигатель не заработает, пока вы не введете пароль на приборной панели и не скажете: «Привет, у меня есть доступ к вождению данного автомобиля». Прекрасно.
Что если бы в каждой машине в Европе была такая технология? Что бы мы тогда могли сделать? Может, если бы мы собрали данные, мы бы смогли определить индикаторы приборной панели, лучше всего оповещающие о возможной аварии в следующие 5 секунд. И тогда у нас была бы задокументирована усталость водителя, и тогда машина смогла бы опознавать, когда водитель проваливается в эту позу, автоматически определять и посылать внутренний сигнал: вибрация руля, салонный гудок, и говорить: «Эй, просыпайся, внимательней следи за дорогой». Такого типа вещи мы сможем делать при документировании все больших аспектов нашей жизни.
Так в чем же ценность больших данных? Что ж, подумайте. У вас больше информации. Вы можете делать то, чего раньше не могли. Одна из самых впечатляющих областей, использующих этот концепт, – это область машинного обучения. Машинное обучение — это подвид искусственного интеллекта, а он в свою очередь – подвид информатики. Основная идея состоит в том, что вместо задания алгоритма действий мы просто закидываем проблему данными и даем компьютеру додуматься самому. Понять это поможет взгляд на истоки. В 1950-х ученый-информатик компании IBM, Артур Самуэль, любил играть в шашки, и он написал программу, чтобы играть против компьютера. Он играл. Он выигрывал. Играл. Выигрывал. Играл. Выигрывал, потому что компьютер знал лишь правильные ходы. Артур Самуэль знал кое-что еще. Артур Самуэль знал стратегию. Поэтому он написал маленькую подпрограмму, работающую в фоновом режиме, и она лишь высчитывала вероятность победы при данной ситуации на доске после каждого хода. Он играет против компьютера. Он выигрывает. Играет против компьютера. Выигрывает. Играет против компьютера. Выигрывает. А потом Артур Самуэль дает компьютеру играть с самим собой. Он играет сам с собой. Собирает больше данных. Собирает больше данных. Увеличивает точность прогнозов. А потом Артур Самуэль снова садится за компьютер. Он играет и проигрывает. Играет и проигрывает, играет и проигрывает. Артур Самуэль создал механизм, превосходящий его собственные возможности в упражнении, которому он его обучил.
И эта идея машинного обучения теперь проникает всюду. Как вы думаете, как появились беспилотные машины? Стали ли мы более продвинутым обществом, доверяя все правила дорожного движения программному обеспечению? Нет. Дешевле память? Нет. Алгоритмы быстрее? Нет. Лучше процессоры? Нет. Все эти вещи важны, но не главны. Все потому, что мы поменяли подход к проблеме. Мы перешли от проблемы, где вы пытались ясно и четко объяснить компьютеру, как водить машину, к проблеме, где мы говорим: «Вот кипа данных про автомобиль. Думай сам. Пойми сам, что это светофор, что он красный, а не зеленый, что это значит, что нужно остановиться, а не проезжать».
Машинное обучение лежит в основе многих действий, совершаемых нами в сети: поисковые системы, алгоритм персонализации Amazon, машинный перевод, системы распознавания речи. Исследователи недавно задались вопросом биопсий, биопсий раковых образований, и задали компьютеру определить, анализируя данные и процент выживаемости, клетки раковые или нет. И, конечно же, при наличии достаточного количества данных, посредством алгоритма машинного обучения машина смогла определить 12 признаков, лучше всего прогнозирующих, что данные клетки действительно раковые. Проблема — в медицинской литературе упоминалось лишь о 9 из них. 3 признака не были известны ранее, но машина их нашла.
Но есть и темные стороны больших данных. Они сделают нашу жизнь лучше, но есть и проблемы, о которых не стоит забывать, и первая из них — это идея того, что мы можем быть наказаны за прогнозы, что полиция может использовать информацию в своих интересах, примерно как в «Особом мнении». Есть термин «предиктивная безопасность» или «алгоритмическая криминология», и идея в том, что если взять много данных, например, места совершения преступлений, мы будем знать, куда посылать патрули. Это логично, но проблема, конечно же, в том, что дело не закончится лишь данными местоположения, это пойдет до уровня частного лица. Почему бы не использовать информацию об аттестате? Может, нам пригодится информация о наличии работы, кредитоспособности, что человек смотрит в интернете, бодрствует ли поздно ночью. Устройства, измеряющие биологические данные, покажут присутствие агрессивных мыслей. Мы можем выработать алгоритмы, прогнозирующие, что мы собираемся сделать, и нас могут привлечь к ответственности еще до момента действия. Конфиденциальность была главной проблемой во времена малых данных. В эпоху больших данных проблемой будет охрана свободы воли, свободы выбора, желаний, свободы действий.
Есть еще одна проблема. Большие данные сократят количество рабочих мест. Большие данные и алгоритмы изменят работу белых воротничков, профессиональные знания в XXI веке так же, как автоматизация фабрик и конвейеризация бросили вызов синим воротничкам в XX веке. Подумайте о лаборанте, смотрящем через микроскоп на биоптат ракового новообразования и определяющем, рак это или нет. Этот человек окончил университет. Этот человек покупает вещи. Он или она голосует. Он или она участвует в деятельности общества. И работа этого человека, так же как и целая флотилия таких же профессионалов, столкнется с радикальными изменениями в их работе или даже полным ее устранением. Нам нравится думать, что технологии создают рабочие места в долгосрочной перспективе после короткого временного периода дезорганизации, и это имеет место в реалиях Индустриальной революции, в которых мы живем, потому что так как раз и случилось. Но мы кое-что забываем, анализируя это: есть некоторые категории деятельности, которые просто исчезают и никогда не возвращаются. Индустриальная революция вам не посодействовала, если вы были лошадью. Так что нам нужно быть внимательными и использовать большие данные для социальных целей. Нам нужно быть хозяевами этой технологии, а не ее прислугой. Мы лишь на подступах к эре больших данных, и, честно говоря, у нас не очень получается управлять всей получаемой информацией. Это проблема не только для Агентства национальной безопасности. Коммерция собирает много информации и ею также злоупотребляет, и нам нужно стать более умелыми в этом, и это займет какое-то время. Это примерно как проблема огня для первобытного человека. Это орудие, но это орудие, которое, если мы не будем осторожны, нас обожжет.
Большие данные преобразуют нашу жизнь, нашу работу и наше мышление. Они помогут нам развивать карьеру и вести жизнь, полную радости и надежд, счастья и благополучия; но в прошлом мы часто, смотря на информационные технологии, видели только «Т», технологии, технику, потому что это вещественно. Сейчас нам нужно устремить взор на «И», информацию, которая менее видима, но в какой-то мере намного более важна. Человечество, наконец-то, может извлекать знания из собираемой информации как часть наших вечных поисков в понимании мира и нашего места в нем, и поэтому большие данные — дело большое.
Перевод: Андреа Ванг
Редактор: Александр Автаев