Фредерик Каплан: Как я построил информационную машину времени

Представьте, что вы могли бы бродить по Facebook… начиная со Средневековья. На самом деле, эта возможность не так далека, как кажется. В своей увлекательной и интересной презентации исследователь и инженер Фредерик Каплан представляет Венецианскую машину времени — проект, цель которого — оцифровка 80 км книг и создание симулятора 1000-летнего исторического и географического периода развития Венеции

Будущее

Это изображение планеты Земля. Оно очень похоже на известные всем снимки, сделанные в рамках космической программы Аполлон. Но есть отличие — по данному изображению можно щелкнуть, и, если вы это сделаете, то сможете рассмотреть практически любое место на Земле. Например, это вид с высоты птичьего полета на кампус Федеральной политехнической школы в Лозанне (ФПШЛ). В большинстве случаев вы также можете увидеть, как выглядит здание с соседней улицы. Весьма впечатляюще. Но чего-то не хватает в этой замечательной экскурсии: указания времени. Я, на самом деле, не уверен, когда была сделана эта фотография. Я даже не уверен, соответствует ли эта фотография действительности.

В моей лаборатории мы разрабатываем инструменты для путешествий не только в пространстве, но также и во времени. Вопрос, который нас интересует: возможно ли сконструировать нечто, похожее на карты Google прошлого? Могу ли я добавить бегунок к картам Google и просто поменять год, чтобы посмотреть, как выглядела местность 100 лет назад, 1000 лет назад? Возможно ли это? Могу ли я воспроизвести социальную сеть прошлого? Могу ли сделать Facebook Средневековья? Могу ли построить машину времени?

Может быть, проще сказать: «Нет, это невозможно». Или же мы можем подумать об этом с информационной точки зрения.

Это то, что я называю «информационный гриб». На вертикальной оси задано время. На горизонтальной — объем доступной цифровой информации. Очевидно, что последние 10 лет мы владеем большим объемом информации. И так же очевидно, что чем больше мы уходим в прошлое, тем меньше информации доступно. Если мы хотим создать что-то вроде карты Google прошлого или Facebook прошлого, нам нужно расширить эту область, задать ей форму вроде прямоугольника. Как это сделать? Один из способов — оцифровывание. Существует множество материалов — газеты, печатные книги, тысячи печатных книг. Я все это могу перевести в цифровой формат. Я могу извлечь из этих источников информацию. Конечно, чем дальше мы будем заглядывать в прошлое, тем меньше информации будет доступно. Таким образом, этих действий может быть недостаточно. Я могу поступить так, как поступают историки. Я могу экстраполировать. Это то, что в информатике мы называем «моделированием». Если взять журнал, то можно предположить, что это не просто журнал путевых заметок некоего венецианского капитана, отправившегося в конкретное путешествие. Я могу предположить, что это журнал, описывающий типичное путешествие тех времен. Я экстраполирую. Если у меня есть картина фасада, я могу предположить, что она содержит изображение не только одного конкретного здания, но, скорее всего, она включает в себя элементы зданий, информация о которых утеряна. Таким образом, если мы хотим создать машину времени, нам нужны две вещи. Нам нужны весьма большие архивы и отличные специалисты.

Венецианская машина времени — проект, о котором я собираюсь вам рассказать — это совместный проект ФПШЛ и Венецианского Университета Ка’ Фоскари. У Венеции есть одна особенность — ее система управления очень и очень бюрократична. Они отслеживают абсолютно все, почти как Google сегодня. Государственный архив представляет собой 80 км полок с документами, содержащими информацию обо всех аспектах жизни Венеции более чем за 1000 лет. Здесь учтено каждое отшвартовавшееся и каждое вошедшее в порт судно. Записано каждое изменение, произведенное в городе. Вся эта информация содержится в Архиве.

Мы начинаем 10-летнюю программу по оцифровыванию, цель которой — трансформация этого необъятного архива в гигантскую информационную систему. Результат, к которому мы стремимся, — это 450 оцифрованных книг в день. Конечно, когда занимаешься оцифровкой, этого недостаточно, потому большинство документов написаны на латинском, тосканском, венецианском диалектах. То есть нужно их транскрибировать, в некоторых случаях — перевести, занести в алфавитный указатель, а это, очевидно, непросто. В частности, традиционный метод оптического распознавания текста, который может применяться для печатных манускриптов, не так хорошо работает для рукописных документов. И тогда решением будет воспользоваться методами из другой области: распознавания речи. Учитывая специфику данной области используемые в ней методы кажутся неприменимыми но, на самом деле, все разрешается путем введения дополнительных ограничений.

Если у вас есть очень хорошая модель используемого языка, есть очень хороший образец документа, как хорошо они структурированы. И это все административные документы. Они хорошо структурированы в большинстве случаев. Если разделить этот огромный архив на меньшие «подархивы», где меньшая подгруппа несет те же характерные черты, тогда есть шанс на успех. Если мы дойдем до этого этапа, то появится возможность сделать еще одну вещь: извлечь из такого документа события. Фактически, около 10 млрд событий могут быть извлечены из такого архива. Поиск по этой огромной информационной системе можно проводить различными методами. Можно задавать такие вопросы как: «Кто жил в этом палаццо в 1323 году?» «Сколько стоил морской лещ на рынке Реальто в 1434 году?» «Каково было жалованье стекловара в Мурано, например, за последние десять лет?» Можно даже задавать более открытые вопросы, потому как они будут семантически закодированы.

Далее — можно согласовать информацию в пространстве, так как большая ее часть пространственна. Затем можно предпринимать такие действия, как воссоздание необыкновенного пути развития города, которому удалось поддерживать устойчивое развитие на протяжении более 1000 лет, оставаясь при этом в постоянной гармонии с окружающей средой. Вы можете воссоздать этот путь развития, представить различные его варианты. Хотя, конечно, нельзя понять Венецию, просто взглянув на город. Необходимо рассматривать его в более широком европейском контексте. Таким образом, идея заключается в документировании всего, что происходило на европейском уровне.

Можно также воссоздать развитие Венецианской морской империи — то как она постепенно взяла под контроль Адриатическое море, как стала самой мощной средневековой империей, контролируя большинство морских путей от востока на юг. Также можно делать и другие вещи, потому что на этих морских путях есть свои закономерности. Можно пойти еще дальше и создать систему моделирования, Средиземноморский симулятор, который способен воссоздать даже ту информацию, которой не хватает, что дает нам возможность задавать такие вопросы, как если бы мы воспользовались планировщиком маршрута. «Если я сейчас на Корфу в июне 1323 года и хочу отправиться в Константинополь, где я могу взять лодку?» Мы можем ответить на этот вопрос, вероятно, с точностью в день-два-три. «Сколько это будет стоить?» «Какова вероятность столкнуться с пиратами?» Вы, конечно, понимаете, что главная научная трудность подобного проекта, — это качественная и количественная оценка информации и учет неопределенности и непостоянства на каждом этапе данного процесса. Ошибки встречаются повсюду — в документах, например, неверное имя капитана, некоторые судна, на самом деле, никогда не уходили в море. Ошибки в переводе, предвзятость толкований, — более того, если добавить алгоритмические процессы, появятся ошибки, связанные с распознаванием, извлечением информации. То есть полученные нами данные будут весьма и весьма сомнительными.

Каким же образом можно обнаружить и скорректировать такие неточности? Каким образом можно обозначить этот вид неопределенности? Задача не из легких. Самое очевидное, что можно сделать, — это задокументировать каждый шаг процесса, не только закодировав историческую информацию, но и так называемую «метаисторическую» информацию — то, на чем построены исторические знания — задокументировать каждый шаг. Это не даст гарантии, что мы приблизимся к единой истории Венеции, но мы, вероятно, сможем воссоздать полностью задокументированную потенциальную историю Венеции. Может быть, не будет единой карты. Может быть, их будет несколько. Система должна это учитывать, потому что нам приходиться работать с новой формой неизвестности, с абсолютным новшеством для такого типа гигантских баз данных.

Каким образом мы должны представить это новое исследование большой аудитории? И вновь, Венеция — исключительна в этом смысле. Учитывая миллионы туристов, приезжающих каждый год, это одно из лучших мест, где можно попытаться изобрести музей будущего. Представьте, в горизонтальной плоскости вы видите реконструированную карту заданного года, а в вертикальной — документ, на основе которого сделана реконструкция, например, картины. Представьте систему с «эффектом присутствия», которая позволяет воссоздать и окунуться в Венецию заданного года — опыт, которым можно поделиться с группой. И наоборот, представьте, что вы начали с документа, венецианского манускрипта, и вы смотрите, что можно воспроизвести на его основе, как он расшифрован, каким образом можно воссоздать его содержание.

Это фотография с выставки, которая в настоящее время проходит в Женеве, с такой вот системой. В заключение можно сказать, что исследования в области гуманитарных наук стоят на пороге эволюции, возможно схожей с той, что произошла с бионауками 30 лет назад. Действительно, это вопрос масштаба. Мы рассматриваем проекты, которые еще не были под силу ни одной исследовательской команде. Это абсолютно ново для гуманитарных наук, где традиционно работают небольшими группами или в паре. Посещая Государственный архив, понимаешь, что это не по силам какой-то одной команде, необходимо сотрудничество. Для смены парадигмы мы должны фактически воспитать новое поколение «цифровых гуманитарных наук», готовых к подобной смене.

Перевод: Алина Силуянова
Редактор: Елена Кротова

Источник

Лекции

Фредерик Каплан: Как я построил информационную машину времени

Пол Грэм: Правильная настойчивость творит волшебство

«Нам нужен принцип планетарной субсидиарности, а не глобальное управление»

Волновые маркеры: как мозг отмечает то, что нужно запомнить