Разумеется, они знают
Если вы пользуетесь соцсетями, то скорее всего уже заметили очередной тренд на Фейсбуке, в Инстаграме и Твиттере, когда люди выкладывают свои фотографии рядом со своими фотографиями десятилетней давности в формате тогда-и-сейчас (then-and-now).
Вместо того, чтобы присоединиться к флешмобу, я опубликовала такой саркастичный твит:
Я 10 лет назад: скорее всего поиграла бы во флешмоб со “стареющими” аватарками, гуляющему по просторам интернета.
Я сейчас: раздумываю, как же все эти данные могут быть задействованы для обучения алгоритмов систем распознавания лиц – возрастных изменений и распознавания возраста.
Мой легкомысленный твит стал набирать обороты. Я не собиралась утверждать, что этот мем по своей сути опасен. Но я знала, что сценарий с распознаванием лиц довольно правдоподобен и свидетельствует о тенденциях, о которых людям лучше быть в курсе. Это будет не лишним, учитывая всю глубину и широту личных данных, которые мы распространяем без каких-либо оговорок.
Из тех, кто критично отнесся к моему тезису, многие утверждали, что все изображения и фотографии уже так или иначе были в открытом доступе. Самый распространённым опровержением было: “Эти данные уже доступны. Фейсбук располагает всеми фотографиями с профилей”.
Разумеется, они знают. Во многих вариациях этого флешмоба людей проинструктировали опубликовать их самый первый аватар параллельно с нынешним, или наоборот, фотографию десятилетней давности рядом с последней. Так что все верно: эти фотографии профилей существуют, на них на всех указаны даты и время публикации, у многих людей таких фотографий много, и в большинстве случаев они доступны общественности.
Но давайте обыграем эту идею.
Представьте, что вы хотите обучить систему распознавания лиц алгоритму, основываясь на возрастных характеристиках и особенностях, в частности, на визуализации старения (например, как люди предположительно будут выглядеть с годами). В идеале вам понадобится широкий и тщательный набор данных с множеством фотографий людей. Было бы неплохо, если бы вы также знали, что между фотографиями прошло определенное число лет – допустим, 10.
Тщательно отобранный массив данных
Конечно, вы можете “копать” Фейсбук в поисках аватарок, изучая даты их опубликования и их информацию формата EXIF (метаданные снимков и медиафайлов – их параметры, методы их получения и обработки). Но весь этот массив профильных изображений может в конечном итоге сгенерировать лишний “шум”. Люди не всегда загружают свои фотографии в хронологическом порядке, и довольно часто пользователи используют изображения не их самих, а чего-то другого для своих профилей. Пробегаю глазами по аватаркам моих друзей на Фейсбуке – у кого-то висит фотография их недавно умершей собаки, а у кого-то изображения слов, абстракции, комиксы и многое другое.
Другими словами, для вашей цели вам бы пригодился чистый, простой, и наглядно промаркированный хештегом набор фотографий тогда-и-сейчас.
Более того, относительно профильных фотографий на Фейсбуке, даты публикации фотографии не всегда совпадают с датой, когда эта фотография была сделана. Даже метаданные EXIF конкретного снимка не всегда достоверно определяют дату съемки.
Почему? Некоторые могли отсканировать фотографии оффлайн. Могли загрузить одни и те же изображения несколько раз на протяжении нескольких лет. Другие используют скриншоты фотографий, найденных онлайн где-то еще в интернете. Некоторые платформы не поддерживают формат EXIF в целях защиты и неприкосновенности персональных данных.
А с помощью мема на Фейсбуке большое количество людей стали любезно добавлять такой контекст в виде «я в 2008, и я в 2018», часто предоставляя еще более подробную информацию, где и как именно была сделана эта фотография – «2008, в таком-то университете, сделана Джо; 2018, посетили Новый Город для такого-и-такого события этого года»
Другими словами, благодаря этому мему теперь существует очень большой массив данных с тщательно отобранными фотографиями людей, сделанных с разницей в десять лет.
Конечно, не все пренебрежительные комментарии в моем Твиттере были об открытом доступе к уже имеющимся фотографиям. Некоторые скептики отметили, что существует слишком много некачественных данных, чтобы их как-то задействовать. Однако специалисты по анализу данных и ученые знают, как проводить учет. Как и в ситуации с вирусными хештегами, как правило, вы можете полагаться на достоверность данных в начале тренда или кампании — до того, как люди похищают хештег и начинают использовать его не по назначению.
Что касается поддельных фотографий, алгоритмы распознавания изображений достаточно высокоразвиты/высокотехнологичны, чтобы различить человеческое лицо. Если вы загрузили изображение кота 10 лет назад и сейчас — как трогательно поступил один из моих друзей, – от этого конкретного образца будет очень легко избавиться при отборе.
Со своей стороны, Фейсбук отрицает любую причастность к популярности хештега Челлендж 10-ти лет (the #10YearChallenge). “Этот мем был сгенерирован пользователями и стал вирусным благодаря их инициативе,” заявил представитель Фейсбука. “Фейсбук не начинал этот тренд, и этот мем использует фотографии, которые уже существовали на платформе. Фейсбук не получает никакой выгоды от этого мема (всего лишь напомнив нам о сомнительных модных тенденциях 2009 года). В качестве напоминания, пользователи Фейсбука могут включить программу “распознавание” или отключить в любое время.”
Зачем им знать, как мы стареем
Но даже если именно этот конкретный мем не является случаем социальной инженерии, последние несколько лет изобиловали примерами распространения социальных игр и флешмобов, разработанных специально для извлечения и сбора данных. Просто вспомните о массовых извлечениях и сборах данных более чем 70 миллионов пользователей Фейсбука, осуществленных Кембридж Аналитика (Cambridge Analytica).
Разве это плохо, что кто-то может использовать ваши фотографии из Фейсбука для обучения алгоритма распознавания лица? Не обязательно; в некотором смысле, это неизбежно. Тем не менее, отсюда следует вынести, что нам стоит отдавать себе отчет во всех наших взаимодействиях с технологиями, помня о том, что мы генерируем данные, которые могут быть использованы и применены в широких масштабах. Я могу представить три возможных сценария использования программ распознавания лиц: один из них благоприятный, один обыденный, и один рискованный.
Благоприятный сценарий: технология распознавания лиц, в частности, возможность отследить динамику старения, может помочь в поиске пропавших детей. В прошлом году полиция Нью-Дели доложила, что удалось отследить почти три тысячи пропавших детей всего за четыре дня, с использованием только технологии распознавания лиц. Если дети числились пропавшими на протяжении какого-то времени, будет логично предположить, что они будут несколько отличаться по сравнению со своими последними известными фотографиями. В этом случае достоверная визуализация старения будет действительно полезной.
Повседневный потенциал для распознавания лиц: распознавание возраста скорее всего будет наиболее полезным для целевой рекламы. Дисплейная реклама со встроенными камерами или датчиками, которая сможет адаптировать и ориентировать рекламный материал в зависимости от возрастной группы (а также других визуально узнаваемых характеристик и различимых ситуаций) во всей вероятности вскоре станет распространенным явлением. Данное применение не такое уж и захватывающее, но зато оно сможет сделать рекламную индустрию более актуальной. Но как только поток данных “течет вниз” (от сервера к клиенту) и переплетается с нашими координатами местоположения, ответной реакцией, покупательской способностью, и другими сигналами, в результате он часто выявляет по-настоящему странные взаимоотношения.
Как и в случае многих формирующихся и развивающихся технологий, появление новой чревато серьезными последствиями. Симуляция старения может стать важным фактором в оценке социального страхования и здравоохранения. Например, может показаться, что вы стареете быстрее, чем ваши ровесники, а значит, вы более подвержены наступлению страхового риска. В таком случае вам может быть отказано в страховом обеспечении; возможно, полис обойдется вам дороже.
После того, как на Амазоне (Amazon) в конце 2016 года были представлены услуги с применением распознавания лиц в реальном времени, эти же услуги стали продавать и правоохранительным и государственным органам, например, департаментам полиции Орландо и в округе Вашингтон, штате Орегон. Но эти технологии вызывают серьезные опасения в вопросах конфиденциальности; полиция может использовать их не только для отслеживания людей, которые подозреваются в совершении преступлений, но и тех, которые не совершали преступлений, например, протестующих, и других – кого полиция считает помехой.
Американский союз защиты гражданских свобод (The American Civil Liberties Union) попросил Амазон прекратить продажу этих услуг. Так же поступила и часть акционеров и работников Амазона, ссылаясь на беспокойство по поводу оценки и репутации их компании.
Опасно ли это? — вряд ли, но задуматься стоит
Очень трудно переоценить всю полноту того, как именно технологии могут повлиять на человечество. У нас есть все возможности, чтобы усовершенствовать их, но для этого мы также должны распознать и оценить ситуации, при которых все может стать хуже. Как только мы поймем проблемы и опасности, только тогда мы будем в праве выносить вердикт.
Почему это так важно для нас, и важно ли вообще? Случится ли что-то ужасное, если вы опубликуете уже использованные общедоступные фотографии на вашей стене? Опасно ли обучение алгоритмов для распознавания лиц, симуляции возрастных изменений, и опознания возраста? Вряд ли.
Независимо от происхождения или намерения этого мема, мы все должны включать смекалку и думать, какими данными мы оперируем и делимся, кому мы предоставляем доступ к нашей информации, и о последствиях ее использования. Если за контекстом стояла игра, которая недвусмысленно указала, что главной ее целью был сбор фотографий тогда-и-сейчас для изучения прогрессии старения, возраст прогрессии исследований, вы можете участвовать, но с пониманием, кто именно должен был иметь доступ к фотографиям и для какой цели.
Более широкая концепция состоит в том, что, не учитывая специфику мемов или какой-либо одной социальной платформы, люди – самые богатые источники данных для большинства технологий, возникающих в мире. Мы должны помнить об этом и проявлять должную осмотрительность и аккуратность.
Люди являются связующим звеном между физическим и цифровым мирами. Человеческие взаимодействия – это то, что делает Интернет-Вещей (the Internet of Things) интересным. Наши данные являются топливом, которые делают бизнесы умнее, хитрее и прибыльнее.
Мы должны требовать от предприятий, чтобы они любыми средствами относились к нашим данным с должным уважением. Но и нам самим следует относиться так же к нашей собственной информации.