Star Views + Comments Previous Next Search Wonderzine

ЖизньВопрос эксперту:
Правда ли, что соцсети следят за нами

Вопрос эксперту:
Правда ли, что соцсети следят за нами — Жизнь на Wonderzine

Нужно ли бояться big data

Дмитрий Куркин

ОТВЕТЫ НА БОЛЬШИНСТВО ВОЛНУЮЩИХ НАС ВОПРОСОВ мы привыкли искать онлайн. В новой серии материалов задаём именно такие вопросы: животрепещущие, неожиданные или распространённые — профессионалам в самых разных сферах.

Флешмоб 10 Year Challenge, запущенный в соцсетях в начале года, не только породил конспирологические теории, согласно которым цель акции — собрать фотографии пользователей и с их помощью натренировать систему распознавания лиц, но и в очередной раз заставил задуматься о том, как много знают о нас соцсети и работающие с ними третьи стороны (от коммерческих компаний до государственных структур).

То, что технологические гиганты собирают и анализируют так называемые цифровые следы, ежедневно оставляемые миллиардами пользователей, ни для кого не остаётся секретом. И осознание этого порождает новый вид страха перед «большим братом»: соцсети знают о нас много, но что если они знают о нас слишком много? Можно ли использовать большие данные для того, чтобы узнать все связи, вкусы, привычки человека, его прошлое и настоящее? И если да, то какой вред может нанести нам наше желание социализироваться онлайн, во имя которого мы добровольно делимся информацией о себе?

Мы расспросили экспертов о том, как пользовательские данные обрабатываются большими компаниями и насколько велика опасность наследить в соцсетях.

Лилия Земнухова

научный сотрудник Центра исследований науки и технологий Европейского университета в Санкт-Петербурге

 Цифровой след содержит все возможные типы данных — это тексты, картинки, аудио- и видеозаписи, геолокация, а ещё огромное количество метаданных (например, модель гаджета, мобильный оператор, операционная система, динамика и продолжительность посещений, и т. д.). И это не только мы, кто пополняет наш цифровой след. Соцсети формируют нас как пользователей с помощью трёх источников данных: того, что мы сами сообщаем о себе; того, что сообщают о нас другие; и того, что собирается чаще всего без нашего ведома. Особенно непрозрачный последний. Мы, как правило, не читаем пользовательские соглашения и политику сбора и использования персональных данных. Замечаем только, что этот «чёрный ящик» каким-то образом влияет на наш пользовательский опыт: таргетированная реклама, предложения друзей, рекомендации музыки, порядок выведения новостей… Небольшую часть этого опыта мы конструируем самостоятельно, когда вручную выстраиваем ленту новостей, но в основном алгоритмы выполняют функции, встроенные в профили по умолчанию. Именно поэтому мы никогда не избавимся от контекстной рекламы или навязчивых предложений групп или (не)знакомых. Соцсети как корпорации используют данные о своих пользователях в коммерческих целях, предлагая свою платформу для продажи таргетированного контента. И попутно продолжают собирать данные о нас: например, если вы хотя бы раз оплатили рекламу, то данные банковской карты и транзакций тоже остаются у компании. Данные также могут предоставляться госорганам при большой необходимости: например, Facebook регулярно сотрудничает с госорганами США, в соответствии со своей политикой прозрачности.

Кроме внутренней политики соцсетей есть ещё одна важная деталь: аккаунты могут быть связаны с сотнями тысяч других приложений и функций. Это, например, стало поводом для больших обсуждений в прошлом году о доступе третьих лиц к данным пользователей. Важную попытку по регулированию свободы разработчиков предприняли в Евросоюзе — в прошлом году в силу вступил Общий регламент по защите данных (GDPR). Он решил не проблемы передачи данных, но обратил внимание пользователей на этот вопрос. Это не обязывает нас читать все пользовательские соглашения, но заставляет задуматься и по меньшей мере быть более ответственными за свои цифровые следы и соблюдать элементарные правила цифровой гигиены.

Валерия Караваева

data scientist в компании Spiking

 Мы иногда не задумываемся, как много следов мы оставляем в Сети и насколько это помогает потом компаниям, не только соцсетям — хотя и соцсетям тоже. Соцсети собирают данные не только для себя, они могут их продавать — я знаю об этом, потому что работала в рекламном агентстве, и мы закупали данные у Facebook. И чаще всего мы, пользователи, даём на это согласие, сами того не замечая. Люди проводят по полжизни в соцсетях и дают очень много информации о себе.

Но данные можно было собирать и раньше — так почему о big data заговорили лишь недавно? Прежде всего потому, что вычислительные мощности растут и, соответственно, дешевеют. Главный вопрос big data не в том, как собрать данные — в принципе, каждый из нас сегодня может собирать и хранить терабайты информации, — а в том, как с ними работать. Большинство данных, получаемых из соцсетей (текст, голос, картинки, видео), никак не структурированы, поэтому без машинного обучения big data бесполезны. Сейчас, благодаря тому, что мощности и память удешевились, вырос спрос на нейросети и глубокое обучение — мы наконец научились обрабатывать большие массивы данных.

Возьмём, к примеру, картинки — а это действительно большие данные, они могут дать очень много информации. Картинок миллионы, но что с ними делать? Какую пользу можно из них извлечь? Какие паттерны они позволяют узнать? Машинное обучение, на самом деле, не так далеко ушло. Это не такой простой процесс, как кажется: нет такого, чтобы вы нажали кнопку и через неделю получили полные выкладки.

Непосредственно машинному обучению предшествуют задачи более сложные. Те же картинки сперва нужно правильно обработать (например, обрезать, отцентрировать фотографии; для обучения это важно) — это первый этап, который обычно занимает много времени. Второй этап — выбрать архитектуру сети, подходящую для решения задачи. Грубо говоря, вы строите десять разных нейронных сетей, и они дают десять разных результатов. Затем полученные результаты нужно как-то оценить. И после этого вы, с большой вероятностью, возвращаетесь к первому этапу. Выстроить одну универсальную сеть под любую задачу нереально: вы либо строите её с нуля, либо дорабатываете существующую. Распознавание лиц — это одна задача, распознавание кошек — уже другая.

В процессе машинного обучения мы тоже участвуем, сами того не подозревая. Например, вводя капчу на сайтах: с помощью капчи Google натренировал нейронные сети оцифровывать книги.

Надо понимать, что компании, собирающие большие данные, не интересуются нашими личными профилями. Им нужны данные о множестве разных людей, которые интересуются чем-то конкретным. А что касается спецслужб, то, полагаю, они могут собрать данные и не прибегая к соцсетям. Думаю, что наши страхи насчёт того, что за нами следят, скоро пройдут. Таков новый мир: не наследить в Сети можно, но это сложно. Проще вообще не появляться в Сети.

ФОТОГРАФИИ: antonsov85 — stock.adobe.com

Рассказать друзьям
0 комментариевпожаловаться