5 фактов о больших данных

5 фактов о больших данных
Большие данные (Big Data) — это объемные, быстро растущие в количестве и многообразные по структуре и типам информации данные. Также под этим термином понимается совокупность технологий для работы с большими массивами данных. В бытовом смысле большими данными часто считают то, что принципиально не помещается на отдельный «сервер». Термин появился в 2008 году благодаря статье редактора Nature Клиффорда Линча и сразу был подхвачен маркетологами. Всплеск интереса к большим данным во многом связан с ростом вычислительных мощностей, позволяющих их обрабатывать. Одни из наиболее важных источников больших данных — интернет вещей и социальные медиа. О применении и анализе больших данных в играх, лингвистике, психологии и урбанистике читайте в материалах ПостНауки.

Расцвет data-аналитики в игровой индустрии начался с появлением Pokemon Go

Историю такой аналитики условно можно начать с мобильных игр и знакового появления Pokemon Go. В 2016 году она за считаные недели завоевала огромную популярность. И пока весь мир обсуждал, этично ли ловить покемонов в храмах, разработчики игр и мировое сообщество наук о данных поднимали вопрос о том, насколько легко пользователи готовы отдавать огромное количество данных, в том числе геолокацию, на серверы неизвестных компаний. Это совпало с появлением технологий, позволяющих обрабатывать большие массивы данных. Можно сказать, что с этого момента начался взлет data-аналитики в играх.

Буквально за несколько лет окончательно оформилась целая «наука» об игровой аналитике: специалисты выделили метрики, по которым можно оценивать разные параметры игр и их прибыльность; предсказывать, сколько игроков останется в игре, а сколько уйдет. Созданы платформы для разработчиков, которые справляются с аналитикой в автоматическом режиме. Уже есть и учебные пособия: одно из лучших (и первых) на русском языке написал создатель аналитической платформы для игр devtodev Василий Сабиров — оно называется «Игра в цифры».

Большой игровой брат: big data в компьютерных играх

Социальные сети являются классическим примером майнинга данных

В них очень важна структура взаимодействий между пользователями. В результате их исследования и получается майнинг структурных данных (graph mining). То есть у нас есть классический майнинг числовых данных, майнинг текстов и graph mining. Все три направления развиваются параллельно и обогащают друг друга. Вычислительная сложность растет с каждым следующим шагом.

Особый вид — гибридные данные. Например, у нас есть граф, в узлах которого расположены тексты. Именно такими графами обычно являются социальные сети: есть пользователи, у которых много постов с текстами, а также есть их друзья и связи между ними, перекрестные ссылки и так далее. Это и есть пример гибридного анализа.

А как майнить социальные сети? Для начала нужен некий метод ETL, то есть необходимо взять данные, преобразовать их в приемлемый для нас формат и сохранить. Так они будут копиться несколько лет, и в итоге получатся динамические структурированные данные с текстами и мультимедиа в узлах. Это классический пример гибридных данных.

Специалист по Computer Science Алексей Незнанов о проблемах искусственного интеллекта, видах майнинга данных и обработке данных в корпорациях

В анализе очень больших корпусных данных в лингвистике есть еще очень существенные методологические пробелы

Прямым анализом больших данных оказывается весьма сложно отделить лингвистические факторы от экстралингвистических, то есть изменение языка как системы от изменения частотности каких-то слов просто потому, что изменились реалии. Условно, если мы возьмем слово «мышка», мы вдруг увидим какой-то страшный взрыв частотности этого слова с тех пор, как люди стали использовать компьютерную мышку. И те эксперименты, которые именно исследуют слова и их какое-то контекстуальное окружение, то, какие есть близкие по контексту слова, лексика и как она меняется, на самом деле упираются в то, что все их выводы отражают какие-то экстралингвистические процессы.

Есть очень хорошее исследование, проведенное группой ученых, среди которых очень известный компьютерный лингвист Дэн Журавски. Он вообще компьютерный лингвист, но у него много работ, несколько выходящих за пределы компьютерной лингвистики, когда он исследует даже какие-то филологические проблемы либо как раз лингвистические. В исследовании они сравнивают, как меняются существительные и глаголы. Гипотеза состоит в том, что экстралингвистические факторы влияют на употребление существительных, а вот употребление глаголов как раз чаще всего связано с какими-то внутренними лингвистическими смещениями. И они показывают, что просто нужно использовать разные методы подсчета изменения частотности для существительных и для глаголов. И именно эти методы, как они считают дальше, и различают лингвистическое и экстралингвистическое.

Лингвист Анастасия Бонч-Осмоловская о корпусной лингвистике, поиске изменений в языке и проблемах оцифрованных данных

С появлением возможности анализировать игровые данные психологи получили новый инструмент исследования

В играх люди ведут себя не так, как в реальной жизни, поэтому результаты психологических исследований в World of Tanks вряд ли можно будет воспроизвести офлайн. Даже из одной игры в другую результаты переносятся плохо, поэтому компании-разработчики не торгуют собранными данными между собой.

Впрочем, есть одно исключение, оно касается изучения поведения геймеров, их самочувствия и влияния игр на профессиональную и личную жизнь. До сих пор исследователи опирались в основном на данные опросов. С их помощью, например, ученые из Университета им. Иоганна Гутенберга в Германии выяснили, что игры помогают социализироваться и приносят удовлетворение, но могут снижать успеваемость. С появлением возможности анализировать игровые данные исследователи получили новый инструмент. С его помощью, например, исследователи из Оксфорда установили, что любители игр Plants vs.Zombies: Battle for Neighborville и Animal Crossing: New Horizons больше довольны жизнью, когда имеют возможность вдоволь наиграться. Примечательно, что игровую телеметрию для исследования предоставили компании-разработчики Electronic Arts и Nintendo; авторы статьи отмечают, что это ценный пример открытого обмена информацией между бизнесом и учеными и что в результате такого обмена получаются действительно качественные исследования.

Новые миры и большая наука: как используют игровые данные

“Place attachment” и “dwell time” — новые метрики поведения людей в городе

Например, раньше мы не могли измерить приверженность к конкретному месту. Люди любят в него ходить, они о нем пишут, они там тратят деньги, бывают и так далее. Есть такое английское выражение ― place attachment. То есть люди приходят и хотят там каким-то образом находиться. И это отличается, например, от узнаваемости места, то есть place visibility. Место может быть очень узнаваемым, очень ярким, но там совершенно не хочется быть, оно транзитное. Например, на Times Square в Нью-Йорке только туристы, туда местные вообще не ходят. Оно транзитное, его все знают во всем мире. А есть какие-то маленькие, небольшие квартальчики, которые любимы конкретной категорией людей, и они там появляются и к ним привязаны.

Очень интересная вещь существует сейчас ― метрика, которая называется dwell time. Это время, проведенное в конкретном месте с некоторой пользой. В основном этим интересуются, например, аэропорты, поскольку основной их доход идет не от платы за посадку авиакомпаниями — это только часть порядка 20–25%. Остальное — это еда, парковки, гостиницы. И это вся прилегающая территория, которая ему принадлежит. Там и общественный транспорт, и стоянки такси, и какие-то логистические компании, склады. И им, конечно, важно, чтобы человек, у которого есть деньги и который может принести доход с этой территории, оставался там как можно дольше, чтобы он не сел в такси и сразу не уехал, а поел, остановился в гостинице, поработал, может, даже снял там квартиру на время, пока он приехал в этот город, и так далее.

Урбанист Алексей Новиков о визуализации больших данных, официальной статистике в развивающихся странах и проектировании крупных аэропортов

ИСТОЧНИК СТАТЬИ

Наш сайт без рекламы для Вашего удобства! Чтобы поддержать проект – поделитесь ссылкой с друзьями. Благодарим!

Дмитрий

mirtayna.ru

Автор Цифрового контента.

Читать дальше

ПредыдущийСледующий
Подписаться
Уведомить о
guest

0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии