Аналитика Больших Данных и социальные сети

Рост и разнообразие информации оказывают сильное влияние на методы обработки и интерпретации новых знаний, а поскольку большая часть данных поступает из Интернета и хранится в нем, то одна из важнейших задач сегодня — определиться, как дальше развивать технологии, чтобы иметь возможность доступа к Большим Данным, их сбора, анализа и принятия решений. Для высокоскоростного анализа больших объемов информации нужно слаженное взаимодействие между самими потоками данных и вычислительной инфраструктурой.

Сегодня большинство социальных сетей объединяет людей со схожими интересами, и в ближайшем будущем такие сети начнут охватывать и другие объекты: программные компоненты, веб-сервисы, источники данных и рабочие процессы. Что более важно, взаимодействие между людьми и неживыми артефактами позволяет серьезно повысить продуктивность труда специалистов по анализу данных. Реальный пример: после террористического акта на Бостонском марафоне 2013 года обширные наборы сообщений, снимков и видеозаписей из социальных сетей были классифицированы и проанализированы с помощью высокопроизводительных систем, что в конечном итоге помогло выявить устроителей теракта. Таким образом, облака предоставили вычислительные мощности для решения задачи, а результативность работы автоматизированных средств аналитики была улучшена благодаря информации от участников социальных сетей.

Взаимодействие участников социальной сети можно представить в виде цикла взаимного усиления, в котором люди создают непрерывный поток информации, размещаемой в репозитории взаимосвязанных данных; индивидуумы или организации анализируют эти данные с помощью децентрализованных облаков и взаимосвязанных компьютеров; а результатом анализа становятся знания, впоследствии передаваемые людям. Эта система непрерывно развивается, как и знания, рождающиеся в результате взаимодействия.

ВЗАИМОСВЯЗАННЫЕ ЛЮДИ: СОЦИАЛЬНЫЕ СЕТИ И БОЛЬШИЕ ДАННЫЕ

Сайты социальных сетей, таких как Twitter, Facebook, Linkedln, YouTube и Wikipedia, объединяют огромные популяции пользователей и сохраняют экзабайты информации, связанной с их повседневным взаимодействием. Основные исследовательские задачи можно распределить по ряду предметных областей.

«Живые» социальные сети

Еще с 1920-х годов социологи начали изучать группы взаимосвязанных людей и межличностные отношения в них. В ходе этих исследований предпринимались попытки систематизировать силу связей и определить роль доверия в сетях. Моделирование социальных сетей выполняется путем сбора данных и анализа выборок, посредством построения блочных и диффузионных моделей, а также методом анализа поступающих данных и данных длительного наблюдения. Измерения включают в себя централизованные оценки поведения групп, анализ межсетевого взаимодействия и анализ соответствий.

Теория сложных сетей

Некоторые из методов анализа сетей применяют математики, но их больше интересуют количественные характеристики структуры сети, а социальное поведение оценивается исходя из анализа схемы соединений между узлами сети. Учитывая, что структура сложных сетей неоднородна и динамически развивается со временем, основное направление исследований — это разработка надежных математических методов оценки сетей, состоящих из миллионов узлов. Математики и физики нередко используют знания, полученные в ходе изучения биологических систем, важным методом изучения поведения которых является анализ протяженности маршрутов и кластерный анализ сетевой структуры. В базовой форме социальные сети можно представить в виде графов, а более сложные топографии представляют в виде взвешенных, степенных, пространственных сетей или случайных графов. Один из общепринятых подходов к управлению такими сетями — разбиение графа спектральным способом, когда определяется минимальное количество ребер между двумя группами вершин. Для сетей с неизвестным заранее количеством сообществ эффективен метод иерархической кластеризации — разбиение узлов на кластеры в зависимости от степени связности. Есть также методы кластерного анализа, основанные на поиске наибольшей дистанции между узлами.

Информационные и социальные сети

Специалисты по информатике, опираясь на теории социальных и сложных сетей, ведут исследования в области сетевых сред, выполняющих роль информационных систем. Активно изучается фундаментальный вопрос о сходстве социальных сетей Интернета с коллективным поведением людей в реальных ситуациях. Для этого применяются комбинированные методы, заимствованные из социологии и математики.

Социальные сети как Большие Данные

Изучение социальных сетей превращается в задачу обработки Больших Данных, когда бизнес-руководителям или специалистам по информационным системам нужно прогнозировать поведение участников сообщества, чтобы добиться повышения эффективности маркетинга или продаж. У многих социальных сайтов имеется от 10 до 200 млн пользователей, поэтому стержнем большинства исследований является работа с выборками данных. Оптимальным, хотя и сильно затратным по времени, было бы извлечение знания из всего среза данных, что для Больших Данных, характеризуемых тремя «V» (volume, velocity, variety — объем, скорость, многообразие), нереально. Уже в конце 2011 года у Facebook было 721 млн пользователей и 68,7 млрд ребер-связей между «друзьями». Если говорить о скорости наполнения, то Twitter и Facebook генерируют 7 и 10 Тбайт соответственно ежедневно. Но эти данные нередко нужно обрабатывать буквально со скоростью мысли. Например, 11 ноября 2012 года на ТаоВао, крупнейшей розничной онлайн-площадке Китая, прошла распродажа, в течение которой было совершено 100 млн покупок, а пиковый темп продаж достиг 205 тыс. транзакций в минуту.

Строите баню из бруса? Тогда вам понадобится помощь в выборе печи для бани, посетите ресурс www.pechikamini.ru и вы сможете самостоятельно выбрать правильную печь.