Обзор Social Data Stream

Social Data Stream - крупнейший поставщик данных из социальных медиа. Система SDS – это мощная и масштабируемая платформа по сбору, фильтрации, сегментации и анализу больших объёмов информации из различных социальных медиа и СМИ в режиме реального времени.

Данные SDS предназначены для компаний, создающих сервисы мониторинга социальных медиа, системы бизнес-аналитики, общественно-политических исследований, финансовых приложений и др.

Преимущества SDS

  • Сейчас SDS собирает 40 и более миллионов сообщений (в основном русскоязычных) в сутки из микроблогов, социальных сетей, с тематических сайтов, форумов и блогов. При подключении источников на других языках в рабочем режиме SDS может собирать и обрабатывать до 200 млн сообщений в сутки.
  • Высокая скорость обработки, в реальном времени.
  • Удобные для клиентов стандартизованные программные интерфейсы получения данных (API).
  • Сегментирование и фильтрация: по времени и дате, по источникам и типам, по географии авторов, по конкретным авторам, по объектам, по ключевым словам и фразам, с учётом связанности сообщений («деревья» обсуждений).

Подробнее о системе SDS

SDS не конкурирует с поисковыми системами. Цель SDS – агрегация обсуждений, мнений, высказываний для последующей обработки в системах статистики, анализа и лингвистической обработки данных. Поэтому в качестве источников SDS выбирает, в первую очередь, не отдельные сообщения со страниц сайтов, а связанные цепочки сообщений, которые пишут люди в социальных медиа.

Получение данных:

  • Большинство популярных источников (самые крупные соцсети, платформы блогохостинга и видеохостинга, сотни сайтов с форумов), включая свыше 6 тысяч СМИ. Список обрабатываемых источников постоянно расширяется.
  • Нормализация. Все данные, которые проходят через SDS, преобразуются в единый формат, чтобы клиенты могли получать информацию в стандартном и удобном виде.

Обработка данных:

  • Производительность. SDS динамически распределяет нагрузку, чтобы обеспечить высокую скорость отдачи потоков своим клиентам.
  • Масштабируемость. Структура SDS обеспечивает динамическое масштабирование систем передачи и не требует остановки при расширении потоков.
  • Надёжность. SDS разработана командой разработчиков, сопровождающей популярные массовые сервисы, включая популярную систему интернет-статистики HotLog, свыше 10 лет обрабатывающую каждый день сотни миллионов обращений для сотен тысяч сайтов.

Мониторинг обновлений:

  • Своевременность. SDS получает данные из источников с минимальной задержкой: от 1 секунды для Twitter до 1 часа для новостей.
  • Гибкость настройки. Клиенты SDS могут указывать нужную им регулярность получения данных, экономя средства там, где не нужен сервис в режиме реалтайм.

Вывод данных:

  • Промышленные стандарты. Клиенты SDS могут использовать широко используемые стандартные интерфейсы для получения данных.
  • Многопоточность. Для крупных клиентов SDS обеспечивает возможность получать данные в несколько потоков, например, с разным сегментированием по источникам или объектам.
  • Проверенная скорость сбора и отдачи данных – 3000 сообщений в секунду.