Обзор Social Data Stream
Social Data Stream - крупнейший поставщик данных из социальных медиа. Система SDS – это мощная и масштабируемая платформа по сбору, фильтрации, сегментации и анализу больших объёмов информации из различных социальных медиа и СМИ в режиме реального времени.
Данные SDS предназначены для компаний, создающих сервисы мониторинга социальных медиа, системы бизнес-аналитики, общественно-политических исследований, финансовых приложений и др.
Преимущества SDS
- Сейчас SDS собирает 40 и более миллионов сообщений (в основном русскоязычных) в сутки из микроблогов, социальных сетей, с тематических сайтов, форумов и блогов. При подключении источников на других языках в рабочем режиме SDS может собирать и обрабатывать до 200 млн сообщений в сутки.
- Высокая скорость обработки, в реальном времени.
- Удобные для клиентов стандартизованные программные интерфейсы получения данных (API).
- Сегментирование и фильтрация: по времени и дате, по источникам и типам, по географии авторов, по конкретным авторам, по объектам, по ключевым словам и фразам, с учётом связанности сообщений («деревья» обсуждений).
Подробнее о системе SDS
SDS не конкурирует с поисковыми системами. Цель SDS – агрегация обсуждений, мнений, высказываний для последующей обработки в системах статистики, анализа и лингвистической обработки данных. Поэтому в качестве источников SDS выбирает, в первую очередь, не отдельные сообщения со страниц сайтов, а связанные цепочки сообщений, которые пишут люди в социальных медиа.
Получение данных:
- Большинство популярных источников (самые крупные соцсети, платформы блогохостинга и видеохостинга, сотни сайтов с форумов), включая свыше 6 тысяч СМИ. Список обрабатываемых источников постоянно расширяется.
- Нормализация. Все данные, которые проходят через SDS, преобразуются в единый формат, чтобы клиенты могли получать информацию в стандартном и удобном виде.
Обработка данных:
- Производительность. SDS динамически распределяет нагрузку, чтобы обеспечить высокую скорость отдачи потоков своим клиентам.
- Масштабируемость. Структура SDS обеспечивает динамическое масштабирование систем передачи и не требует остановки при расширении потоков.
- Надёжность. SDS разработана командой разработчиков, сопровождающей популярные массовые сервисы, включая популярную систему интернет-статистики HotLog, свыше 10 лет обрабатывающую каждый день сотни миллионов обращений для сотен тысяч сайтов.
Мониторинг обновлений:
- Своевременность. SDS получает данные из источников с минимальной задержкой: от 1 секунды для Twitter до 1 часа для новостей.
- Гибкость настройки. Клиенты SDS могут указывать нужную им регулярность получения данных, экономя средства там, где не нужен сервис в режиме реалтайм.
Вывод данных:
- Промышленные стандарты. Клиенты SDS могут использовать широко используемые стандартные интерфейсы для получения данных.
- Многопоточность. Для крупных клиентов SDS обеспечивает возможность получать данные в несколько потоков, например, с разным сегментированием по источникам или объектам.
- Проверенная скорость сбора и отдачи данных – 3000 сообщений в секунду.