?

Log in

No account? Create an account

sanatel


Sanatel Consulting

Внедрение систем CRM (система управления взаимоотношениями с клиентами) и BI (бизнес аналитика)


Может ли машинное обучение заменить BI?
sanatel
В течение последних 20 лет компании искали закономерности в данных вручную с помощью срезов данных. Найденные шаблоны применялись для принятия бизнес-решений. Однако в последние 2 года наметилась новая тенденция: внедрение машинного обучения для поиска закономерностей в данных и использование его для интеллектуальной аналитики.

Business Intelligence (Бизнес-аналитика)

Это – пример типичной информационной панели BI для продаж (источник). На панели мониторинга представлены данные о продажах. Сверху – это продажи и прибыль с течением времени и по продукту. А внизу – продажи по продавцам и прибыль по клиентскому сегменту и товарной группе.
На основании этих данных компания может принимать такие бизнес-решения, как:

  1. Увеличить или уменьшить маржинальную прибыль для определенной группы продуктов.

  2. Сосредоточить маркетинговые усилия на конкретном потребительском сегменте, чтобы увеличить продажи.

  3. Реструктурировать отделы продаж, чтобы повысить эффективность продаж.

Таким образом, BI помогает руководству лучше управлять бизнесом, позволяя лучше понимать текущие и прошлые бизнес-ситуации.
Машинное обучение (ML – machine learning)
Примером типичного машинного обучения является выявление мошенничества в банковской сфере. Тысячи транзакций в день (например, кредитные карты или платежи и банковские переводы) анализируются с помощью алгоритма ML, а некоторые, подозрительные, автоматически удерживаются и проверяются вручную. Дата, время, сумма, профиль клиента, получатель и тип транзакции/платежа являются «характеристиками» алгоритма нейронной сети, который оценивает каждую транзакцию. Поэтому транзакции, которые превышают некоторые определенные параметры, удерживаются.

Размерные модели – логические или физические?
sanatel
Размерные модели данных существовали в течение очень долгого времени, почти наверняка их происхождение восходит к первоначальному проекту Data Cube, затеянного Dartmouth University и General Mills в конце 1960-х годов. Привлекательность размерного моделирования проистекает из очевидной простоты моделей и естественного способа, с помощью которого как бизнесмены, так и технические специалисты могут понять, что означают модели.


Размерные модели имеют два совершенно разных выражения: логическое и физическое. Чисто логическим выражением является пузырьковая диаграмма.

Поле в центре всегда представляет измерения событий, например, позиции строки заказа в примере. Мы называем это фактами. Пузырьки вокруг края представляют естественные размеры, связанные с измерениями событий. В логической модели пузырьковой диаграммы очень мало технического контента базы данных, но много ...

Продолжение у нас на сайте

Таблица фактов со смешанными гранулами
sanatel

Таблица фактов со смешанными гранулами – это таблица фактов, в которой у нас есть меры с различной гранулярностью. Например, одна мера является еженедельной, а другая – ежемесячной. В этом посте я хотел бы рассказать о преимуществах и недостатках этого подхода. Kimball Group однозначно заявила, что меры в таблице фактов должны иметь одинаковую гранулярность (см. главу 2 книги Кимбалла – The Data Warehouse Toolkit).

Но всегда проще объяснить на примере:

Это – витрина данных. В ней представлены еженедельные и ежемесячные меры, но отсутствуют ежедневные. Нужно ли нам создавать две таблицы фактов, одну еженедельную и одну ежемесячную, например вот такие (№1):

Две таблицы фактов


Или мы должны создать таблицу фактов смешанных гранул, например такую (№2):

Таблица фактов смешанных гранул


В приведенной выше таблице фактов черные строки являются недельными значениями, тогда как красные строки являются месячными. Они обе помещаются в одну и ту же таблицу фактов, но в разных столбцах. В строках, где существует недельная мера, месячная мера равна нулю. И наоборот. Поэтому еженедельные и ежемесячные итоги верны:

select D.Week, sum(F.WeeklyMeasure) from FactMixedGrain F
join DimDate D on F.DimDate = D.DimDate group by D.Week

Результат:

Еженедельные итоги

select D.Month, sum(F.MonthlyMeasure) from FactMixedGrain F
join DimDate D on F.DimDate = D.DimDate group by D.Month

Результат:

Ежемесячные итоги


Обычно основная причина исполнения варианта №2 состоит в необходимости хранить еженедельные и ежемесячные показатели в одной таблице фактов. Это позволяет сэкономить время на разработку, особенно в части ETL. Легче заполнить одну таблицу, чем две.

Это преимущества. Теперь о недостатках. Проблема с вариантом №2 заключается в том, что гранулярность в таблице фактов является смешанной – есть две гранулы. На практике мы имеем другие ключевые столбцы измерения в таблице фактов. И еще у нас есть другие столбцы мер в таблице фактов. Некоторые из этих мер еженедельные, а некоторые – ежемесячные.

Продолжение http://sanatel.kz/paper_mixed_grain_fact_tables.htm