Загрузим данные в систему Power BI. Для этого выберем "Получить данные", в данном случае нам нужно "Дополнительные сведения", выбираем "Другое", и R-скрипт, "Подключить", открывается специальное окошечко, в которое мы должны загрузить скрипт R. Я уже его подготовила, сохранила его в текстовом файле, поэтому сейчас я его выделю и загружу в наш отчет. Давайте посмотрим, что же мы с вами сделали. Сначала мы прочитали данные, файл заказа "Кластеры", нам пришлось для удобства перевести в формат CSV, после этого мы подготовили данные, а именно провели их стандартизацию, привели их к шкале 01. Мы обсуждали на одном из наших прошлых уроков. Потом применили функцию h-clast, именно провели кластерный анализ, функция h-clast применяется не к самим исходным данным, а к матрице расстояний, сформированные по нашим данным. Мы выбрали евклидово расстояние. После этого, мы автоматически разбиваем данные на три кластера. Надо сказать, что мы, конечно, посмотрели, попробовали, действительно получается у нас три кластера, и загрузили данные в специальную табличку, которая в R записывается как функция dataframe. Так, нажимаем OK, что же мы видим? Мы подождем пока данные подключатся, не очень хорошо сработал наш русификатор, но мы видим что система Power BI нашла все таблички, которые есть в нашем R-скрипте. Первое — это наши исходные данные, нас с вами интересует результирующий файл. Так, мы нажмем "правка", потому что, как мы видим, он не очень красиво прочитался, нам нужно это исправить. Так, открывается специальное окно, в котором мы можем исправить наши данные, и дадим имя нашего файла и назовем его "Кластеры". Кроме того, у нас первый столбец — это код клиента, он прочитался не совсем корректно, нам нужно его поменять. Итак, "Переименовать столбец", назовем его "Код клиента". Первый наш файлик содержит код клиента и номер кластера, который получился при автоматической кластеризации методом иерархического кластерного анализа. Загрузим наши данные в модель, подождем, пока они подгрузятся, и теперь подгрузим другие наши файлы — это XL файлы, это файл с заказами, мы видим код клиента, код менеджера, сумма заказа, предоплата, количество платежей и количество недель. Второй файл это будет описание клиентов. Мы видим, что у нас есть крупный клиент и другие обычные клиенты, они никак не обозначены, значит нам придется это сделать вручную. Наименование клиента и город, в котором он находится, этот клиент, а также мы видим, что в нашей компании работают четыре менеджера. Итак, подгрузим эти файлы: "Получить данные" это файлы XL , файл заказа. Можно просто загрузить, потому что здесь никакая правка не нужна. Загружаем файл "Заказы", следующий — "Клиенты", этот файл придется поправить, поэтому мы нажимаем "правка", дождемся, пока данные загрузятся, вот он, наш, нашелся. Переименуем лист один — это у нас будет "Клиенты". Так, нам необходимо, посмотрите, не прочитались корректно названия столбцов. Значит, мы это исправим. Первое — "Использовать первую строчку в качестве заголовков", и теперь "Группа клиентов", "Преобразования", выбираем "Заменить значение" и пустые значения мы заменим на "Обычный клиент". Теперь наши данные выглядят хорошо, мы их загрузим в нашу модель. Осталась последняя табличка, тоже табличка XL. Это у нас "Менеджеры", можем просто загрузить. Оказалось, не очень удобное название нашей таблицы, лист один, тогда, мы перейдем в режим показа таблицы, двойным щелчком выделим название этой таблички, переименуем и назовем ее "Менеджеры". Когда все данные загружены, мы должны проверить, правильно ли они соединились в модель. Откроем режим модели, итак, посмотрим. Данные соединились не совсем корректно, посмотрите, у нас соединились оперативные наши данные — это табличка "Заказы", справочная табличка "Менеджеры", справочная таблица "Кластеры" и таблица "Клиенты", которая соединилась у нас не с таблицей "Заказы", а соединились с таблицей "Кластеры". Мы разорвем эту связь, удалим ее и построим новую связь: код клиента из таблички "Клиенты", соединим с кодом клиента из таблицы "Заказы". Теперь у нас получилась модель типа звезда, которая является наиболее удобной для анализа наших данных. Давайте посмотрим. Очень хотелось бы посмотреть на ту дендограмму, которая у нас получилась в процессе применения кластерного анализа. Итак, мы выбираем специальные диаграммы R, "Включить визуальные элементы", итак открывается у нас специальное поле, в которое мы должны будем на самом деле еще раз прописать наш скрипт для того, чтобы увидеть ту дендограмму, которая получилась в результате кластерного анализа. Итак, мы раскрываем табличку "Заказы", мы туда поместим, итак, "Сумма заказа", "Предоплата", "Количество платежей" и "Количество недель". Обратите внимание, посмотрите, сформировался dataset, в котором как раз вот эти наши четыре измерения появились. Теперь мы должны записать в нижней части фрагмент нашего кода. Для ускорения процесса я его тоже уже создала. Итак, мы снова применяем стандартизацию, применяем процедуру иерархической кластеризации и строим специальную диаграмму, которая называется "Дендограмма" с помощью функции "Плот". Сейчас Power BI пытается распознать, какие графические объекты появились в результате применения нашего кода. В первый раз, когда мы применяли код, мы разбили данные на кластеры, каждому кластеру присвоили его номер, теперь у нас кластер имеет свой уникальный номер. А сейчас мы хотим графически увидеть тот результат, который у нас получился. Теперь мы нажимаем на треугольник, "Запуск скрипта", и сейчас мы видим, что наша дендограмма появилась на экране. Мы на ней сразу выделили три кластера. Давайте немножечко ее доработаем, чтобы она была более наглядна. Выбираем функцию "Общее" и зададим ширину дендограммы 800. Вот, она более наглядная, посмотрите, все наши заказы, все наши объекты, каждый имеет свой порядковый номер, и мы видим, что они действительно разбиваются на три большие группы, три кластера, которые у нас получились. Давайте построим еще одну специальную диаграмму, посмотрим, чем отличается гистограмма от столбчатой диаграммы. Мы с вами привыкли строить именно столбчатые диаграммы. Вот, сейчас я ее построю, столбчатая диаграмма, например, по фамилии менеджера. Мы можем увидеть ту сумму заказа, которую он получил. А теперь я хочу построить другую специальную диаграмму, я хочу посмотреть, не могу попасть, хочу посмотреть, а как распределились суммы заказов. Этот график специального вида — это гистограмма. Для этого я опять открываю скрипт R, помещаю в данные "Сумма заказа", раскрою этот скрипт, и здесь я уже пропишу руками. Итак, у меня данные — это dataset называется, и это не очень удобные данные, поскольку они появятся в названии нашей гистограммы. Я сейчас создам переменную сумма заказов, в которые я запишу как раз те самые данные, которые я загрузили в скрипт R, и построю гистограмму. "Сумма заказов", так, на английском получилось, сейчас исправим, "Сумма заказов". Мне не нужно никаких дополнительных названий в моей диаграммке, поэтому я их выбираю, запускаю скрипт, и вот у меня получается диаграмма специального вида. Сейчас мы перенесем, смотрите, она принципиально отличается от столбчатой диаграммы. Мы видим, что все наши заказы распределяются от нуля до двух миллионов. И, чаще всего, это заказы до 500 тысяч. При этом, смотрите, мы можем применить фильтры, посмотреть, как работал менеджер Петров, и видеть распределение его заказов. И только те клиенты, которые работали с менеджером Петровым, мы для них провели тот же самый кластерный анализ, и видим специальные диаграмму-дендограмму для тех клиентов, которые работали с менеджером не Петров, простите а Петров-Павлов. Также мы можем выделить несколько клиентов, несколько менеджеров и посмотреть вот эти специальные диаграммы для этих клиентов, которые работали именно с этими менеджерами. Итак, мы с вами загрузили данные и построили диаграммы специального вида, которые нам позволяет строить встроенные, интегрированные, точнее, в систему Power BI пакет R.