Многие компании владеют большими наборами данных. Но аналитику этой информации научились делать совсем недавно. Однако до сих пор некоторые специалисты проводят аналитику ради аналитики без понимания ключевых проблем и потребностей компании. Мы узнали у представителей крупных компаний, зачем аналитику погружаться в предметную область для качественного анализа данных и какие инструменты они используют.
Перед тем, как приступить к анализу данных нужно понять, какие бизнес-задачи он поможет решить. Поэтому важно поставить правильные вопросы — четкие и измеримые. Для этого нужно погрузиться в анализируемую область и понять, что из себя представляют анализируемые данные.
Например, компания планирует организовать рекламную кампанию детского питания и для этого заказывает у аналитика исследование аудитории. И среди результатов исследования встречаются выводы: 80% покупателей бренда — клиенты «Сбербанка», 60% — не курят и 35% живут на съемной квартире. Но не ясно, как это поможет маркетологам в планировании кампании.
Ольга Трушкова, трафик-менеджер Mail.Ru Group
Я училась в НИТУ «МИСиС» на факультете информационных систем и технологий, специальность «Автоматизированные системы управления». Python начала учить недавно, но уже применяю в работе.
Объем информации, который нам необходим, а также разные источники предполагают то, что мы используем какой-то инструмент для того, чтобы получать информацию, обрабатывать и предоставлять ее в удобном для понимания виде. Python позволяет сделать абсолютно все эти этапы доступными быстрым и простым способом.
Для того, чтобы выбрать из всего массива полезные данные, нужно понимать, какая конечная цель, что мы хотим сказать тому, для кого будут эти данные, потому что собирать данные можно бесконечно. А использовать их нужно таким образом, чтобы они приносили какую-то пользу и информацию. Либо это какое-то решение сейчас, либо принесут какое-то новое решение впоследствии.
Я выполняю пул задач по анализу трафика на предмет мошенничества в рекламе. Например, я много работаю с данными рекламных площадок, внутренней статистикой Mail.Ru Group, инструментами трекинга.
Основной инструмент – библиотека Pandas для того, чтобы работать с данными в привычном табличном виде. NumPy для обработки – уже больше работы с числами. И я, например, использую очень много библиотек, связанных с облегчением работы с API систем, как Google, потому что часть информации я отправляю туда для построения dashboards. В том числе специфичные библиотеки для упрощения работы с API, которые преобразуют информацию в нужный вид для того, чтобы любая фишка API’шка могла принять эту информацию и обработать ее в правильном виде. Это основной набор.
Дмитрий Степанов, ведущий менеджер по персоналу Mail.Ru Group
Я занимаюсь поиском новых сотрудников в области аналитики для проекта «Рекламные технологии», а именно, в отдел анализа данных.
Команда отдела анализа данных решает задачи по сегментированию аудитории интернета с использованием технологий машинного обучения. Знания в сфере рекламы несомненно позволят быстрее влиться в рабочий ритм, так как. большинство показателей, которые мы анализируем, так или иначе завязаны на рекламных показателях.
Многие наши сотрудники ранее не работали с рекламными технологиями. Для нас намного важнее, чтобы наш будущий коллега действительно хорошо программировал, был классным аналитиком и разбирался в машинном обучении.
Проблема незнания решается системой наставничества и внутренним обучением, после чего каждый сотрудник имеет необходимый базис и знания для успешного выполнения рабочих задач.
Мы предлагаем новым коллегам участие в проекте, позволяющем строить интересные математические модели, которые описывают людей на основании их поведения в интернете. А также модели, отражающие различные мотивационные сферы жизни человека.
Python является самым простым и удобным языком для прототипирования и моделирования.У него отличная поддержка и достаточно большое сообщество.
Денис Деркач, старший научный сотрудник Лаборатории методов анализа больших данных НИУ ВШЭ
Я анализирую данные, набранные разными экспериментами в естественных науках. Основной интерес для меня сейчас представляет Большой адронный коллайдер и анализ данных в физике частиц.
Если мы говорим о прикладных разработках в развитых областях (к таким относится, например, фундаментальная физика, но также и индустриальные приложения), многие части создаваемой модели зависят от экспертных знаний, часто трудноформулируемых на первых этапах. Например, в случае физических моделей нам важна не только точность модели, но и как эта точность скажется на систематической погрешности впоследствии. Безусловно, экспертные знания можно получить из данных, например, используя большое их количество и/или большое количество ресурсов. Но эти данные или ресурсы можно использовать лучшим образом.
По моему опыту, оптимален смешанный состав группы, в котором присутствуют как дата-сайентисты, так и эксперты в какой-то области. При этом безусловно эксперты должны что-то понимать в подходах науки о данных, а аналитики не противиться мнению экспертов.
Обычно мы используем следующие библиотеки для построения моделей: CatBoost, XGBoost, LGBM, Keras, sci-kit. Развитие моделей проходит в Python. В дальнейшем, внедряем в С++.
Пресс-служба «Сбербанка»
Исторически Сбербанк занимает доминирующую позицию на российском финансовом рынке и обладает значительным массивом данных. Каждую секунду в банке происходит 166 снятий наличных и 2251 транзакция. Мы анализируем информацию о финансовом поведении потребителей на основе агрегированных данных более чем 124 млн активных банковских карт, а также агрегированных данных дочерних компаний как из финансового сектора, так и цифрового бизнеса.
Для решения конкретных задач клиента мы также можем дополнять нашу информацию данными заказчика, при условии, что такое взаимодействие не противоречит политике компании в сфере работы с данными.
Прежде чем начинать работать с данными, нужно разобраться с технической стороной вопроса: понять, как устроены данные, как они формируются и обновляются. Здесь важно иметь структурированное хранилище с детальным описанием каждого атрибута, чтобы исключить риски неправильной интерпретации и некорректных выводов.
Не менее важна и «смысловая» составляющая в работе с данными. Разработать корректную методологию исследования и сформировать нужную выборку данных, сформулировать гипотезы и проверить их без понимания специфики бизнеса невозможно. Чтобы найти источник проблемы, определить значимые параметры, мы обращаемся к индивидуальной экспертизе заказчика и нашей отраслевой экспертизе. Практика показывает, что клиенты даже из одной отрасли приходят с разными проблемами, и универсального набора данных и алгоритмов для решения большинства из них не существует.
Поскольку мы обрабатываем огромные массивы данных, мы работаем в программном стеке Hadoop и в целом стараемся использовать opensource-решения. В работе используем data-science стек Python, R и так далее. А для отдельных задач – программные продукты Teradata, SAS, ArcGis Informatica,ESRI и тому подобные.
Напишите, что вы хотите узнать благодаря анализу данных. Сформулируйте гипотезы, которые хотите подтвердить или опровергнуть. Установите цели и задачи анализа данных. Они должны быть четкими, измеримыми и помогать в принятии бизнес-решения.
Если это исследование аудитории для рекламной кампании детского питания, то можно узнать, сколько раз в день и в каких порциях едят дети или какие у них вкусовые предпочтения.
- После сбора данных оцените их полезность и актуальность
Для этого и надо погрузиться в предметную область, чтобы понять, какие данные важны, а какие лучше оставить для других исследований. Всегда можно попросить коллег из других отделов или людей, которые лучше разбираются в предметной области о помощи. Главное — ответьте на вопрос: «Как эти данные помогут ответить на первоначальный вопрос». Если никак, то лучше их оставить.
- Убедитесь, что результаты отвечают на поставленные вопросы
Когда анализ данных, визуализация и интерпретация закончились, проверьте, на все ли вопросы нашли ответы. Соотнесите их с гипотезами, которые не всегда подтверждаются.
Как использовать в создании рекламы детского питания информацию о количестве некурящих родителей? Никак.
источник
Несмотря на то, что «процесс анализа информации» — это скорее технический термин, но его наполнение на 90 % связано с деятельностью человека.
Понимание потребностей в основе любой задачи по анализу информации тесно связано с пониманием бизнеса компании. Сбор данных из подходящих источников требует опыта в их подборе, независимо от того, насколько окончательный процесс сбора данных может быть автоматизирован. Для превращения собранных данных в аналитические выводы и эффективного применения их на практике необходимы глубокие знания бизнес-процессов и наличие навыков консультирования.
Процесс анализа информации представляет собой цикличный поток событий, который начинается с анализа потребностей в рассматриваемой области. Затем следует сбор информации из вторичных и (или) первичных источников, ее анализ и подготовка отчета для лиц, ответственных за принятие решений, которые будут его использовать, а также давать свои отзывы и готовить предложения.
На международном уровне процесс анализа информации характеризуется следующим образом:
- Сначала в ключевых бизнес-процессах определяются этапы принятия решений, которые сопоставляются со стандартными конечными результатами анализа информации.
- Процесс анализа информации начинается с оценки потребностей на международном уровне, т. е. с определения будущих потребностей, связанных с принятием решений, и их проверкой.
- Этап сбора информации автоматизирован, что позволяет выделить время и ресурсы на первичный анализ информации и, соответственно, повысить ценность уже имеющейся вторичной информации.
- Значительная часть времени и ресурсов тратится на анализ информации, выводы и интерпретацию.
- Полученная в результате аналитическая информация доводится до сведения каждого лица, ответственного за принятие решений, в индивидуальном порядке с отслеживанием процесса ее дальнейшего использования.
- У членов группы, которая занимается анализом информации, сформирована установка на непрерывное совершенствование.
Термин «процесс анализа информации» означает непрерывный, цикличный процесс, который начинается с определения информационных потребностей людей, ответственных за принятие решений, и заканчивается предоставлением того объема информации, который соответствует этим потребностям. В этом отношении необходимо сразу же провести различие между объемом информации и процессом анализа информации. Определение объема информации направлено на выявление целей и потребностей в информационных ресурсах для всей программы анализа информации, тогда как процесс анализа информации начинается с определения потребностей по одному, пусть даже и незначительному, конечному результату такого анализа.
Процесс анализа информации всегда должен быть привязан к существующим в компании процессам, то есть стратегическому планированию, продажам, маркетингу или управлению производством товара, в рамках которых и будет использоваться данная информация. На практике же использование полученной на выходе информации должно быть либо напрямую связано с ситуациями принятия решений, либо такая информация должна способствовать повышению уровня информированности организации по тем направлениям операционной деятельности, которые имеют отношение к различным бизнес-процессам.
На рис. 1 показаны этапы цикличного процесса анализа информации (подробнее об этом см. ниже). В свою очередь, в правой части диаграммы показаны конкретные итоги процесса анализа информации, когда решения принимаются на основе общих исследований рынка, и итоги процесса анализа информации, прямо связанного с различными бизнес-процессами и проектами.
Кликните мышкой по изображению, чтобы увеличить его
Цикл анализа информации состоит из шести этапов. Их подробное описание приведено ниже.
Тщательная оценка потребностей позволяет определить цели и объем задачи по анализу информации. Даже если те, кто решает такую задачу, будут вести сбор информации для собственного использования, имеет смысл четко обозначить ключевые направления в решении этой задачи для концентрации ресурсов в наиболее подходящих областях. Однако в подавляющем большинстве случаев те, кто проводит исследования, не являются конечными пользователями его результатов. Поэтому они должны иметь полное представление о том, для чего будут использоваться конечные результаты, чтобы исключить сбор и анализ данных, которые в конечном итоге могут оказаться неактуальными для пользователей. Для этапа анализа потребностей разработаны различные шаблоны и анкеты, задающие высокую планку качества на начальной стадии решения задачи.
Однако самое важное заключается в том, что потребности организации в анализе информации должны быть до конца изучены и трансформированы из внешних во внутренние для того, чтобы программа анализа информации представляла собой определенную ценность. Сами по себе шаблоны и анкеты не могут обеспечить достижение этой цели. Они, естественно, могут оказаться полезными, но бывали случаи, когда отличный анализ потребностей проводился просто на основе неофициальной беседы с руководителями компании. Это, в свою очередь, требует от группы по анализу информации подхода с позиций консультирования или, по крайней мере, умения продуктивно вести деловые переговоры с теми, кто отвечает за принятие решений.
В рамках цикла анализа информации мы отдельно выделяем сбор информации из вторичных и первичных источников. Для этого есть ряд причин. Во-первых, сбор информации из общедоступных источников обходится дешевле, чем обращение напрямую к первичным источникам. Во-вторых, это проще, при том, разумеется, условии, что люди, перед которыми поставлена такая задача, имеют достаточный опыт изучения имеющихся вторичных источников. На самом деле, управление источниками информации и связанная с этим оптимизация затрат сами по себе являются отдельной областью знаний. В-третьих, охват вторичных источников информации перед проведением исследований в форме интервью даст тем, кто проводит такие исследования, ценную базовую информацию общего характера, которую можно проверить и использовать, выдавая ее в ответ на информацию от интервьюируемых. Кроме того, если в ходе изучения вторичных источников удастся получить ответы на некоторые вопросы, это снизит стоимость этапа исследований первичных источников, а иногда и вовсе исключит необходимость их проведения.
Каким бы огромным ни был объем имеющейся на сегодняшний день общедоступной информации, не ко всем сведениям можно получить доступ через изучение вторичных источников. После изучения вторичных источников пробелы в исследовании можно заполнить, интервьюируя экспертов, хорошо знакомых с темой исследования. Этот этап может оказаться относительно дорогим по сравнению с изучением вторичных источников, что, естественно, зависит от масштаба поставленной задачи, а также от того, какие ресурсы задействованы: нередко компании привлекают к участию в исследованиях первичных источников сторонних исполнителей.
После сбора информации из различных источников необходимо разобраться, что именно из этого нужно для первоначального анализа потребностей в соответствии с поставленной задачей. Опять-таки, в зависимости от объема поставленной задачи этот этап исследований может оказаться довольно затратным, так как включает в себя, по меньшей мере, временные затраты внутренних, а иногда и внешних, ресурсов и, возможно, некую дополнительную проверку правильности результатов анализов посредством дальнейших интервью.
Формат предоставления результатов после выполнения задачи по анализу информации имеет для конечных пользователей немаловажное значение. Как правило, у людей, ответственных за принятие решений, нет времени на поиск ключевых результатов анализа в большом объеме полученных ими данных. Основное содержание необходимо перевести в легкий для восприятия формат с учетом их требований. В то же время следует обеспечить удобный доступ к дополнительным фоновым данным для тех, кто заинтересуется и захочет «копнуть глубже». Эти основные правила применяются независимо от формата предоставления информации, будь то программное обеспечение с базой данных, информационный бюллетень, презентация PowerPoint, личная встреча или семинар. Кроме того, существует еще одна причина, по которой мы отделили этап предоставления информации от конечного использования, а также получения отзывов и предложений по предоставленной аналитической информации. Иногда решения будут приниматься в той же последовательности, в которой будет предоставляться аналитическая информация. Однако гораздо чаще базовые, справочные материалы будут предоставлены до того, как возникнет фактическая ситуация принятия решения, поэтому формат, канал и способ предоставления информации влияют на то, как она будет восприниматься.
Этап использования служит своего рода лакмусовой бумажкой для оценки успешности выполнения задачи по анализу информации. Он позволяет понять, отвечают ли полученные результаты потребностям, определенным в самом начале процесса анализа информации. Независимо от того, были ли получены ответы на все первоначально заданные вопросы, на этапе использования, как правило, возникают новые вопросы и необходимость в новом анализе потребностей, особенно если потребность в анализе информации носит постоянный характер. Кроме того, в результате совместных усилий по созданию информационных материалов конечными пользователями и специалистами в области анализа информации к моменту перехода на этап ее использования может оказаться, что конечные пользователи такой информации уже внесли свой вклад в ожидаемый конечный результат. С другой стороны, те, кто в основном занимался анализом, могут быть активно задействованы в процессе формирования выводов и интерпретации результатов, на основании которых будут приниматься окончательные решения. В идеале продуманные замечания и комментарии на этапе использования уже можно использовать в качестве основы для оценки потребностей в рамках следующей задачи анализа информации. Таким образом, цикл процесса анализа информации завершается.
Определение этапов принятия решений в бизнес-процессах, которые требуют проведения аналитических исследований рынка
Термин «анализ информации для этапа принятия решения» приобретает все большую популярность, поскольку компании, в которых уже действует программа анализа информации, начали рассматривать различные варианты более эффективной интеграции этих программ в процессы принятия решений. Насколько абстрактными, или наоборот конкретными, будут меры по «улучшению связи между конечными результатами анализа информации и бизнес-процессами», в значительной степени будет зависеть от того, были ли данные бизнес-процессы определены формально, а также от того, есть ли у группы по анализу информации понимание конкретных информационных потребностей, связанных с этапами принятия решений в рамках этих процессов.
Как мы упоминали в главе 1, методы и способы, которые обсуждаются в этой книге, оптимально подходят для компаний, у которых уже имеются структурированные бизнес-процессы, например процесс выработки стратегии. Компаниям, управление которыми не так четко структурировано, возможно, придется проявить некоторую креативность при использовании подходов методики проведения анализа рынка международного уровня с учетом действующих у них схем управления. Тем не менее, основные принципы, которые мы здесь рассматриваем, подойдут для любой компании.
Оценка потребностей в анализе информации: почему это так важно?
С учетом того, что понимание ключевых требований к анализу информации в самом начале этого процесса оказывает более сильное влияние на качество конечных результатов, чем какой бы то ни было этап данного процесса, поразительно, что этапу оценки потребностей нередко уделяется слишком мало внимания. Несмотря на потенциальную ограниченность ресурсов на других этапах процесса анализа информации, одно лишь пристальное внимание к оценке потребностей во многих случаях позволило бы существенно повысить ценность и применимость конечных результатов данного процесса, оправдывая таким образом затраты времени и ресурсов на выполнение задачи по анализу информации. Ниже мы рассмотрим конкретные способы улучшения качества оценки потребностей.
Нередко автоматически считается, что руководство знает, какая информация нужна компании. Однако на самом деле высшее руководство, как правило, имеет представление лишь о части информационных потребностей своей организации и даже в этом случае, возможно, находится не в самом лучшем положении, чтобы точно определить, какая информация нужна, не говоря уже о том, где ее можно найти.
В результате постоянно повторяется ситуация, когда для выполнения задач по анализу информации нет ни четко сформулированного представления о проблеме, ни ее бизнес-контекста. Те, кто лучше всего знаком с источниками информации и методами анализа, тратят время на беспорядочную, по всей видимости, обработку данных и не видят картины в целом, а также тех подходов, которые имеют наиболее существенное значение для компании. Неудивительно, что в результате люди, ответственные за принятие решений, получают гораздо больше информации, чем им нужно, что в принципе контрпродуктивно, поскольку вскоре они начинают игнорировать не только бесполезную, но и важную информацию. Им нужен не больший объем информации, а более качественная и точная информация.
В то же время у людей, ответственных за принятие решений, могут быть нереалистичные ожидания по поводу доступности и точности информации, так как перед постановкой задачи они не проконсультировались со специалистами в области анализа информации. Следовательно, в идеале специалисты в области анализа информации и люди, ответственные за принятие решений, должны находиться в постоянном контакте друг с другом и вместе работать над тем, чтобы обе стороны имели одинаковое представление о первоочередных информационных потребностях. Умение управлять этим процессом потребует от аналитиков, работающих в этом направлении, целого ряда навыков:
- Аналитик должен понимать, как выявлять и определять информационные потребности людей, ответственных за принятие решений.
- Аналитик должен развивать навыки эффективного общения, проведения интервью и презентаций.
- В идеале аналитик должен разбираться в психологических типах личности, чтобы учитывать различную направленность людей, ответственных за принятие решений.
- Аналитик должен знать организационную структуру, культуру и среду, а также ключевых опрашиваемых лиц.
- Аналитик должен сохранять объективность.
На начальных этапах внедрения программы анализа информации целевая группа для проведения мероприятий, как правило, ограничена, равно как и конечные результаты, которые дает программа. Аналогичным образом при обработке конечных результатов часто возникают различные затруднения (так называемые «узкие места»): даже простой сбор разрозненных данных из вторичных и первичных источников может потребовать знаний и опыта, которых у компании нет, а после завершения сбора информации может оказаться, что времени и ресурсов для проведения детального анализа собранных данных недостаточно, не говоря уже о подготовке информативных и тщательно проработанных презентаций, которыми могли бы воспользоваться люди, ответственные за принятие решений. Более того, на начальных этапах разработки программы анализа информации практически ни у одной компании нет специальных инструментов хранения и распространения результатов такого анализа. Как правило, в конечном итоге результаты предоставляются целевым группам в виде обычных вложений, пересылаемых по электронной почте.
Сложности выполнения аналитической задачи в рамках цикла анализа информации можно описать, пользуясь стандартным треугольником управления проектом, т. е. необходимо выполнить задачу и выдать результат при трех основных ограничениях: бюджете, сроках и объеме работ. Во многих случаях эти три ограничения конкурируют между собой: в стандартной задаче по анализу информации увеличение объема работ потребует увеличения сроков и бюджета; жесткое ограничение по срокам, вероятно, будет означать увеличение бюджета и одновременное сокращение объема работ, а ограниченный бюджет, скорее всего, означает как ограничение объема работ, так и сокращение сроков на реализацию проекта.
Возникновение в процессе анализа информации «узких мест» обычно приводит к существенным трениям при выполнении исследовательской задачи в рамках цикла анализа информации на начальных этапах разработки программы для такого анализа. Поскольку ресурсы ограничены, в первую очередь следует устранить наиболее критичные «узкие места». Достаточно ли у группы по анализу информации возможностей для его проведения? Необходимо ли дополнительное обучение? Или проблема скорее заключается в том, что аналитикам не хватает ценной информации, с которой можно работать — другими словами, наиболее критичным «узким местом» является сбор информации? А может быть, группе по анализу информации просто не хватает времени, то есть группа не в состоянии своевременно реагировать на срочные запросы?
Повысить эффективность выполнения аналитической задачи в рамках цикла анализа информации можно в двух направлениях. «Производительность» цикла, т. е. тщательность, с которой группа по анализу информации может обрабатывать аналитические задачи на каждом этапе, и скорость ответа на вопрос. На рис. 2 показана разница между этими подходами и в целом различие между задачами по стратегическому анализу и запросами на проведение исследований, требующими оперативного реагирования.
Хотя и тот, и другой подход предполагают прохождение аналитической задачи через все этапы цикла анализа информации, группа по анализу информации, перед которой поставлена задача оперативно провести исследования, будет работать над изучением вторичных и первичных источников параллельно (иногда один телефонный звонок специалисту может дать необходимые ответы на вопросы, поставленные в запросе на проведение исследований). Кроме того, во многих случаях анализ и предоставление информации объединены, например, в кратком обзоре, который аналитик передает руководителю, запросившему данную информацию.
Производительность цикла анализа информации можно повысить, добавив либо внутренние (нанятые), либо внешние (приобретенные) ресурсы там, где они необходимы, что позволит добиться более качественных результатов и расширить возможности по обслуживанию все большего количества групп пользователей в пределах организации.
Тот же принцип применим и к обеспечению быстродействия при реализации последовательности операций, т. е. важно то, насколько быстро срочная задача по проведению исследований проходит через различные этапы цикла. По сложившейся традиции компании преимущественно концентрируются на обеспечении стабильной пропускной способности посредством долгосрочных схем планирования ресурсов и обучения персонала. Однако по мере развития такого специализированного направления, как анализ информации, и повышения доступности глобальных профессиональных ресурсов, привлекаемых со стороны, все большее распространение получают и временные схемы, реализуемые в каждом конкретном случае и обеспечивающие необходимую гибкость.
На рис. 3 показаны два типа итоговых результатов цикла анализа информации, то есть стратегический анализ и исследования, требующие оперативного реагирования (см. график конечных результатов анализа информации). Несмотря на то, что задачи по проведению исследований, требующих оперативного реагирования, обычно связаны с бизнес-процессами, уровень их анализа не очень высок из-за банальной нехватки времени для проведения такого анализа. С другой стороны, задачи по стратегическому анализу, как правило, связаны с высоким уровнем совместного творчества на этапе анализа и предоставления информации, что ставит их практически на вершину треугольника, где осуществляется интерпретация и применение полученной информации.
Отлаженность процесса анализа информации можно наглядно представить в виде графика цикла равномерной толщины (рис. 2), в том смысле, что зрелый процесс анализа информации не имеет «слабых звеньев» или существенных «узких мест» в организации последовательности операций. Такая равномерность требует соответствующего планирования ресурсов на каждом этапе, что, в свою очередь, достигается благодаря многократному прохождению цикла с учетом всех деталей. Например, первоначальную оценку потребностей можно постепенно улучшить благодаря тому, что люди, ответственные за принятие решений и пользующиеся результатами работы, будут замечать недостатки и типичные расхождения на начальном этапе выполнения задач по аналитическим исследованиям рынка. С тем же успехом можно со временем развить сотрудничество между специалистами по поиску информации и аналитиками (если эти две функции разделены) благодаря тому, что вопросы, которые ранее остались незамеченными и были подняты в ходе анализа, передаются специалистам по поиску информации с целью сбора дополнительных данных. Со временем опыт покажет, какие ресурсы нужны для каждого из этих этапов, чтобы добиться оптимальных результатов.
Какие результаты в конечном итоге являются «оптимальными», определяется тем, насколько точно полученная на выходе информация соответствует потребностям людей, ответственных за принятие решений, в рамках бизнес-процессов. И это снова возвращает нас к равномерной толщине цикла анализа информации: процесс анализа информации международного уровня начинается не с оценки потребностей как таковых, а с четкого определения, где и как будет применяться полученная на выходе информация. На самом деле, общение между людьми, ответственными за принятие решений, и специалистами в области анализа информации в рамках всего аналитического процесса международного уровня должно быть постоянным, информативным и направленным в обе стороны.
Один из способов укрепления связей между принятием решений и исследованиями рынка — заключить соглашения об уровне услуг с ключевыми заинтересованными сторонами, которые обслуживает программа аналитических исследований рынка. Согласование необходимого уровня услуг по исследованиям рынка с руководителями высшего звена по стратегическому планированию, продажам, маркетингу и НИОКР позволит четко определить конечные результаты проведения таких аналитических исследований и мероприятия по каждой группе заинтересованных лиц на ближайшие 6–12 месяцев, в том числе бюджет на исследования рынка, задействованных лиц, основные этапы и взаимодействие на протяжении всего процесса.
Заключение соглашений об уровне услуг имеет ряд преимуществ:
- Необходимо время, чтобы сесть и обсудить основные цели и этапы принятия решений по ответственным за ключевые бизнес-процессы = группа по исследованиям рынка получает более полное представление о том, что важно для руководства, и вместе с тем улучшает личные отношения.
- Уменьшается риск непредвиденной избыточной нагрузки по специальным проектам, благодаря выявлению направлений для регулярного пересмотра, стратегического анализа информации и т. д.
- Появляется время для совместного творчества в процессе анализа информации: нередко совещания и семинары по аналитическим исследованиям рынка с участием постоянно занятых руководителей нужно планировать за несколько месяцев.
- Благодаря четкой постановке целей и оценке результатов упорядочиваются мероприятия по исследованиям рынка, повышается уровень аналитики.
- В целом уменьшается замкнутость организации и так называемое «варение в собственном соку», сотрудничество между руководителями и специалистами по аналитическим исследованиям рынка становится более плодотворным.
Приведенные в конце два примера наглядно показывают, как благодаря налаженному процессу анализа информации аналитическая группа может реагировать на различные требования, содержащиеся в задаче по анализу информации, в зависимости от географического региона, который анализируется в рамках этой задачи. В «западном мире» из вторичных источников можно получить большое количество достоверной информации практически по любой теме. Благодаря этому задача специалистов в области анализа информации сводится к поискам наилучших источников для эффективного с точки зрения затрат сбора информации с целью ее последующего анализа и предоставления отчетов.
С другой стороны, на развивающихся рынках часто наблюдается нехватка надежных вторичных источников или же отсутствие необходимых данных на английском языке. Следовательно, специалистам в области анализа информации нужно быстро обратиться к первичным источникам и провести интервью, как правило, на языке данной страны. В этой ситуации важно полагаться на достаточно большое количество источников, чтобы оценить правильность результатов исследований, прежде чем перейти к их анализу.
Компании, работающей в химической отрасли, потребовался большой объем информации о существовавших ранее, современных и будущих бизнес-циклах по нескольким направлениям производства товаров химической промышленности на рынке Северной Америки. Данную информацию предполагалось использовать для оценки будущего роста по определенным направлениям производства химической продукции, а также для планирования развития бизнеса на основе понимания бизнес-циклов в отрасли.
Анализ проводился с использованием статистических методов, в том числе регрессионного и визуального анализа. Анализ бизнес-циклов проходил как в количественном, так и в качественном отношении, с учетом мнений отраслевых экспертов о долгосрочном росте. При выполнении задачи использовались исключительно вторичные источники информации, а для проведения анализа — статистические методы, в том числе регрессионный и визуальный анализ. В результате был представлен подробный аналитический отчет с описанием длительности и характера бизнес-циклов, а также оценкой перспектив на будущее для ключевых направлений производства продукции компании (этилен, полиэтилен, стирол, аммиак и бутилкаучук).
Пример. Оценка рынка гидродифторида аммония и фтористоводородной кислоты в России и СНГ
Перед одним из крупнейших в мире ядерных центров стояла задача по изучению рынка для этих двух побочных продуктов его производства, а именно гидродифторида аммония и фтористоводородной кислоты, в России и СНГ. При недостаточной емкости этого рынка им пришлось бы инвестировать в строительство объектов по утилизации указанных продуктов.
Были проведены исследования вторичных источников как на уровне России и СНГ, так и на глобальном уровне. В связи с узкоспециализированным характером рынка и высоким внутренним потреблением побочных продуктов основной упор делался на исследования первичных источников. При подготовке к последующему анализу были проведены 50 подробных интервью с потенциальными клиентами, конкурентами и специалистами отрасли.
В окончательном отчете была представлена оценка объема рынка без учета внутреннего потребления, анализ сегментов, анализ импорта, анализ цепочки создания стоимости, анализ замещающих технологий и продуктов по каждому промышленному сегменту, прогноз развития рынка, анализ ценообразования и, наконец, оценка потенциальных возможностей рынка в России и СНГ.
Пример. Эффективный процесс анализа информации на основе оценки преобладающих тенденций для представления руководителям в виде отчетов
Ведущая энергетическая и нефтехимическая компания успешно усовершенствовала процесс анализа информации, приняв за основу анализ стратегических сценариев для сбора, анализа и предоставления информации.
Благодаря интеграции мероприятий по анализу информации в ключевые бизнес-процессы на этапе планирования, удалось четко определить истинные стратегические потребности организации и довести их до аналитической группы, которая, соответственно, сумела организовать процесс анализа таким образом, чтобы основное внимание уделялось стратегии и действиям. Процесс анализа информации в компании начинается с изучения преобладающих тенденций и заканчивается наглядными примерами реагирования на риски с рекомендациями для руководства.
Ключом к повышению эффективности программы анализа информации стала успешная оценка потребностей с точки зрения стратегических целей компании. При этом ответственные за принятие решений люди участвовали в процессе анализа информации уже на начальном этапе (обсуждения, совещания, семинары). Это способствовало налаживанию двустороннего диалога и более полной интеграции программы анализа информации в другие направления деятельности компании.
Пример. Глобальная биотехнологическая компания разработала цикл анализа информации для своевременного предоставления аналитических данных и упреждающего принятия решений.
Цель программы анализа информации заключалась в предоставлении информации с целью заблаговременного оповещения и предупреждения, что позволило бы ввести в действие реализуемые и выполнимые стратегии на всех рынках, где работает компания. Был введен в действие цикл анализа информации, в котором на нескольких этапах были задействованы лица, заинтересованные в анализе информации (как для ввода, так и для вывода информации), а также многочисленные источники информации.
Лица, заинтересованные в анализе информации, представляли четыре ключевые функции в компании (группа по стратегии, маркетинг и продажи, финансы, связи с инвесторами и директора). Наиболее активная деятельность велась на этапах планирования и реализации. Успешное внедрение цикла анализа информации, объединившего внутренние заинтересованные стороны (для оценки потребностей) и многочисленные источники информации в рамках четко определенного процесса предоставления результатов анализа, означало, что реализованная аналитическая программа оказала определенное влияние на разработку стратегии и упреждающее принятие решений.
источник
После сбора качественных данных исследователю рынка обычно приходится сталкиваться с большим количеством данных, которые необходимо проанализировать и интерпретировать для конечных пользователей исследований рынка. Здесь обсуждаются три подхода к анализу качественных данных.
В этом методе анализа качественных данных исследования собранная информация сводится к таблице в соответствии с результатами для разных переменных в наборе данных.
Это обеспечивает полную картину данных и помогает в процессе идентификации шаблонов.
Общим способом отображения данных для облегчения анализа является использование частотного распределения, которое является организованной таблицей количества ответов или оценок в соответствии с каждой категорией переменных. Табуляция обеспечивает структурированный способ определения точности данных, выявления выбросов данных, оценки распространения баллов или ответов и соблюдения категориальной частоты.
Когда контент-анализ рассматривается как количественный метод анализа, он обеспечивает способ систематического и объективного анализа медиаконтента. Эта версия анализа контента использовала стандартизированные измерения для кодирования, характеризации и сравнения текстов.
Когда к анализу контента берется качественный подход, основное внимание уделяется анализу как явного, так и явного содержания текста, а также интерпретации скрытого смысла текстов, которые могут быть интерполированы из текста, но это явно не говорится в нем.
Акцент анализа контента — это кодирование данных, что может объяснить основное ограничение этого подхода — его невозможность обеспечить богатое понимание значений текстов
This метод анализа качественных данных представляет собой структурированный итеративный процесс, в ходе которого исследователи сравнивают каждый новый бит данных с данными, которые уже были рассмотрены в исследовании.
- Открытое кодирование: Каждый бит данных кодируется, а затем присваивается соответствующей категории темы или отбрасывается, если не наблюдается никакой релевантности. Это кодирование происходит в соответствии с тем, как бит данных сравнивается с накопленным телом анализируемых данных.
- Осевое кодирование: Когда анализируются биты данных, появятся новые общие категории тем. После того, как все данные были закодированы и присвоены категориям тем, исследователь исследует категории для новых тем. Теоретическое насыщение происходит, когда новые данные не появляются из рассмотренных данных.
- Селективное кодирование: На этом последнем этапе кодирования категории тем и категориальные взаимосвязи используются для создания сюжетной линии, в которой рассказывается или объясняется явление, которое является фокусом исследования.
Ключом к успешному анализу качественных данных является понимание того, когда следует использовать метод анализа, и когда лучше выбрать другой подход к анализу данных.
Количественный анализ данных: Количественный анализ данных с использованием интервальных данных, которые являются непрерывными, которые имеют логический порядок со стандартизованными различиями между значениями, но не имеют естественного нуля. Элементы в шкале Ликерта являются хорошим примером интервальных данных.
Анализ качественного контента: В исследованиях в области здравоохранения тексты, подходящие для анализа контента, включают заявки на гранты, опубликованные рукописи, протоколы заседаний, протоколы бесед, медицинские встречи, интервью и фокус-группы. Соответствующие тексты для анализа в области здравоохранения также включают сообщения, передаваемые в массы через газеты, журналы, радио, телевидение и Интернет.
Метод сравнения констант: Постоянный сравнительный метод анализа данных может использоваться со структурированными ответами, такими как закрытые вопросы обследований или неструктурированные ответы, например, полученные, когда участники опроса отвечают на открытые позиции на анкета. Тем не менее, постоянный процесс сравнительного анализа данных, пожалуй, наиболее полезен при использовании с обширными учетными записями, которые состоят из неструктурированных данных, таких как стенограммы интервью.
Способ представления результатов анализа или результатов анализа может сделать разницу между исследованием, которое используется, и исследованиями, которые помещаются на полку. Эмпирическое правило заключается в том, чтобы представить данные таким образом, чтобы они были понятны и пригодны для наименее искушенных людей, которые получат результаты анализа данных.
- Количественный анализ данных: Данные часто отображаются в виде, который конденсирует данные из сконфигурированной частоты и процентных распределений.
- Качественный анализ содержимого: Данные могут быть представлены в таблицах и матрицах. Это полезно, особенно когда цитаты используются для формулирования результатов путем переплетения. Это означает, что уточнение анализа может произойти, даже если рукопись все еще написана в окончательной форме.
- Сравнительный метод констант . Представление результатов в процессе постоянного сравнительного анализа данных сосредоточено на выявлении тем, которые возникли из данных. Хотя визуальные отображения данных могут быть использованы, результаты обычно привязаны к конкретным выдержкам из набора данных, которые явно иллюстрируют темы. Эти выдержки включаются в повествовательное обсуждение раздела результатов исследовательской рукописи и / или статьи.
Выбор метода анализа данных для данных, которые были собраны, а также для исследовательских вопросов и конечных результатов цели в более глубоком понимании, которое можно использовать с
- Количественный анализ данных > подходит для закрытых вопросов в опросах. Качественный анализ контента
- подходит для ответов на данные опроса. Постоянный сравнительный анализ
- подходит для открытых вопросов в опросах и ответах на интервью. Источники
Glaser, B. G. & Strauss, A. L. (1967). Открытие обоснованной теории: стратегии качественных исследований. Нью-Йорк: Олдин Де Грюйтер.
Graneheim, U. H. & Lundman, B. (2004). Качественный анализ содержания в исследованиях сестринского дела: концепции, процедуры и меры по достижению достоверности.
Образование медсестры сегодня, 24 , 105-112. Рубин, Х. Дж. И Рубин, И. С. (2004). Качественное интервью: искусство слышать данные (2-е изд.). Thousand Oaks, CA: Sage Publications.
Strauss, A. & Corbin, J. (1990). Основы качественного исследования: Методы и методы обоснованной теории. Ньюбери Парк, Калифорния: Мудрец Публикации.
Уоррен, C. A. B. & Karner, T. X. (2005). Обнаружение качественных методов: полевые исследования, интервью и анализ. Лос-Анджелес, Калифорния: Издательская компания Roxbury.
источник
Где и для чего применяют анализ данных? Наш ответ – везде. Ниже перечислены лишь несколько несколько направлений, где можно использовать анализ данных (примеры смотрите ниже):
- Оценка покупательских предпочтений
- Анализ остатков товаров на складах
- Выявление наиболее и наименее продаваемых товаров
- Оценка динамики продаж
- Сравнение объемов продаж по контрагентам
- Пути пользователей по сайту
- Брошенные корзины – причина
- Качественные рассылки
- Качественная настройка платной рекламы
- A/B тестирования
- Анализ затрат на корпоративные мероприятия
- Успешность мероприятий
- Срез зарплат и сотрудников
- Количество отработанных часов на менеджера
- Эффективность работников
Давайте рассмотрим дашборд, разработанный в программе Tableau. Это несколько графиков, отражающих текущую ситуацию в контекстной рекламе компании:
- Общие затраты за период
- Количество кликов
- Количество конверсий
- Затраты на конверсию
- Отдельный график по каждой кампании: затраты, конверсии
- Отдельный график по эффективности каждой из кампаний
В чем плюс такой визуализации данных? Огромный объем информации уместился на одном листе! При таком представлении информации удобно отслеживать эффективные и неэффективные кампании, делать выводы, отключать.
И главное – эти графики интерактивные: можно кликнуть на любой показатель, на любой круг – и погрузиться на нижний уровень (увидеть все данные по конкретной кампании).
В табличной форме такой отчет занял бы несколько сотен строк и это были бы только цифры. Менеджеру нужно не только прочитать информацию, но и проделать определенный пул работ, чтобы привести к удобному для анализа виду: сортировка, фильтры, формулы… У сотрудника в этом случае уходят часы на выявление убыточных кампаний. При использовании визуализации – пару секунд.
Применяя продукт для визуализации отчетов, вы делаете серьезную аналитику простой и доступной – для себя, для своей компании, для других сотрудников. А еще такими отчетами можно делиться онлайн (интерактивность при этом будет сохраняться ?
Конечно, чтобы получить на выходе вот такой отчет (которым вы потом будете пользоваться годами, при необходимости вносить изменения), нужно предварительно провести определенную работу. Но эта работа будет разовой, а не ежедневной или еженедельно: раз настроив отчет, вы сможете использовать его … вечно.
В первую очередь, у вас должны быть источники данных для анализа. Обычно, ни у одной из компаний с этим не возникает проблем: практически у каждой есть Google Analytics, установлены колл-трекинговые системы, привязаны различные CRM. Если говорить о продукте Tableau, то смело заявляем, что Tableau легко подключается ко всем популярным источникам данных (счетчики, колл-трекинг, CRM).
Ваша задача выбрать правильный источник для анализа и оценки данных. Откуда брать данные? Как их собрать?
- Из различных учетных систем (счетчики, колл-трекинг, CRM). Это самый простой способ – в любой учетной системе есть возможность выгрузки информации в определенном формате.
- Использовать косвенные данные. Допустим, у вас есть задача определить уровень финансового благосостояния жителей какого-нибудь региона. Прямых исследований не проводилось, но можно провести оценку косвенных данных: получить отчет о продаже товаров одинаковой функциональности, но отличающихся по цене. В результате анализа узнаем, доля какого товара в продажах выше: если товара с низкой ценой, то уровень финансовой обеспеченности жителей невысок.
- Можно использовать открытые источники: различные государственные сайты со статистическими отчетами, корпоративные отчеты, результаты маркетинговых исследований от различных компаний (их тоже часто выкладывают в открытый доступ).
- Проведите собственное маркетинговое исследование и соберите необходимые данные (если позволяет бюджет).
После сбора данных начинается непосредственно анализ и оценка этих данных. При этом анализ и оценка данных возможны только в том случае, если данные уже приведены к единому формату (например, Excel или файл для любой базы данных). Относиться к этапу сбора и унификации данных нужно достаточно серьезно: правильность данных – залог точного и успешного анализа, на основе которого вы сможете сделать выводы и принять судьбоносные решения.
В случае, если на этапе сбора информации вы понимаете, что данные нужно исправлять, но их объем таков, что вручную это сделать невозможно, и для этой ситуации есть решение: программный продукт Alteryx используется как раз в таких сложных случаях. Подробнее почитайте про продукт здесь.
О том, как мы помогаем компаниям и предприятиям анализировать данные, читайте в нашем Блоге, раздел Практика.
Анализируйте ваши данные быстро, легко и красиво!
Если у вас появились вопросы, напишите или позвоните нам. Мы любим отвечать на вопросы и знаем все про анализ данных и программные решения:
— напишите нам
— позвоните нам +7 499 391-2984
источник
В задачах машинного обучения качество моделей очень сильно зависит от данных.
Но сами данные в реальных задачах редко бывают идеальными. Как правило, самих данных не много, количество доступных для анализа параметров ограничено, в данных шумы и пропуски. Но решать задачу как-то нужно.
Я хочу поделиться практическим опытом успешного решения задач машинного обучения. И дать простой набор шагов, позволяющих выжать из данных максимум.
Решение задач анализа данных состоит из двух больших этапов:
- Подготовка данных.
- Построение на подготовленных данных моделей.
На практике, качество итоговых моделей намного сильнее зависит от качества подготовленных данных, чем от выбора самой модели и её оптимизации.
Например, XGBoost может дать улучшение качества модели порядка 5% по сравнению со случайным лесом, нейронная сеть до 3% по сравнению с XGBoost. Оптимизации, регуляризация и подбор гиперпараметров может ещё добавить 1-5%.
Но просто добавив информационные признаки, извлечённые из тех же данных, которые уже есть, можно сразу получить до 15% прироста качества модели.
Извлечение фич – это расширение пространства информационных признаков новыми данными, которые могут быть полезны для повышения качества модели, но которые модель не может извлечь сама.
Современные алгоритмы машинного обучения, такие как нейронные сети, умеют самостоятельно находить нелинейные закономерности в данных. Но для того чтобы это произошло, данных должно быть много. Иногда очень много. Так бывает не всегда. И тогда мы можем помочь нашей модели.
В своей работе я придерживаюсь следующих основных принципов:
1. найти все возможные характеристики описываемых моделью объектов;
2. не делать предположения о важности извлекаемых из данных параметров;
3. извлекаемые параметры должны быть осмыслены.
Расскажу о каждом пункте подробнее
Данные, на которых мы обучаем модель – это объекты реального мира. Изначально мы не располагаем векторами и тензорами. Всё что у нас есть – это какое-то сложное описание каждого объекта в выборке. Это могут быть, например, номер телефона, цвет упаковки, рост и даже запах.
Для нас важно всё. И из каждого из этих сложных признаков можно извлечь цифровую информацию.
Мы извлекаем всю цифровую информацию, которая может как-то охарактеризовать каждый аспект нашего объекта.
Когда-то такой подход считался плохой практикой. Линейные модели не могли работать с коррелирующими параметрами, так как это приводило к плохой обусловленности матриц, неограниченному росту весов. Сегодня проблема мультиколлинеарности практически исчерпана за счёт использования продвинутых алгоритмов и методов регуляризации. Если у вас есть рост и вес человека – берите оба эти параметра. Да, они коррелируют, но мультиколлинеарность – в прошлом. Просто используйте современные алгоритмы и регуляризацию.
Итак, рассмотрите каждый аспект вашего объекта и найдите все числовые характеристики. В конце ещё раз посмотрите и подумайте. Не упустили ли вы чего-то.
Предположим, вы располагаете номерами телефонов. Казалось бы, бесполезная информация. Но по номеру телефона можно много чего сказать. Можно узнать регион владельца номера, к какому оператору номер относится, частота оператора в регионе, относительный объём оператора и много чего ещё. Зная регион, можно добавить много параметров, характеризующих его в зависимости от решаемой вами задачи.
Если у вас есть информация об упаковке, то вы знаете её геометрические размеры. К геометрическим характеристикам относятся не только высота, ширина и глубина, но и их отношения – они тоже описывают габариты. Материал упаковки, разнообразие цветов, их яркость и много-много чего ещё.
Исследуйте диапазоны изменяемых значений каждого извлечённого признака. В некоторых случаях, например, логарифм параметра будет работать гараздо лучше самого параметра. Поскольку логарифм – характеристика порядка. Если у вас большие разбросы в диапазоне значений, обязательно логарифмируйте параметры.
Если у вас есть периодичность в параметрах, используйте тригонометрические функции. Они могут дать очень богатый набор дополнительных признаков. Например, когда одной из характеристик вашего объекта являются замкнутые кривые, использование тригонометрических функций обязательно.
Используйте внешние источники. Единственным ограничением в использовании внешних источников должна быть стоимость их извлечения относительно бюджета решаемой задачи.
Не делайте предположения о важности извлекаемых из данных параметров.
Какой бы экспертизой в предметной области мы не обладали, мы не знаем всех статистических закономерностей. Я не перестаю удивляться как иногда, казалось бы, не важные на первый взгляд вещи улучшают качество модели и выходят в топ features importance. В конечном итоге у вас будет много признаков, которые вообще не работают. Но вы не знаете заранее, какие хитрые сочетания не важных, на первый взгляд, параметров сработают хорошо.
Признаки, которые вы извлечёте, как правило, не будут работать по одиночке. И вы не найдёте корреляции с целевой переменной каждого параметра по отдельности. Но вместе они работать будут.
Ну и наконец, не засоряйте пространство информационных признаков бессмысленными фичами. Это кажется противоречащим написанному выше, но есть нюанс – здравый смысл.
Если информация хоть как-то описывает объект – она полезна. Если вы просто взяли и попарно перемножили все фичи, то, скорее всего, никакого смысла вы не добавили, но возвели в квадрат размерность признакового пространства.
Иногда можно встретить совет попарно перемножать фичи. И это действительно может сработать, если у вас линейная модель. Таким образом вы добавите нелинейность и улучшите разделимость признакового пространства. Но современные алгоритмы, в особенности нейронные сети не нуждаются в таком искусственном и неосмысленном добавлении нелинейности.
Впрочем, если вы обладаете достаточным запасом вычислительной мощности, можете так сделать и проверить сами.
Если у вас есть большой набор не размеченных данных и небольшой размеченных, можно добавить фич используя обучение без учителя. Автокодировщики работают хорошо.
Когда данные собраны, нужно навести в них порядок.
Может так получиться, что некоторые компоненты вашего признакового пространства будут постоянны или обладать очень малой вариативностью, не имеющей статистической значимости. Выкидывайте их без сожаления.
Проверьте взаимные корреляции. Мы ставим порог по абсолютному значению взаимных корреляций 0.999. В ваших задачах он может быть другой. Но некоторые признаки могут просто линейно выражаться друг через друга. В этом случае нужно оставить только один. В случае прямой линейной зависимости смысла оставлять оба параметра из коррелирующей пары нет. Отмечу, что просто к функциональной зависимости это не относится.
И наконец, посчитайте features importance. Делать это нужно по двум причинам.
Во-первых, откровенно слабые информационные признаки могут непродуктивно нагружать ваши вычислительные ресурсы, не привнося полезной информации.
Во-вторых, вам нужно найти самые важные признаки и проанализировать их.
Удалять информационные признаки не обязательно. Сейчас есть достаточно хорошие методы обучения высокомерных моделей. Ценой будет время вычисления.
А вот самые важные признаки нужно пристально рассмотреть. На самом деле, протащить целевую переменную в пространство признаков намного проще, чем кажется на первый взгляд. Особенно, если происхождение данных не контролируется вами полностью.
Если вы видите такую картинку на вашей диаграмме важности признаков,
то это может быть не поводом для радости, а поводом для полного исключения фичи из пространства признаков.
Извлекайте все данные которые можно извлечь, но руководствуйтесь здравым смыслом.
Не пытайтесь включать эксперта, преждевременно удаляя признаки.
Используйте функциональные выражения от ваших информационных признаков, если они оправданы.
Удаляйте статистически не значимые переменные и переменные сильно коррелирующие с другими.
Сделайте диаграмму важности признаков. Возможно удалите самые не важные.
Изучите самые важные.
Если самые важные сильно выделяются на фоне остальных, изучите их особо пристально. Постройте графики распределений. Попытайтесь понять, почему они влияют так сильно. Подумайте над их удалением.
Если у вас есть возможность проверить вашу модель не только на тестовых, но и на реальных данных. Проверьте её сначала исключив подозрительно важные параметры, а затем включив их. И сравните результаты.
Приведённые здесь рекомендации зависят от того, какой алгоритм используется для построения модели. Я обычно использую нейронные сети. Эти рекомендации точно не подойдут вам, если вы используете логистические и линейные регрессии.
В статье не затронута обширная тема сбора данных. Старайтесь понять, как собирались данные для анализа. В особенности, уделите внимание формированию целевой переменной.
Объём статьи не позволяет затронуть все аспекты, но я постарался изложить основные моменты.
Большинство публикаций по машинному обучению ориентированы на описание алгоритмов. Но сбор и подготовка данных – это 95% работы по построению модели. Надеюсь, моя заметка поможет вам пореже наступать на грабли.
А какие методы улучшения качества моделей используете вы?
Автор — Валерий Дмитриев rotor
Спасибо MikeKosulin за правки 🙂
источник