<<
>>

Применение кластерного анализа k-средних при формировании стратегии трудоустройства выпускников

Формирование и внедрение стратегии трудоустройства выпускников позволило бы, в первую очередь, выявлять наиболее весомые, в плане последующего успешного карьерного продвижения, направления в обучении, которым стоит уделять особое внимание при составлении образовательных программ для студентов.

Это особенно актуально в современных условиях, где именно рынок, напрямую или косвенным образом, задает приоритеты в образовании. Еще один положительный эффект от внедрения системы стратегии трудоустройства выпускников в рамках карьерного становления это то, что отслеживание и прогнозирование возможной сферы занятости позволяют постоянно получать, анализировать, обрабатывать актуальную информацию о востребованности выпускников на рынке труда, их конкурентоспособности, отслеживать изменения и тенденции в этой области и на основании полученных результатов делать определенные выводы.

В данном исследовании упор делается на прогнозирование такого параметра как область последующего профессионально-должностного продвижения выпускников, потому, что этот параметр в большей мере позволяет определять соответствие утвержденной образовательной программы существующим ныне внешним запросам к сфере образования и конкретным специальностям в частности.

Положительный практический эффект от внедрения стратегии трудоустройства выпускников это то, что отслеживание и прогнозирование возможной сферы занятости позволяют постоянно получать, анализировать, обрабатывать актуальную информацию о востребованности выпускников на рынке труда, их конкурентоспособности, отслеживать изменения и тенденции в этой области и на основании полученных результатов делать определенные выводы. Как и в большинстве систем формирования стратегий, главой проблемой является выбор эффективного алгоритма прогнозирования карьерного продвижения, когда необходимо учитывать ряд особенностей данных, которыми располагают при проектировании самой

стратегии.

При этом возникает необходимость проведения предварительной подготовки, обработки данных для их последующего использования.

Акцент делается на прогнозирование такого параметра как область трудовой деятельности выпускников, а не каких-либо других, потому, что этот параметр в большей мере позволяет определять соответствие утвержденной образовательной программы существующим ныне внешним запросам к сфере образования и конкретным специальностям в частности .

Целью формирования стратегии является формирования модели карьерного становления и продвижения, способной установить будет ли выпускник трудоустроен или не будет, либо указать на то, что определить это не представляется возможным. При этом учитываются такие параметры: пол, откуда родом, образовательная программа, факультет, довузовская подготовка др. Более чем вероятно, что мониторинг и прогнозирование в сфере распределения трудовых ресурсов проводится отдельными организациями и учебными заведениями, но достаточного количества информации о внедренных у них стратегиях, подходах, методологиях в открытом доступе нет. Потому неизвестно учитываются ли при этом успехи в обучении. Безусловно, имея только подготовленные наборы данных, можно также использовать универсальные средства, инструменты прогнозирования, однако, учитывая специфику исследования, корректнее сравнивать создаваемый прототип системы формирования профессионально - должностного продвижения со специализированными разработками, применяющимися в сфере прогнозирования трудоустройства студентов и выпускников.

Следовательно, появляется вопрос, какие подходы, методы, алгоритмы карьерного становления будут результативны, а их применение рационально при трудоустройстве выпускников. Для этого необходимо окончательно установить формат, структуру данных. Здесь нужно, прежде всего,

157 Ефремова Е.А. Затраты на персонал в системе управления персоналом // Научное знание современности.

- 2017. - № 4 (4). - С. 110-115.

организовать архитектуру стратеги так, чтобы возможности будущего прототипа как можно больше соответствовали заявленным целям и ожиданиям от внедрения таких мероприятий.

И, конечно, уже имея готовое решение в виде стратегии, следует провести сравнение использованных решений в области прогнозирования, анализ каждого из них по отдельности.

Также, принимая во внимание специфику данной работы, которая предполагает наличие определенной научной новизны разработок, планируется адаптация существующего алгоритма построения деревьев принятия решений С 4.5 для определения весов атрибутов из набора входящих данных.

Кратко список задач для формирования стратегии дальнейшего трудоустройства выпускников будет выглядеть следующим образом:

1. Подготовка данных о выпускниках.

2. Выбор методов прогнозирования.

3. Выбор архитектуры, платформ, технологий для разрабатываемой системы.

4. Создание ряда базовых функций, возможностей, необходимых для работы с программным продуктом.

5. Программная реализация прогнозирования сферы трудоустройства.

6. Подготовка и реализация метода определения весов атрибутов из набора данных.

Перед тем как приступить непосредственно к выбору методов прогнозирования, необходимо определить тип, структуру, особенности данных, задействованных в указанной работе.

В качестве источника оценок студентов были взяты дипломы бакалавров, магистров, предоставленные кафедрой «Менеджмент и государственное управление» Среднерусского института управления- филиала «РАНХиГС». При выборе исходных данных зачеты не были учтены,

так как поиск возможных зависимостей предполагает наличие шкалы оценивания.

Для сбора данных о трудоустройстве выпускников был проведен опрос с помощью анкетирования, структура анкеты представлена ниже:

I. Государственное или частное предприятие (организация)?

1. Государственное.

2. Частное.

3. Другое.

3.1. Собственные проекты.

3.2. Фриланс.

3.3. Автономная некоммерческая организация.

3.4. Затрудняюсь ответить.

II. Профессиональная область?

1. Информационные технологии, телекоммуникации.

2. Наука, образование.

3. Производство.

4. Бухгалтерия, финансы.

5. Маркетинг, реклама.

6. Безопасность.

7. Банки, инвестиции.

8. Искусство, развлечения, масс-медиа.

9. Управление персоналом.

10. Добыча сырья.

11. Продажи.

12. Транспорт, логистика.

13. Медицина, фармацевтика.

14. Строительство, недвижимость.

15. Государственная служба, некоммерческие организации.

16. Другое.

III. Трудовой стаж (опыт работы)?

1. Меньше 1 -го года.

2. Более 1 -го года.

3. Более 3-ех лет.

IV. Возникали ли у вас проблемы с трудоустройством?

1. Да.

2. Нет.

3. Затрудняюсь ответить.

V. Соответствует ли работа вашим ожиданиям?

1. Да.

2. Нет.

3. Не совсем.

4. Затрудняюсь ответить.

Помимо вопроса о профессиональной области, в анкете также присутствуют и другие вопросы, ответы на которые могут быть также использованы в будущем при усовершенствовании разрабатываемой системы предсказания или в других исследованиях.

Таким образом, сформированный набор данных для прогнозирования представляет собой четыре входных параметра - оценки по выбранным ключевым направлениям обучения, и один выходной - сфера трудоустройства выпускника в виде номера ответа на вопрос из анкеты. Значения входных параметров находятся в интервальном промежутке от 3 до 5 включительно. Выходной параметр может принимать значения от 1 до 16 включительно, при этом допустимы только натуральные числа или множества натуральных чисел.

Задача кластерного анализа состоит в разбиении исходной совокупности элементов на группы схожих, близких между собой. Такие группы называются кластерами. Кластерный анализ — один из способов классификации объектов по их признакам. Желательно, чтобы результаты классификации имели содержательную интерпретацию.

Методология кластеризации k-средних основана на разделении множества секторов векторного пространства на заблаговременно установленное количество кластеров k. Последовательность действий представляет собой итерационную процедуру, в которой реализуются следующие этапы:

1.

Определяется количество кластеров k.

2. Из выборки данных непроизвольным образом осуществляется определение k наборов значений, которые будут служить первоначальными звеньями кластеров.

3. Для любого комплекта значений из данного диапазона значений устанавливается самый близкий к нему фокус кластера.

4. Определяются центроиды - середины тяжести кластеров. Всякий центроид - это направляющий ориентир, сегменты которого представляют собой средние значения признаков, установленные по всем наборам кластера. Далее центральное значение кластера перемещается в его центроид.

3-й и 4-й этапы последовательно повторяются. С каждой итерацией осуществляется видоизменение диапазонных значений кластеров и передвижение их центров. В итоге становится минимальным расстояние между структурных сегментов внутри кластеров.

Остановка алгоритмического процесса осуществляется тогда, когда пределы кластеров и местоположения центроидов перестанут изменяться от итерации к итерации, то есть на каждой итерации в каждом кластере будут оставаться одни и те же наборы. На практике алгоритм, как правило, находит набор стабильных кластеров за несколько десятков итераций (рисунок 3.3).

Рисунок 3.3 - Пример кластеризации методом k-средних с тремя

158

кластерами

Преимуществом алгоритма являются его быстродействие и простота реализации.

К недостаткам можно отнести неопределенность выбора начальных центров кластеров, а также то, что число кластеров должно быть задано изначально, что может потребовать наличия некоторой дополнительной информации об исходных данных.

Неправильный выбор первоначального числа кластеров k может привести к некорректным результатам. Именно поэтому при использовании метода k-средних важно сначала провести проверку подходящего числа кластеров для данных.

Средством организации хранения данных об оценках и результатах анкетирования была выбрана база данных Oracle.

Создание таблиц, редактирование структуры и их первоначальное наполнение выполнено с помощью Oracle SQL Developer. Соединение с базой данных (JDBC), SQL- запросы к БД, математическая обработка, представление данных были реализованы в JavaFX FXML проекте в среде NetBeans IDE, графический

158Составлено автором.

интерфейс пользователя — в JavaFX Scene Builder с подключением css- документа. Выбор JavaFX обусловлен ориентированностью платформы на разработку приложений с насыщенным графическим интерфейсом , что является важным критерием выбора при разработке десктоп-приложения, в функции которого входят представление, редактирование информации, мониторинг изменений в данных.

Перечень реализованных возможностей продукта:

1. Основные элементы графического интерфейса ПО, отображение обработанных данных в виде таблиц, графиков.

2. Средства добавления в БД и редактирования, удаления уже добавленных данных о выпускниках и их ответах на вопросы анкеты.

3. Функция записи БД в отдельный текстовый файл.

4. Редактируемый список предметов, изученных выпускниками, в файле формата JSON с возможностью быстрого и удобного изменения списка дисциплин и распределения их по общим направлениям.

5. Средства прогнозирования трудоустройства, установления размерности значений из набора входящих значений.

Деревья принятия решений находят свое применение во многих сферах деятельности, однако можно выделить три основных направления их использования:

- хранение данных в компактной форме, что особенно важно в случаях необходимости организации удобного доступа к запрошенной информации и ее последующей визуализации;

-выполнение задач классификации, то есть отнесения объектов к одному из заранее известных классов. При этом выходной параметр должнен иметь дискретные значения;

- если выходной параметр имеет непрерывные значения, деревья решений позволяют установить зависимость его от входных параметров. Например, к этому классу относятся задачи численного прогнозирования.

C4.5 - инструментарий построения деревьев решений,

сформированный Джоном Квинланом. C4.5 является доработанной версией инструментария ID3 этого же автора. В частности, в новую версию были присоединены отсечение ветвей, вероятность работы с числовыми атрибутами, а также возможность построения дерева из неполной обучающей выборки, в которой отсутствуют значения некоторых атрибутов.

К достоинствам алгоритма C4.5 относят:

-построения интуитивно понятных моделей представления информации;

-простота внедрения, хорошо изученный, многократно опробованный инструмент;

-справляется со своими задачами при «зашумленности» данных или отсутствии как таковых отдельных значений атрибутов в выборке.

Недостатки:

-небольшие изменения в данных могут привести к построению совсем других деревьев, чем прежде (когда атрибуты очень близки между собой по своим значениям);

-плохие результаты при работе с выборками данных малого объема. Хотя перечисленные недостатки метода серьезно ограничивают его использование в данном проекте, однако, с учетом возможного последующего увеличения объема выборки данных за счет появления новых выпускников, которые смогли найти работу и ответили на вопросы анкеты, ситуация может в корне измениться.

Но основная причина, по которой C4.5 все же будет применен здесь - его умение работать с отсутствующими значениями атрибутов в выборке.

В классическом примере использования дерева принятия управленческих решений для прогнозирования, в тестовой выборке недостающими значениями являются значения классов - выходных значений. Определим данный индикатор ci, где iотвечает порядковому

номеру совокупности атрибутов aij, а j — количеству атрибутов в каждом из

целых индикаторов ciи aijв выборке могут повторяться. Задача прогнозирования, в данном случае, сводится к классификации таких наборов Aiпри неизвестных значениях ci. Для разделения совокупности индикаторов нужно сперва определить потенциальные значения индикаторов, а также сформировать надлежащие правила систематизации, что и реализовывается с помощью предварительного обучения алгоритма построения деревьев принятия решений на основе данных из обучающей выборки.

При этом воздействие определенных значений отдельных индикаторов aijна определение того или иного значения класса ci неочевидно. Расчет же значений энтропии не всегда позволяет определить влияние на результат классификации отдельных подмножеств параметров из множества Aiвсех доступных параметров.

Структура данных в обучающей выборке представлена ниже:.

На любой итерации осуществляется сравнительный анализ, полученных итогов классификации - значений ciдля одного и того же комплекта атрибутов из тестированной последовательности без отсутствующих значений входящих данных и из тестовой с отсутствующим значением. Если при замене только одного из атрибутов aij∙значение ci отличается от подходящего ему, спланированного ранее в тестовой выборке, то это будет показывать, что показатель, который имеет больший вес в отдельном наборе входных и выходных параметров, установлен. В

диапазонных значениях одного и того же класса с установление основного для него атрибута a jосуществляется с помощью осуществления расчетных операций количества атрибутов, сформированных на одной и той же позиции jв различных наборах i,с наибольшим весом из тех наборов, где итогом предварительной классификации определялось значение установленного класса с. Пропорционально объему установленных на одной и той же позиции jв разных наборах iглавных атрибутов расформируются их веса для любого значения класса c.

При этом может появиться такая ситуация, когда сразу определенное количество показателей в одной и той же совокупности, при замещении их в выборке индикаторами неизвестного значения, приводят изменение итогов классификационного распределения. Или же есть потребность осуществить последующее разделение весов оставшихся показателей. В указанном случае необходимо осуществлять проверку воздействия не каждого атрибута по раздельному признаку, а всех допустимых комбинаций. Расформирование весов атрибутов a jв диапазоне одного значения класса cреализуется при помощи подсчета суммы рассчитанных, как указано выше, весов атрибутов aij, находящихся на одной и той же позиции j, из различных наборов Ai.

Порядок формирования стратегии при карьерном становлении:

1. Обучение C4.5 с обучающей выборкой числовых значений. Все значения индикаторов на входе aijи выходе ciв обучающей выборке установлены.

2. Систематика C4.5 с тестовой выборкой. Установленные индикаторы на выходе ciв тестовой выборке заменены указателями неизвестного значения

3. Определение ключевых показателей - группировка C4.5 с тестовой классификацией с недостающими значениями атрибутов aij. Размерность итераций соответствует объему атрибутов jв комплекте с

учетом входных данных. На всякой итерации один из атрибутов a1 jво любых совокупностях Aiзамещается указателем неизвестного значения - ?| . Сформированные по итогам группировки значения ciсоотносятся с определенными значениями ci. Если при смене только одного из атрибутов aij из набора Aiзначения ciне сошлись, а деформации прочих атрибутов aijне требует изменения итога классификации, то основной атрибут для набора входных и выходных показателей определен. Для установленного значения класса cвеса, установленных на одной и той же позиции jв разнообразных наборах Ai , основных атрибутов a jразделяются соответственно числу указанных наборов.

4. Расформирование весов оставшихся атрибутов с тестовой выборкой с недостающими значениями комбинаций атрибутов α1 j. Расчеты осуществляются раздельно для всякого набора Ai. Объем итераций для всякого набора Aiсоответствует сумме чисел сочетаний C kjбез повторений из j-1атрибутов по k=2...j-1.Причем j-1вместо jприменяется только в случае установленного ключевого показателя aijдля набора Ai. Попеременно осуществляется перебор всех вероятных сочетаний C kjбез повторений показателей aij(кроме основного) из набора Aiс отсылкой на неизвестное значение —?| вместо значений показателей aijв определенных вариациях. Принимаются во внимание только те совокупности C kj, при которых итоговое значение группировки ciнабора Aiне сошелся с итоговым значением. Значение указанного индикатора aijформируется как соотношение ряда таких сочетаний с этим атрибутом к всеобщему размеру сегментов в таких вариациях с созданным атрибутом aij. Для избранного значения класса cвеса атрибутов a jна одной и той же позиции jв различных наборах Aiустанавливается как суммарное определение их весов в этих совокупностях Ai.

Сформированный вектор стратегического развития дает возможность установить основные для выбора того или иного класса элементов, а также разделять веса прочих входящих значений.

В рамках данного исследования представленный метод может быть применен при формировании направлений обучения (из общего списка предметов), когда разные предметы оказывают разное влияние на итоговую оценку по направлению. Определение весов отдельных предметов для каждого из направлений позволит получить более точные значения параметров для дальнейшего прогнозирования (таблица 3.2).

Таблица 3.2 - Обучающая выборка

Экономика Юриспруденция ГМУ Социология Ответы
3.9 3.0 4.0 4.7 a1
5.0 5.0 5.0 5.0 a1-a12
3.7 4.0 4.0 4.5 a1-a2-a11
5.0 5.0 5.0 5.0 a1
4.9 5.0 5.0 5.0 a1-a4
5.0 3.0 4.0 4.5 a1-a12
4.4 3.0 4.0 4.5 a1-a3-a4-a11
5.0 5.0 5.0 5.0 a1-a2
4.5 4.0 5.0 4.0 a1-a7
5.0 4.0 5.0 4.0 a1
4.5 4.0 5.0 4.0 a1
3.8 4.0 3.0 4.5 a1-a5

При разработке прототипа системы предсказания были использованы возможности открытой библиотеки Weka, находящейся в свободном доступе. Weka (Waikato Environment for Knowledge Analysis) - библиотека алгоритмов машинного обучения с открытым исходным кодом для решения задач интеллектуального анализа данных. Представленные в ней алгоритмы могут быть без проблем встроены в существующий код Java. Weka содержит инструменты для предварительной обработки данных, классификации, регрессионного анализа, кластеризации, поиска ассоциативных правил, визуализации. Библиотека также хорошо подходит в качестве основы для разработки новых схем машинного обучения.

Для хранения и обработки данных применяется, специально разработанный для алгоритмов машинного обучения из библиотеки Weka,

формат файлов .arff . Файл ARFF (Attribute-Relation File Format) представляет собой текстовый файл ASCII, который описывает наборы входящих и выходящих атрибутов.

Далее обозначены основные пункты, выполнение которых необходимо для осуществления процесса прогнозирования с помощью алгоритма С4.5.

Создание обучающей выборки. Создание папки с .arff файлом, наполнение файла данными об оценках и трудоустройстве выпускников. Помимо самих наборов данных, файл также содержит заголовок, где перечислены все входящие, выходящие параметры и типы данных. Отличие от выборки для алгоритма С4.5 в том, учитывая специфику метода k-средних, что в этом случае записываются в файл только атрибуты numeric с непрерывными значениями.

Следом за заголовком сначала записываются все наборы оценок тех выпускников, которые ответили на вопросы анкеты. Затем добавляются оценки не ответивших на вопросы анкеты выпускников или любые другие случайные наборы оценок, для которых необходимо провести кластерный анализ.

После того как выборка была сформирована, выполняется кластеризация. Результат анализа данных выводится в виде списка наборов значений атрибутов. Каждому набору ставится в соответствие номер кластера, определенный алгоритмом. Помимо этого, рядом с наборами оценок выпускников, ответивших на вопросы анкеты, указываются номера ответов на вопрос о трудоустройстве. Для каждого кластера отдельно указываются все номера ответов выпускников, оценки которых оказались в выбранном кластере (ответы без повторов), а также те ответы, которые присущи только выбранному кластеру (уникальные ответы).

При этом нужно определить, что для полноценного использования возможностей разработанной системы предсказания нужно увеличивать выборку данных. Этого можно добиться, проводя ежегодное анкетирование выпускников кафедры или даже института.

Изученные выпускниками предметы разбиты на 4 категории, которые являются общими для выпускников, обучавшихся по разным образовательным программам. После выбора направления дисциплин и нажатия на кнопку «Принять» в ячейках таблицы будут отображены данные вида: номер ответа на вопрос - процентное соотношение ответа ко всем остальным. Всплывающие подсказки, содержащие вопросы и ответы, можно вызвать наведением курсора на заголовки столбцов таблицы, а также зафиксировать нажатием на эти заголовки (рисунок 3.4).

Рисунок 3.4 - Окно вывода статистических данных в виде таблиц[159]Переключение между окнами выполняется с помощью трех кнопок, расположенных по центру вверху.

На рисунке 3.5 представлен интерфейс окна вывода статистических данных в виде графиков.

Верхние пять круговых диаграмм отображают все ответы выпускников без учета оценок по направлениям дисциплин.

Нижние графики содержат информацию о средних оценках выпускников по направлениям дисциплин (столбцовые диаграммы), а также информацию о количестве выпускников, обучавшихся по разным образовательным программам (круговые диаграммы).

Для вывода числового значения выбранной части круговой диаграммы необходимо навести на нее курсор.

Рисунок 3.5 - Окно вывода статистических данных в виде графиков160

На рисунке 3.6 представлен интерфейс окна вызова методов

прогнозирования.

В этом окне осуществляется прогнозирование ответов выпускников на вопрос из анкеты с использованием алгоритма C4.5, метода k-средних и установление весов атрибутов с использованием потенциалов алгоритма C4.5. Итог и промежуточные данные формируются в текстовой области под кнопками вызова методов. [160]

Рисунок 3.6 - Окно вызова методов прогнозирования

трудоустройства161

Установленные в ходе исследования данные дали возможность сформировать выборку, которая была применена для формирования алгоритма.

Таблица 3.3 - Обучающая выборка162

Экономика Юриспруденция ГМУ Социология Ответы
3.9 3.0 4.0 4.7 a1
5.0 5.0 5.0 5.0 a1-a12
3.7 4.0 4.0 4.5 a1-a2-a11
5.0 5.0 5.0 5.0 a1
4.9 5.0 5.0 5.0 a1-a4
5.0 3.0 4.0 4.5 a1-a12
4.4 3.0 4.0 4.5 a1-a3-a4-a11
5.0 5.0 5.0 5.0 a1-a2
4.5 4.0 5.0 4.0 a1-a7
5.0 4.0 5.0 4.0 a1
4.5 4.0 5.0 4.0 a1
3.8 4.0 3.0 4.5 a1-a5

[1] Результаты, полученные автором в ходе апробации

[1] Составлено автором.

В таблице 3.3 числовые значения являются оценками выпускников, а значения в последнем столбце - ответы этих же выпускников на вопрос из анкеты. Всего в базе данных 30 записей с оценками студентов, но из них, на данный момент, ответили на вопросы анкеты только 12. Для проверки эффективности внедренного метода выполняется классификация наборов параметров из тестовой выборки. В качестве тестовой выборки используются те же данные, что и в обучающей выборке, однако здесь значения выходящего параметра при прогнозировании не будут приниматься во внимание алгоритмом.

Результат классификации выводится в виде порядкового номера выбранного значения выходного параметра из ряда всех возможных значений. В левом столбце указаны значения в обучающей выборке, в правом - определенные в ходе классификации алгоритмом. Результаты прогнозирования обозначены в таблице 3.4.

Таблица 3.4 - Классификация с данными из таблицы 3.3163

Действительное Спрогнозированное
0 0
5 0
6 0
0 0
2 0
5 0
7 0
1 0
4 0
0 0
0 0
3 0

Как и ожидалось, учитывая особенности представленных данных, алгоритму C4.5 на основе составленной обучающей выборки не удалось сформировать правила классификации и спрогнозировать значения выходного параметра. Из 12 спрогнозированных значений ни одно не совпало с действительным.

С целью убедиться в правильности программной реализации метода, выполним обучение и прогнозирование с меньшим количеством допустимых значений выходного параметра. Такой подход должен существенно облегчить задачу классификации для алгоритма. В обучающей выборке будет только два ответа на вопрос. Новая обучающая выборка представлена в таблице 3.5.

Таблица 3.5 - Обучающая выборка с ограничением на количество

164

ответов[164][165]

Экономика Юриспруденция ГМУ Социология Ответы
3.9 3.0 4.0 4.7 a1-a2
5.0 5.0 5.0 5.0 а1
3.7 4.0 4.0 4.5 а1
5.0 5.0 5.0 5.0 а1
4.9 5.0 5.0 5.0 а1
5.0 3.0 4.0 4.5 a1-a2
4.4 3.0 4.0 4.5 a1-a2
5.0 5.0 5.0 5.0 a1
4.5 4.0 5.0 4.0 a1
5.0 4.0 5.0 4.0 a1-a2
4.5 4.0 5.0 4.0 a1
3.8 4.0 3.0 4.5 a1

Таблица 3.6 - Классификация с данными из таблицы 3.5165

Действительное Спрогнозированное
1 1
0 0
0 0
0 0
0 0
1 1
1 1
0 0
0 0
1 0
0 0
0 0

Результаты прогнозирования с измененными данными в таблице 3.6. В этот раз только 1 спрогнозированное значение из 12 не совпало с действительным.

Таким образом, применение алгоритма в системе предсказания станет возможным при выполнении нескольких условий. Прежде всего, эффективность работы алгоритма можно повысить за счет увеличения объема обучающей выборки, что в свою очередь повлечет за собой изменение распределения значений выходящего параметра среди наборов. Изменится при этом соотношение количества наборов значений в выборке к количеству возможных значений выходящего параметра. Сейчас же в обучающей выборке только 12 наборов оценок, этого мало для 8-ми разных ответов на вопрос из анкеты. Кроме того, при составлении выборок, можно вводить ограничение на количество возможных значений атрибута на выходе, то есть рассматривать по 2-3 значения из 8-ми за один цикл применения алгоритма.

Исходные данные для кластерного анализа в таблице 3.7.

Таблица 3.7 - Данные для кластеризации166

Экономика Юриспруденция ГМУ Социология
3.9 3.0 4.0 4.7
5.0 5.0 5.0 5.0
3.7 4.0 4.0 4.5
5.0 5.0 5.0 5.0
4.9 5.0 5.0 5.0
5.0 3.0 4.0 4.5
4.4 3.0 4.0 4.5
5.0 5.0 5.0 5.0
4.5 4.0 5.0 4.0
5.0 4.0 5.0 4.0
4.5 4.0 5.0 4.0
3.8 4.0 3.0 4.5
5.0 4.0 4.0 4.0

Последний набор оценок в выборке содержит случайные числа, а не реальные оценки выпускника, и добавлен для того, чтобы показать, каким образом происходит применение метода в системе предсказания.

Распределение наборов по кластерам в таблице 3.8.

Таблица 3.8 - Результаты кластеризации167

Экономика Юриспруденция ГМУ Социология № кластера
3.9 3.0 4.0 4.7 2
5.0 5.0 5.0 5.0 3
3.7 4.0 4.0 4.5 1
5.0 5.0 5.0 5.0 3
4.9 5.0 5.0 5.0 3
5.0 3.0 4.0 4.5 2
4.4 3.0 4.0 4.5 2
5.0 5.0 5.0 5.0 3
4.5 4.0 5.0 4.0 3
5.0 4.0 5.0 4.0 3
4.5 4.0 5.0 4.0 3
3.8 4.0 3.0 4.5 1
5.0 4.0 4.0 4.0 3

Помимо этого, указывается информация о выделенных кластерах по отдельности, включая ответы на вопрос из анкеты.

Таблица 3.9 - Кластер №1168

Экономика Юриспруденция ГМУ Социология Ответы
3.7 4 4 4.5 1,2,11
3.8 4 3 4.5 1,5

В таблице 3.9 для кластера №1 ответы без повторов:1,2,11 / 1,5.

Таблица 3.10 - Кластер №2169

Экономика Юриспруденция ГМУ Социология Ответы
3.9 3 4 4.7 1
5 3 4 4.5 1,12
4.4 3 4 4.5 1,3,4,11

В таблице 3.10 для кластера №2 ответы без повторов:1 / 1,12 / 1,3,4,11.

Таблица 3.11 - Кластер №3170

Экономика Юриспруденция ГМУ Социология Ответы
5 5 5 5 1,12
5 5 5 5 1
4.9 5 5 5 1,4
5 5 5 5 1,2
4.5 4 5 4 1,7
5 4 5 4 1
4.5 4 5 4 1
5 4 4 4

167 Составлено автором.

168 Составлено автором.

169 Составлено автором.

170 Составлено автором.

В таблице 3.11 для кластера №3 ответы без повторов: 1 / 1,12 / 1,2 / 1,4 / 1,7.

Уникальные ответы для каждого из кластеров перечислены в таблице 3.12.

Таблица 3.12 - Ответы, которые есть в одном кластере, но нет в

171

других

№ кластера

Уникальные ответы

1 2 3
Множества ответов 1,2,11 1,3,4,11 1,2
1,5 1,4
1,7
Один вариант из множеств 5 3 7

Как видно из приведенного выше примера, для применения метода изначально было задано 3 кластера. Такое количество было выбрано потому, что всех выпускников, принимая во внимание шкалу оценивания для студентов, можно условно поделить по их оценкам на так называемых - троечников, - хорошистов и - отличников. В кластере №0 оказались выпускники с наименьшей оценкой по направлению - экономика. Выпускники с оценкой 3 по направлению - юриспруденция были в кластере №1. Все же - отличники попали в последний кластер. Для каждого кластера были найдены свойственные только тем выпускникам, чьи оценки попали в этот кластер, ответы.

Добавляя новые оценки к уже имеющимся в выборке оценкам ответивших на вопросы анкеты выпускников, можем отслеживать распределение этих наборов оценок по кластерам и получать результаты в виде уникальных ответов в кластере. Однако при добавлении разных значений будут происходить, соответственно, разные распределения наборов по кластерам. Необходимо выдерживать соотношение между наборами так, чтобы подавляющее число наборов содержали оценки ответивших на анкету выпускников. Или, что должно дать более точные результаты, добавлять к

начальным данным в выборке только один набор оценок и с каждым циклом кластерного анализа рассматривать новый набор значений.

Вместе с тем необходимо отметить, что для полноценного использования возможностей разработанной системы предсказания нужно увеличивать выборку данных. Этого можно добиться, проводя ежегодное анкетирование выпускников кафедры или даже института.

В рамках данного исследования представленный метод может быть применен при формировании направлений обучения из общего списка предметов, когда разные предметы оказывают разное влияние на итоговую оценку по направлению. Определение весов отдельных предметов для каждого из направлений позволит получить более точные значения параметров для дальнейшего прогнозирования. Собранные в ходе исследования данные позволили составить выборку, которая была использована для обучения алгоритма.

В рамках данного исследования представленный метод может быть применен при формировании направлений обучения из общего списка предметов, когда разные предметы оказывают разное влияние на итоговую оценку по направлению. Определение весов отдельных предметов для каждого из направлений позволит получить более точные значения параметров для дальнейшего прогнозирования.

<< | >>
Источник: Коргина Ольга Александровна. ФОРМИРОВАНИЕ СТРАТЕГИИ ПРОФЕССИОНАЛЬНО-ДОЛЖНОСТНОГО ПРОДВИЖЕНИЯ УПРАВЛЕНЧЕСКИХ КАДРОВ. Диссертация на соискание ученой степени кандидата экономических наук. Воронеж - 2019. 2019

Еще по теме Применение кластерного анализа k-средних при формировании стратегии трудоустройства выпускников:

  1. 5.2 Формирование стратегии развития Нижнекамской промышленной зоны на основе кластерного подхода
  2. Особенности построения карьерной стратегии и анализ проблем управления профессионально-должностным продвижением
  3. Коргина Ольга Александровна. ФОРМИРОВАНИЕ СТРАТЕГИИ ПРОФЕССИОНАЛЬНО-ДОЛЖНОСТНОГО ПРОДВИЖЕНИЯ УПРАВЛЕНЧЕСКИХ КАДРОВ. Диссертация на соискание ученой степени кандидата экономических наук. Воронеж - 2019, 2019
  4. Сравнительный анализ стратегий американского, китайского и российского профессионально-должностного продвижения управленческих кадров
  5. Результаты анализа формирования структуры капитала на развивающихся рынках капитала
  6. Глава 3. Эмпирический анализ формирования структуры капитала на выборке компаний с развивающихся финансовых рынков
  7. Приложение Ж - Средняя цена 1 кв. м. общей площади квартир на вто­ричном рынке жилья, руб.
  8. Приложение Е - Средняя цена 1 кв. м. общей площади квартир на пер­вичном рынке жилья, руб.
  9. Риски, возникающие при ипотечном кредитовании
  10. Риски при выдаче кредитов юридическим лицам
  11. Риски при выдаче кредитов физическим лицам
  12. Применение метода для оценки характеристик структурированных продуктов
  13. 4 ПРЕДЛАГАЕМАЯ МОДЕЛЬ УПРАВЛЕНИЯ УСТОЙЧИВЫМ РАЗВИТИЕМ ПРОМЫШЛЕННОГО КЛАСТЕРА С УЧЕТОМ РЕАЛИЗАЦИИ СТРАТЕГИИ УМНОЙ СПЕЦИАЛИЗАЦИИ