Главная страница Новости мира Новости кинофильмов Игровые новости Новости спорта Новости технологий Автомобильные новости Новости науки Финансовые новости Новости культуры Новости общества

Извлечение функций O*NET из корпуса NLx для создания общедоступных агрегированных данных о рынке труда

Новости

Авторы:
Стивен Майзенбахер, Мюнхенский технический университет
Светлозар Несторов, Чикагский университет Лойолы
Питер Норландер, Чикагский университет Лойолы

Аннотация:

Данные из онлайн-объявлений о вакансиях труднодоступны и являются не построен стандартным или прозрачным образом. Данные, включенные в стандартную базу данных таксономии и профессиональной информации (O*NET), обновляются нечасто и основаны на выборках из небольших опросов. Мы используем O*NET в качестве основы для создания инструментов обработки естественного языка, которые извлекают структурированную информацию из объявлений о вакансиях. Мы публикуем Job Ad Analysis Toolkit (JAAT), набор инструментов с открытым исходным кодом, созданных специально для этой цели, и демонстрируем их надежность и точность при тестировании на выборочной основе и на уровне магистра права. Мы извлекаем более 10 миллиардов данных из более чем 155 миллионов онлайн-объявлений о вакансиях, предоставленных исследовательским центром Национальной биржи труда (NLx), включая задания O*NET, коды профессий, инструменты и технологии, а также заработную плату, навыки, отрасль и другие характеристики. Мы описываем создание набора данных о профессиях, штатах и отраслевых характеристиках, агрегированных по ежемесячным активным вакансиям за период с 2015 по 2025 год. Мы показываем потенциал для исследований и будущего использования в образовании и развитии трудовых ресурсов


Другие новости: