Dataset for automatic segmentation of personal protective equipment and tools used in underground and major repairs of oil wells



Cite item

Full Text

Abstract

Justification. When working at dangerous production facilities, employees are required to wear personal protective equipment (PPE) and comply with safety measures. Monitoring using computer vision techniques and automated notification of dangerous situations will help to prevent incidents, reduce the negative impact on workers and increase the level of industrial safety. These methods allow you to monitor compliance with standards and minimize the impact of the human factor, but their effectiveness depends on the availability of high-quality data, which emphasizes the need to create specialized datasets. The article presents a dataset for automatic PPE and tools used in hazardous technological operations, as well as during underground and major oil well repairs. The dataset was developed considering real production conditions. Methods of data collection and labeling, training of computer vision models are described, as well as their accuracy and adaptability are analyzed.

Goal. Creation and training of a dataset for the segmentation of PPE and tools using computer vision methods to automatically detect dangerous conditions and improve safety at production sites.

Materials and methods. Video materials from the field were collected and selected to form the dataset. Data labeling was performed using the CVAT tool, and segmentation was accelerated using the Segment Anything Model. The YOLOv8 neural network model was used for training.

Results. The dataset includes 16 classes of objects: process pipes, hydraulic wrench, elevator, people, helmet, glasses, jacket, gloves, pants, boots, as well as negative classes of PPE – helmet-negative, glasses-negative, jacket-negative, gloves-negative, pants-negative, boots-negative, which allows analyze different production conditions.

Conclusion. The created dataset and model are an important step in the development of safety monitoring systems at production sites.

Full Text

Введение

В условиях современного производства вопросы обеспечения производственной безопасности приобретают всё более важное значение, требуя постоянного внимания и внедрения инновационных решений. Одним из ключевых аспектов повышения уровня безопасности труда и предотвращения производственных инцидентов является использование современных технологий, таких как анализ изображений (методы компьютерного зрения) и методы машинного обучения.

Методы компьютерного зрения, основанные на анализе изображений и видеоданных, сталкиваются с рядом технических и методологических трудностей. В условиях реальных производственных площадок изображения часто характеризуются значительным уровнем шума, сложными фоновыми элементами и переменными условиями освещения, что существенно осложняет автоматическое распознавание и классификацию объектов, таких как средства индивидуальной защиты (СИЗ), инструменты, оборудование и т.д. Более того, существующие алгоритмы, как правило, требуют больших объемов высококачественно размеченных данных для обучения, и их способность адаптироваться к различным производственным сценариям остаётся ограниченной.

Одной из ключевых проблем является нехватка качественных и разнообразных данных, которые бы адекватно отражали реальные условия на производственных площадках. Без таких данных затруднительно создавать надежные алгоритмы, способные эффективно функционировать в широком диапазоне ситуаций. Это ограничивает возможности автоматизации мониторинга и раннего предупреждения о потенциальных опасностях, что, в свою очередь, снижает общую эффективность систем безопасности. Таким образом, существует необходимость в разработке специализированных датасетов, охватывающих различные производственные сценарии и содержащих высококачественные аннотации.

Этот датасет служит ценным ресурсом для разработки и тестирования алгоритмов компьютерного зрения, направленных на автоматическое обнаружение потенциально опасных условий и предотвращение несчастных случаев на рабочем месте. Описаны методика сбора данных, особенности создания датасета, а также приведены примеры возможных применений и результаты анализа. Датасет охватывает различные сценарии и ситуации на производственных площадках, что делает его уникальным инструментом для выявления потенциальных опасностей, обучения персонала и разработки эффективных стратегий управления рисками. Вместе с тем предложенный датасет представляет собой лишь начальный шаг в разработке более точных и эффективных систем мониторинга и предотвращения несчастных случаев на производстве. Полученные результаты могут стать основой для создания новых методов и технологий, способствующих повышению безопасности и защиты работников на производственных площадках.

Существующие методы обнаружения СИЗ и инструментов в производственной среде можно условно разделить на методы, основанные на датчиках, и методы, основанные на компьютерном зрении. Методы, использующие датчики, часто применяют технологии позиционирования для мониторинга перемещений работников и контроля использования СИЗ. Kelm A. и другие [1] разработали мобильный портал радиочастотной идентификации (RFID) для автоматизированного контроля соблюдения правил ношения СИЗ. При прохождении работников, оснащённых RFID-метками на СИЗ, через контрольные точки система автоматически регистрирует информацию о соблюдении норм безопасности. Zhang H. и другие [2] интегрировали технологию RFID с Интернетом вещей (IoT), позволяя передавать данные в облако, где они доступны через веб-приложения и мобильные приложения. Однако данный подход требует от работников ношения дополнительных устройств для передачи и получения данных. Сенсорные методы обнаружения шлемов основаны на специализированном оборудовании, которое не подвержено влиянию внешних факторов, таких как погода или освещение. Эти методы обеспечивают стабильную работу и могут применяться на большинстве строительных площадок. Однако подходы, основанные на использовании датчиков, требуют значительных инвестиций в покупку, установку и обслуживание оборудования.

В последние годы активно развиваются исследования по применению методов машинного обучения и компьютерного зрения для повышения безопасности труда на производстве. В этой области создаются специализированные датасеты, содержащие изображения средств индивидуальной защиты. Например, Wang Z. и другие [3] представили набор данных, включающий 1330 изображений и 9209 объектов, относящихся к 6 классам, в то время как Wu J. и другие [4] создали датасет, содержащий 3174 изображения СИЗ, где преобладает класс касок, включающий 18 893 объекта. Vukicevic A.M. [5] и другие исследователи применяли набор данных, состоящий из изображений, взятых из интернета, и общедоступных датасетов СИЗ. Многие из существующих датасетов включают изображения касок, жилетов и людей, что зачастую является недостаточным для полноценного анализа. В отличие от них, в представленном нами датасете содержится 16 классов, которые отражают реальные производственные условия.

 

Материалы и методы

Сбор и обработка данных

Для формирования датасета были использованы видеоматериалы, полученные с месторождения в количестве 300 файлов. Эти видеофайлы подверглись тщательному ручному анализу, в результате которого было отобрано 91 файл, соответствующий критериям качества. При отборе учитывались следующие критерии: отсутствие черного экрана, достаточное освещение, корректный ракурс камеры, наличие активности на сцене и минимальный уровень зашумленности кадров. Для преобразования видеоматериалов в изображения и последующей систематизации данных были созданы соответствующие папки (Рисунок 1). Разметка данных осуществлялась с использованием инструмента CVAT [6] от компании CVAT.AI (Рисунок 2), который был установлен на локальном сервере для повышения удобства и эффективности процесса.

Для ускорения процесса разметки объектов на изображениях в инструмент CVAT [6] была интегрирована универсальная модель предварительной сегментации объектов — Segment Anything Model (SAM) от компании META. Это решение позволило автоматически выделять объекты на изображениях, что значительно упростило и ускорило процесс разметки.

 

Рисунок 1. Инструментарий по разметке CVAT, систематизация данных

Figure1. CVAT markup toolkit, data systematization

 

Рисунок 2. Инструментарий по разметке CVAT

Figure 2. CVAT markup toolkit

Изначально была вручную размечена первая партия изображений, полученных из 10 видео, после чего эти данные использовались для обучения модели YOLOv8 [7]. В дальнейшем изображения проходили предварительную обработку через обученную модель перед загрузкой в CVAT [6] для разметки. Такой подход позволил оптимизировать трудозатраты на разметку данных и повысить эффективность процесса создания и анализа датасета.

В процессе разметки были выделены 16 классов: технологические трубы, гидравлический ключ, элеватор, человек, каска, очки, жакет, перчатки, штаны, ботинки, а также негативные классы СИЗ: каска-негатив, очки-негатив, жакет-негатив, перчатки-негатив, штаны-негатив, ботинки-негатив. Негативные классы предназначены для случаев, когда работник не использует специальную защитную одежду, а надевает обычную одежду.

В таблице 1 приведены данные, отражающие распределение различных объектов по 16 классам. Описание классов, выделенных в процессе разметки датасета, с указанием количества объектов:

  • Технологические трубы – это труба, используемая в нефтегазовой промышленности для подъема нефти и газа на поверхность и эксплуатации скважин. Она служит для спуска и подъема насосного оборудования и транспортировки флюидов в процессе добычи.
  • Гидравлический ключ – это инструмент, используемый в нефтегазовой промышленности для затягивания и откручивания резьбовых соединений труб при бурении и ремонте скважин. Он работает на основе гидравлического привода, что обеспечивает высокую точность и силу при работе с трубами.
  • Элеватор – это подъемное устройство, используемое в нефтегазовой промышленности для захвата, подъема и спуска труб, колонн или других элементов при бурении и ремонте скважин. Элеваторы обеспечивают надежное крепление труб и безопасность операций на буровой площадке.
  • Человек – работники, выполняющие различные операции на месторождении, включая монтаж, обслуживание оборудования, ремонт оборудования и другие технические задачи.
  • Каска – СИЗ, предназначенное для защиты головы работников от травм. Является обязательным элементом защитной экипировки на производстве.
  • Жакет – специальная защитная куртка, являющаяся частью СИЗ и обеспечивающая защиту верхней части тела от внешних воздействий.
  • Штаны – специальные защитные брюки, часть СИЗ, защищающие нижнюю часть тела от механических травм, грязи и химикатов.
  • Очки – защитные очки, используемые для защиты глаз работников от пыли, химических веществ, осколков и других опасностей.
  • Перчатки – защитные перчатки, используемые для защиты рук работников от механических, химических и термических повреждений.
  • Ботинки – защитная обувь, предназначенная для защиты ног работников от производственных рисков, таких как падение тяжелых предметов и острые поверхности.
  • Каска-негатив – негативный класс, обозначающий случаи, когда работник не носит каску, что противоречит требованиям безопасности.
  • Жакет-негатив – негативный класс, фиксирующий ситуации, когда работник не носит защитный жакет, что может представлять риск.
  • Штаны-негатив – негативный класс, указывающий на ситуации, когда работники не носят защитные штаны, что может угрожать их безопасности.
  • Очки-негатив – негативный класс, обозначающий отсутствие защитных очков.
  • Перчатки-негатив – негативный класс, обозначающий случаи, когда работник не использует защитные перчатки в ситуациях, требующих их ношения.
  • Ботинки-негатив – негативный класс, указывающий на отсутствие защитной обуви у работников в ситуациях, где её ношение требуется по стандартам безопасности.

 

Таблица 1. Распределение классов в датасете

Table 1. Distribution of classes in the dataset

Наименование классов/ Name of classes

Количество объектов / Number of objects

Технологические трубы / Casing_pipe

41 370

Гидроключ / Wrench

11 466

Элеватор / Elevator

2 553

Человек / Person

20 299

Каска / PPE_helmet

15 329

Жакет / PPE_jacket

17 858

Штаны / PPE_bib&brace

15 798

Очки / PPE_glasses

261

Перчатки / PPE_gloves

20 701

Ботинки / PPE_boots

24 211

Отсутствие каски / Helmet_negative

59

Отсутствие жакета / Jacket_negative

545

Отсутствие штанов / Bib&brace_negative

115

Отсутствие очков / Glasses_negative

185

Отсутствие перчаток / Gloves_negative

34

Отсутствие ботинок / Boots_negative

106

Итого

170 890

 

Этот набор классов и их количественное распределение охватывают различные аспекты производственной деятельности и соблюдения требований безопасности, что способствует разработке более точных алгоритмов анализа и контроля на производственных площадках. Датасет включает данные, собранные в различных временных промежутках суток и при различных метеорологических условиях, что значительно повышает его информационную ценность. Количество объектов в датасете составляет 89 902 объектов, сделанных в дневное время, и 80 988 объектов, зафиксированных в ночных условиях. На рисунке 3 представлено визуальное распределение объектов по классам.

Небольшое количество объектов негативных классов объясняется тем, что видеоматериалы были собраны в условиях, где соблюдаются строгие стандарты безопасности. Устье месторождения обычно имеет ограниченное число работников и минимальный набор оборудования, необходимого для выполнения операций. В таких условиях вероятность появления нарушений, таких как отсутствие каски или куртки, минимальна, поскольку работники обязаны строго соблюдать требования по ношению СИЗ.

Анализ статистических данных позволяет выявить разнообразие операций и оборудования, присутствующих на устье месторождения, и подчёркивает важность соблюдения стандартов безопасности и использования соответствующих защитных средств работниками в различных рабочих процессах.

 

Рисунок 3. Визуальное распределение классов в датасете

Figure 3. Visual distribution of classes in the dataset

Предложенный датасет предоставляет возможность разрабатывать алгоритмы для анализа соблюдения работниками требований по ношению СИЗ, а также для определения текущих рабочих процессов на основе распознавания таких инструментов, как трубы, гидравлический ключ и элеватор. Кроме того, он может быть использован для выявления потенциально опасных ситуаций на производственных площадках и отслеживания числа опущенных или поднятых труб.

 

Модель сегментации объектов

Сегментация объектов — это метод компьютерного зрения, объединяющий преимущества обнаружения объектов и семантической сегментации [8]. В отличие от других алгоритмов, таких как детекция объектов или классификация изображений, сегментация объектов (экземпляров) направлена на идентификацию каждого отдельного экземпляра на изображении, присваивая каждому пикселю уникальную метку, соответствующую конкретному объекту. Bai M. и другие [9] применили полносвязные сверточные сети (FCN) для моделирования энергии преобразования водораздела, что позволило разделить изображение на несколько областей с использованием энергетической сегментации. Gao N. и соавторы [10] предложили метод сегментации объектов без использования региональных предложений. Вместо этого их подход основан на вычислении аффинности между пикселями, определяя вероятность того, что два пикселя принадлежат одному объекту. Это позволяет сегментировать объекты на изображении за один проход без предварительного выделения областей.

В работе Dai J. и другие [11] разработали модель сегментации экземпляров, основанную на каскадной структуре общих сверточных признаков. Эта модель разбивает процесс сегментации на три подзадачи, что позволяет улучшить точность сегментации. He K. и другие [12] представили Mask R-CNN, которая осуществляет сегментацию экземпляров путем добавления параллельного выхода маски через расширение для Faster R-CNN. В данной работе используется модель YOLOv8 [7], являющаяся усовершенствованной версией оригинального алгоритма YOLO [8].

Одной из причин выбора YOLOv8 является её способность выполнять детектирование объектов в режиме реального времени. Архитектура YOLO изначально была разработана для оптимального баланса между скоростью и точностью, что делает её идеальной для приложений с минимальными задержками, таких как видеонаблюдение, автономные транспортные системы и промышленные решения. В сравнении с методами, такими как Faster R-CNN, YOLOv8 обеспечивает значительно более высокую скорость без значительных потерь в точности.

YOLOv8 включает архитектурные улучшения, такие как адаптивное усиление признаков (adaptive feature fusion) и оптимизированная передача информации (improved feature propagation). Эти нововведения повышают точность обнаружения объектов по сравнению с предыдущими версиями и конкурентными моделями, обеспечивая лучшую производительность в сложных условиях, например, при наличии шумных фонов или малых объектов.

Также YOLOv8 отличается компактностью и может быть эффективно развернута на устройствах с ограниченными вычислительными ресурсами, что особенно важно для промышленных или полевых систем. Более того, YOLOv8 поддерживает не только детектирование, но и сегментацию и классификацию объектов, что делает её универсальной и удобной для многоцелевых задач.

Таким образом, YOLOv8 была выбрана как основная модель для выполнения задач детектирования в данном исследовании благодаря её высокой производительности в реальном времени, точности, гибкости настройки и активной поддержке разработчиков, что делает её оптимальным решением для широкого спектра задач в компьютерном зрении.

 

Результаты и их обсуждение

Для обучения искусственной нейронной сети исходный датасет был разделен на несколько подмножеств, чтобы обеспечить максимально эффективное использование его потенциала. Первоначальный набор данных включал 12 928 изображений, из которых 10 342 были выделены для обучения, а оставшиеся 2 586 – для тестирования и валидации.

Процесс обучения модели включал 300 эпох, обеспечивая достаточное количество итераций для обучения на разнообразных данных и адаптации к различным условиям. Анализ матрицы ошибок, отражающей доли истинных и ложных предсказаний, показал, что модель успешно справляется с задачей классификации. Средняя точность модели составила 86% (Рисунок 4), что свидетельствует о высокой способности к корректному распознаванию объектов на изображениях.

Для более обобщённой оценки точности и полноты использовалась метрика F - мера, или F1-оценка. На рисунке 5 показана зависимость F1 от уровня уверенности модели по ограничивающим прямоугольникам. Значение F1 по ограничивающим прямоугольникам достигает 84% при уровне уверенности 0,271. Аналогично, на рисунке 6 представлена зависимость F1 от уровня уверенности модели для сегментации объектов, где F1-оценка составляет 77% при уровне уверенности 0,268. Эти результаты демонстрируют высокую адаптивность и точность модели в различных условиях и типах предсказаний.

 

Рисунок 4. Матрица ошибок

Figure 4. Confusion matrix

 

Рисунок 5. Кривая F1–Уверенность по ограничивающим прямоугольникам

Figure 5. F1–Confidence curve over bounding rectangles

 

Рисунок 6. Кривая F1–Уверенность по сегментации экземпляров

Figure 6. F1–Confidence curve in instance segmentation

 

Выводы

Созданный датасет для автоматической сегментации СИЗ и инструментов на производственных площадках является ключевым шагом в разработке и тестировании алгоритмов компьютерного зрения. Датасет охватывает 16 классов объектов, что позволяет проводить анализ различных производственных сценариев и условий.

Проведенное обучение модели на основе YOLOv8 показало высокие результаты. Средняя точность предсказаний составила 86%, что подтверждает способность модели эффективно распознавать объекты и классы на изображениях. Модель продемонстрировала способность к анализу и прогнозированию наличия СИЗ и инструментов на производственных площадках. Это важно для разработки систем автоматического мониторинга и контроля безопасности на рабочих местах.

Полученные результаты показывают, что разработанный датасет и обученная модель могут быть основой для создания новых методов и технологий в области компьютерного зрения, направленных на улучшение производственной безопасности.

×

About the authors

Anel N. Alimova

LLP "KazMunaiGas Engineering"

Author for correspondence.
Email: a.alimova@kmge.kz
ORCID iD: 0000-0002-5155-2417

доктор PhD, руководитель сектора Машинного обучения

Kazakhstan

Galymzhan S. Abdimanap

KMG Engineering; Satbayev University

Email: g.abdimanap@kmge.kz
ORCID iD: 0000-0003-1676-4075

Эксперт сектора Компьютерного зрения и перспективных разработок

Kazakhstan, Astana; Almaty

Kairat A. Bostanbekov

KMG Engineering

Email: k.bostanbekov@kmge.kz
ORCID iD: 0000-0003-2869-772X

PhD

Kazakhstan, Astana

B. Kurmetbek

ТОО «КМГ Инжиниринг»

Email: qurmetbek.bekbolat@mail.ru
ORCID iD: 0009-0001-7510-2445

практикант

Kazakhstan, Нур-Султан

Tomiris T. Boltaykhanova

ТОО КазМунайГаз Инжиниринг

Email: tomiris.boltaikhanova@gmail.com
ORCID iD: 0009-0009-9965-7419
Kazakhstan, г. Астана

Daniyar B. Nurseitov

ТОО КазМунайГаз Инжиниринг

Email: d.nurseitov@kmge.kz
ORCID iD: 0000-0003-1073-4254

cand. sc. (physics and mathematics), professor (associate)

Kazakhstan, г. Астана

References

  1. Kelm A., Laußat L., Meins-Becker A., Platz D., Khazaee M.J., Costin A.M., Helmus M., Teizer J. Mobile passive Radio Frequency Identification (RFID) portal for automated and rapid control of Personal Protective Equipment (PPE) on construction sites // Automation in Construction. 2013. Vol. 36. P. 38–52. doi: 10.1016/j.autcon.2013.08.009.
  2. Zhang H., Yan X., Li H., Jin R., Fu F. Real-time alarming, monitoring, and locating for non-hard-hat use in construction // Journal of Construction Engineering and Management. 2019. Vol. 145. P. 1–13. doi: 10.1061/(asce)co.1943-7862.0001629.
  3. Wang Z., Wu Y., Yang L., Thirunavukarasu A., Evison C., Zhao Y. Fast personal protective equipment detection for real construction sites using deep learning approaches // Sensors. 2021. Vol. 21. 3478. 22 р. https://doi.org/10.3390/s21103478.
  4. Wu J., Cai N., Chen W., Wang H., Wang G. Automatic detection of hardhats worn by construction personnel: A deep learning approach and benchmark dataset // Automation in Construction. 2019. Vol. 106. 102894. doi: 10.1016/j.autcon.2019.102894.
  5. Vukicevic A.M., Djapan M., Isailovic V., Milasinovic D., Savkovic M., Milosevic P. Generic compliance of industrial PPE by using deep learning techniques // Safety Science. 2022. Vol. 148. 105646. 8 p. https://doi.org/10.1016/j.ssci.2021.105646.
  6. Sekachev B., Manovich N., Zhiltsov M., Zhavoronkov A., Kalinin D., Hoff B., TOsmanov, Kruchinin D., Zankevich A., Sidnev D., Markelov M., Johannes222, Chenuet M., A-andre, Telenachos, Melnikov A., Kim J., Ilouz L., Glazov N., Priya4607, Tehrani R., Jeong S., Skubriev V., Yonekura S., Truong V., Zliang712, Lizhming, Truong T. Openсv/Cvat: v1.1.0. 2020. Zenodo. https://doi.org/10.5281/zenodo.4009388
  7. Ultralytics // Режим доступа: https://github.com/ultralytics/ultralytics. Дата обращения: 25.09.2024
  8. Redmon J., Divvala S., Girshick R., Farhadi A. You only look once: unified, real-time object detection // IEEE Conference on computer vision and pattern recognition. 2016. P. 779–788. doi: 10.1109/CVPR.2016.91.
  9. Bai M., Urtasun R. Deep watershed transform for instance segmentation // IEEE Conference on computer vision and pattern recognition. 2017. P. 5221–5229. doi: 10.1109/CVPR.2017.305.
  10. Gao N., Shan Y., Yupei W., Zhao X., Yu Y., Yang M., Huang K. SSAP: Single-shot instance segmentation with affinity pyramid // IEEE/CVF International Conference on Computer Vision. 2019. P. 642–651. doi: 10.1109/ICCV.2019.00073.
  11. Dai J., He K., Sun J. Instance-aware semantic segmentation via multi-task network cascades // IEEE Conference on computer vision and pattern recognition. 2016. P. 3150–3158. doi: 10.1109/CVPR.2016.343.
  12. He K., Gkioxari G., Dollar P., Girshick R. Mask R-CNN // IEEE International Conference on computer vision. 2017. P. 2961–2969. doi: 10.1109/ICCV.2017.322.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) Alimova A.N., Abdimanap G.S., Bostanbekov K.A., Kurmetbek B., Boltaykhanova T.T., Nurseitov D.B.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies