Application of artificial intelligence in the oil and gas industry: trend or necessity?

Anar I. Ayaganova; А. I. Аяғанова; Аяганова Анар Изгалиевна; Darkhan Zh. Kurmangaliyev; Д. Ж. Құрманғалиев; Курмангалиев Дархан Жунусканович; Aliya Sh. Abilgaziyeva; Ә. Ш. Әбілғазиева; Абилгазиева Алия Шаймерденовна; Nadezhda K. Dukessova; Н. Қ. Дукесова; Дукесова Надежда Куандыковна

doi:10.54859/kjogi108909

Применение искусственного интеллекта в нефтегазовой отрасли: тренд или необходимость?

Авторы: Аяганова А.И.¹, Курмангалиев Д.Ж.², Абилгазиева А.Ш.¹, Дукесова Н.К.²
Учреждения:
1. Атырауский университет нефти и газа им. Сафи Утебаева
2. КМГ Инжиниринг
Выпуск: Том 8, № 2 (2026)
Страницы: 59-73
Раздел: Цифровые технологии
URL: https://vestnik-ngo.kz/2707-4226/article/view/108909
DOI: https://doi.org/10.54859/kjogi108909
ID: 108909

Цитировать

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Обоснование. В последние десятилетия технологии искусственного интеллекта (далее – ИИ) стремительно внедряются в нефтегазовую отрасль, охватывая ключевые этапы геологоразведки, интерпретации геофизических данных, моделирования пластов и разработки месторождений. Современные методы анализа больших данных, машинного обучения и интеллектуальные системы управления позволяют повысить точность интерпретации геолого-геофизических и каротажных данных, снизить уровень неопределённости при принятии инженерных решений, минимизировать производственные риски и оптимизировать процессы разведки и добычи углеводородов.

Цель. В статье рассмотрены современные направления применения ИИ в нефтегазовой индустрии с акцентом на задачи автоматизированной интерпретации данных геофизических исследований скважин (далее – ГИС), классификации литологического состава пород, реконструкции каротажных кривых и цифровизации геологоразведочных процессов. Проведён анализ мирового опыта внедрения технологий ИИ в области каротажа, обработки и интерпретации геолого-геофизической информации, а также рассмотрены интегрированные программные решения и цифровые платформы ведущих международных нефтесервисных и нефтегазовых компаний.

Материалы и методы. Особое внимание уделено практическому опыту применения методов машинного обучения в ТОО «КМГ Инжиниринг» для автоматизированной классификации литологии по данным ГИС. В рамках исследования были протестированы различные алгоритмы машинного обучения, включая Logistic Regression, Random Forest, XGBoost и другие алгоритмы машинного обучения, на основе данных более 100 скважин. Рассмотрены особенности подготовки и очистки данных, формирования обучающих и тестовых выборок, а также проблемы, связанные с неполнотой, неоднородностью и низким качеством исторических геолого-геофизических данных.

Результаты. Результаты исследования показали, что применение ансамблевых методов и алгоритмов градиентного бустинга позволяет достигать высокой точности классификации литологических типов и эффективно автоматизировать процессы интерпретации каротажных данных. Наилучшие результаты были получены при использовании алгоритма Random Forest, продемонстрировавшего высокую устойчивость и качество прогнозирования в условиях реальных производственных данных. Отдельно рассмотрены вопросы интеграции обученных моделей в корпоративные информационные системы для оперативного прогнозирования литологии и поддержки принятия геолого-технических решений.

Заключение. Сделан вывод о том, что внедрение технологий искусственного интеллекта является одним из ключевых направлений цифровой трансформации нефтегазовой отрасли Казахстана. Использование ИИ позволяет повысить эффективность геологоразведочных работ, ускорить обработку и интерпретацию данных, повысить коэффициент извлечения углеводородов и снизить затраты на разработку месторождений в условиях возрастающей сложности геологического строения и ухудшения качества ресурсной базы.

Ключевые слова

искусственный интеллект, машинное обучение, нефтегазовая отрасль, геофизические исследования скважин, геофизические исследования скважин, каротаж, литология, Random Forest, XGBoost, автоматизированная интерпретация, цифровизация, геологоразведка, нейронные сети, анализ данных, классификация пород

Полный текст

Введение

Нефтегазовая отрасль в современных условиях сталкивается с целым рядом серьёзных вызовов: истощением традиционных месторождений, необходимостью разработки трудноизвлекаемых и труднодоступных залежей, а также высокой неопределённостью геологических данных. В этих условиях применение технологий ИИ перестаёт быть просто отраслевым трендом и становится объективной необходимостью, позволяющей повышать эффективность и рентабельность как разведочных, так и добычных работ.

За последние десять лет распространённость ИИ в нефтегазовой сфере, особенно в области геологии и геофизики, значительно возросла. Это обусловлено тем, что объёмы поступающих данных – геолого-геофизических, данных по разработке и добыче, технологических параметров – ежегодно растут в геометрической прогрессии. Обработка столь масштабных массивов информации традиционными методами требует значительных временных и кадровых ресурсов, что сдерживает оперативность принятия решений и увеличивает издержки. Именно поэтому во всём мире активно внедряются решения на базе ИИ и глубоких нейронных сетей, способные автоматизировать анализ и интерпретацию данных, сокращать сроки получения результатов, повышать точность прогнозов и снижать уровень неопределённости при принятии геолого-технических решений.

Таким образом, интеграция технологий ИИ в ключевые производственные процессы нефтегазовой отрасли уже сегодня выступает одним из важнейших инструментов повышения управляемости и эффективности разработки месторождений в условиях возрастающих технологических и экономических требований.

ИИ в каротаже

В процессе геологоразведки и разработки месторождений накапливается колоссальный объём информации, включая результаты ГИС, зачастую по всей глубине интервалов исследования с шагом 10 см и по множеству кривых: гамма-каротаж (далее – ГК или GR, англ. Gamma Ray), потенциал самопроизвольной поляризации (далее – ПС), нейтронный каротаж, нейтрон-нейтронный каротаж, гамма-гамма каротаж, боковой каротаж (далее – БК) и другие методы. Перед ИИ ставится одна из ключевых задач – прогнозирование литологического состава пород по данным каротажа.

Для реализации данной задачи в обучающие выборки систем ИИ включаются данные о свойствах пород и их классификационные признаки (литологические названия и характеристики). На сегодняшний день существует широкий спектр алгоритмов ИИ, применяемых в специализированном геологическом анализе. Необходимые исходные данные для обучения таких моделей либо уже имеются в распоряжении компаний, либо могут быть получены в рамках текущих исследований.

Отдельное направление применения ИИ связано с восполнением недостающих данных по старым скважинам. Как известно, исторически часть скважин исследовалась ограниченным комплексом методов, что не позволяет в полной мере охарактеризовать геологический разрез. В подобных случаях технологии ИИ используются для восстановления и прогнозирования отсутствующих каротажных кривых и параметров на основе имеющихся данных, что позволяет повысить информативность существующего фонда скважин.

Одним из новых и перспективных направлений внедрения ИИ в геологии является автоматизированное описание кернового материала. С применением технологий компьютерного зрения и глубокого обучения стало возможным проводить первичный анализ фотографий керна с целью оперативного получения информации о текстуре, цвете, трещиноватости и других параметрах пород. Это позволяет существенно ускорить процесс обработки кернового материала и повысить его объективность за счёт минимизации влияния человеческого фактора.

Из-за неоднородности пластов, сложности объектов разведки и разнообразных условий проведения работ необходимо разрабатывать новые методы измерений и сбора данных, в частности, методы передачи параметров из скважины. Внедрение ИИ позволяет повысить точность, эффективность и безопасность работ.

Литературный обзор

Одним из ключевых направлений использования ИИ является интерпретация данных каротажа и сейсморазведки. Согласно исследованиям [1], глубокие нейросети, в частности, свёрточные (CNN, англ. Convolutional Neural Network – свёрточная нейронная сеть) и рекуррентные сети (RNN, англ. Recurrent Neural Network – рекуррентная нейронная сеть), успешно применяются для автоматической классификации геофизических аномалий и идентификации разломов в сейсмических данных [2]. Отмечается, что модели машинного обучения позволяют повышать точность анализа геологических характеристик, сокращая время обработки информации.

Применение алгоритмов сегментации изображений, таких как U-Net^¹, позволяет автоматически выделять границы геологических объектов [3]. Однако, как указывают авторы, отсутствие размеченных данных остается ключевой проблемой, ограничивающей дальнейшее развитие данной технологии.

ИИ также активно применяется в прогнозировании параметров пластов, таких как пористость, проницаемость и насыщенность [2]. В ранних работах использовались традиционные методы машинного обучения, включая метод опорных векторов (SVM, англ. Support Vector Machine) и линейную регрессию. В современных исследованиях отмечается рост применения глубинных нейросетей (BP (англ. Backpropagation – обратное распространение ошибки), LSTM (англ. Long Short-Term Memory – долгая краткосрочная память), случайных лесов (Random Forest) и градиентного бустинга (GBDT, англ. Gradient Boosting Decision Tree), что значительно повышает точность прогнозов [4].

Материалы и методы

В рамках настоящего исследования рассмотрены методы применения технологий искусственного интеллекта и машинного обучения для автоматизированной интерпретации данных ГИС и классификации литологического состава пород. Исследование основано на анализе фактических данных по нефтегазовым месторождениям Казахстана и включает как теоретический обзор современных подходов, так и практическое тестирование алгоритмов машинного обучения на реальных производственных данных.

В качестве исходных данных использовались результаты геофизических исследований скважин, представленные в формате LAS-файлов (англ. Log ASCII^² Standard)^³. В исследование были включены данные более 100 скважин, содержащие стандартные каротажные параметры: ГК (GR), потенциал собственной поляризации (SP, англ. Spontaneous / Self-Potential), кавернометрию (CALI, сокр. от англ. Caliper Logging), удельное сопротивление пород (LLS, англ. Lateral Logging Sonde), а также глубинные привязки (DEPT, от англ. Depth – глубина) с шагом дискретизации 10 см. Дополнительно использовались результаты керновых исследований по 20 скважинам, применённые для сопоставления и валидации литологических классов.

На этапе подготовки данных выполнялись процедуры предварительной обработки, включающие объединение разрозненных источников информации, очистку данных от пропусков и аномальных значений, стандартизацию структуры данных и формирование единого массива для последующего анализа. Значительное внимание уделялось контролю качества исходной информации, поскольку наличие неполных и неоднородных данных является одной из основных проблем при внедрении ИИ в задачи геологоразведки. В процессе обработки из исходного массива были исключены строки с отсутствующими значениями по ключевым параметрам, необходимым для обучения моделей.

Для повышения эффективности классификации использовались как исходные каротажные кривые, так и производные признаки, включая первую и вторую производные отдельных параметров, а также синтетические признаки, сформированные путём математических преобразований исходных данных. В качестве целевой переменной использовались литологические классы, сформированные по результатам интерпретации ГИС и анализа керна.

В исследовании были рассмотрены два варианта классификации пород: детализированная 10-классовая модель и укрупнённая 5-классовая схема, включающая основные типы литологии – песчаники, алевролиты и глинистые породы. Формирование обучающей и тестовой выборок осуществлялось с сохранением пропорций классов. Для предотвращения статистических перекосов разделение данных выполнялось не по отдельным записям, а по скважинам, что позволило исключить попадание данных одной и той же скважины одновременно в обучающую и тестовую выборки. Соотношение обучающей и тестовой выборок составило 70% и 30% соответственно.

Для построения и оценки моделей были протестированы различные алгоритмы машинного обучения, включая Logistic Regression (логистическая реегрессия), Decision Tree (дерево решений), Random Forest, XGBoost (градиентный бустинг), LightGBM (метод градиентной бустинговой сборки) и другие методы классификации. В качестве основного критерия оценки качества использовались метрики Accuracy Score (метрика правильности), F1 Macro Score и F1 Weighted Score (метрики качества классификации). Дополнительно анализировались матрицы ошибок, показатели точности по отдельным классам и устойчивость моделей к вариативности входных данных.

Обучение и тестирование моделей проводились с применением методов перекрёстной проверки, позволяющих снизить риск переобучения и повысить обобщающую способность алгоритмов. Наилучшие результаты были получены при использовании ансамблевых методов, в частности, алгоритма Random Forest, продемонстрировавшего высокую точность классификации и устойчивость при работе с неполными и неоднородными геолого-геофизическими данными.

Практическая реализация исследования включала интеграцию обученной модели в информационную систему ТОО «КМГ Инжиниринг» для оперативного прогнозирования литологии по данным каротажа. Разработанное решение обеспечивает автоматическую классификацию литологических интервалов и визуализацию результатов в виде цветокодированных колонок, сопоставимых с экспертной интерпретацией специалистов.

Сбор и обработка данных

Зарубежные компании уже коммерциализировали решения для сбора данных и удалённого каротажа. Например, компания Schlumberger разработала Центр удалённого каротажа (Remote Logging Center), интеллектуальный тестер формации (Intelligent Formation Tester) и программное обеспечение (далее – ПО) Techlog для интеллектуальной обработки и интерпретации данных [5]. Платформа iStar^⁴ от Halliburton^⁵ интегрирует автоматизацию, машинное обучение и ИИ для оценки запасов, что способствует более быстрому бурению и последовательной разработке месторождений [6]. В Китае нефтяные компании и научно-исследовательские институты ведут разработки в области сетевых наземных объектов, интеллектуальных лебедок, удалённого каротажа и начали применять первые результаты на практике. Также ведутся исследования по созданию интеллектуальных скважинных роботов [7].

В мире активно развиваются удалённые каротажные центры, позволяющие проводить дистанционные операции и экспертный анализ геолого-геофизических данных [5].

Автоматизированная интерпретация данных

Каротажные данные отличаются большим объёмом и разнородностью, что затрудняет интерпретацию и приводит к множественности решений и неопределённости. Это делает процесс выделения продуктивных зон более сложным. В связи с этим остро стоит необходимость применения технологий ИИ для повышения эффективности и точности интерпретации.

Применение ИИ в интерпретации каротажа охватывает автоматическую коррекцию глубины, автоматическое формирование отчётов, интеллектуальную стратификацию, реконструкцию кривых, идентификацию литологии, интерпретацию изображений каротажа, оценку параметров пластов, прогнозирование потенциала нефти и газа, предсказание скорости поперечной волны, идентификацию трещин и их заполнителей.

Реконструкция каротажных кривых основана на методах глубокого обучения, корреляционного анализа и других алгоритмах, что позволяет восстанавливать некорректные или пропущенные данные. Применяются такие алгоритмы, как нейросети, алгоритмы ансамблевого обучения и кластеризации. Например, метод реконструкции каротажных кривых с использованием RNN и сети LSTM оказался более точным, чем традиционные методы [7].

Литологическая интерпретация возможна двумя способами:

Анализ образцов керна, включая фото шлифов, CT (англ. Computed Tomography – компьютерная томография) и SEM (англ. Scanning Electron Microscope – сканирующий электронный микроскоп) изображения. Современные программные пакеты, например, Avizo^⁶, могут автоматически определять литологию, но требуют значительных взаимодействий с оператором;
Определение литологии на основе каротажных кривых с использованием методов машинного обучения. Например, модель, построенная с использованием Boosting Tree, Decision Tree и Support Vector Machine, достигла точности более 80% при сравнении с результатами шламового анализа.

При интерпретации изображений каротажа данные преобразуются в визуальные изображения с использованием цветовой калибровки. Современные исследования сочетают глубокое обучение с обработкой изображений для автоматического распознавания геологических структур. Например, алгоритмы U-Net позволяют автоматически выделять границы геологических объектов, что значительно упрощает процесс интерпретации. Однако недостаток размеченных данных ограничивает дальнейшее развитие этих технологий [8].

ИИ уже применяется для оценки параметров пластов, таких как пористость, проницаемость и насыщенность. Первые исследования использовали традиционные алгоритмы машинного обучения, такие как Support Vector Machine и линейную регрессию. Сегодня все больше учёных применяют BP, LSTM, Random Forest и GBDT для повышения точности расчётов [9].

В рамках практической деятельности в области интерпретации скважинных данных авторами настоящей статьи проводились работы по применению методов ИИ для решения задач, связанных с анализом и классификацией данных ГИС. На основании накопленного опыта можно выделить ряд ключевых положений и практических особенностей.

Любое построение корректной предсказательной модели с использованием ИИ начинается с тщательной оценки качества и структуры исходных данных. В первую очередь, как показывает практика, основным препятствием для успешного внедрения ИИ в задачи прогнозирования литологического состава пород по данным каротажа является отсутствие единой актуальной базы данных, а также неструктурированный характер хранения большого объёма материалов с наличием ошибочных и неполных данных.

Данные хранятся разрозненно: результаты исследований зачастую представлены в отдельных таблицах с различной структурой, оформлением и форматом заполнения. Реальная практика показала, что для полноценного применения алгоритмов ИИ необходимо привести все данные к единому формату и объединить их в единый массив, пригодный для последующей обработки.

Основной задачей ГИС является выделение продуктивных зон в геологическом разрезе, в частности, определение таких параметров, как пористость, проницаемость, нефтенасыщенность, газонасыщенность и состав флюида. Особое значение имеют задачи, связанные с моделированием, поскольку литология напрямую влияет на построение гидродинамических моделей и определяет границы гидродинамических блоков, критически важных для эффективной разработки месторождения.

На практике анализ керна для определения состава породы требует значительных затрат времени и ресурсов, особенно с учётом необходимости бурения большого количества скважин. В этой связи были реализованы проекты по разработке и обучению моделей ИИ, способных определять состав породы по данным ГИС, без необходимости отбора керна.

Характеристики нефтяных скважин измеряются различными петрофизическими приборами. В рамках работы активно применялись такие параметры, как SP, CALI, GR, LLS и DEPT в качестве входных данных для построения моделей классификации.

В 2020 г. в рамках совместного проекта специалистов ТОО «КМГ Инжиниринг» впервые на практике были протестированы и опробованы алгоритмы машинного обучения для классификации состава пород по данным месторождений АО НК «КазМунайГаз». На основании этого опыта было установлено, что классические нейронные сети не обеспечивают достаточного качества классификации и не подходят для практического применения в задачах геологоразведки в текущих условиях.

На этапе тестирования выявились ключевые особенности разбиения данных: в первоначальных экспериментах разбиение осуществлялось по записям, а не по скважинам, что приводило к статистическим перекосам. Например, данные по одной скважине могли одновременно находиться как в обучающей, так и в тестовой выборке, что искажало итоговые метрики качества. В результате точность модели на тестовой выборке опускалась до 30%. В дальнейшем было принято решение о разбиении данных строго по скважинам, несмотря на уменьшение объёма тестовой выборки.

В рамках этого же проекта была разработана и обучена модель классификатора на 10 пород. Для построения модели использовались два набора данных:

данные по керну (20 скважин с 9 породами);
данные по интерпретации ГИС (100 скважин с 10 породами).

После предварительной очистки от пропусков по шести основным признакам (SP, CALI, GR, LLS, DEPT) в выборке осталось 98 скважин. Очистка данных предполагала полное исключение записей с отсутствующими кривыми по любому из параметров. Шаг дискретизации по глубине составлял 10 см. В результате было сформировано около 450 тысяч строк по ГИС, из которых 115 тысяч строк содержали метки литологии и использовались для обучения и валидации модели.

Из опыта следует, что CALI, GR, LLS, SP и DEPT выступают ключевыми переменными для построения рабочей модели классификации литологии. При этом наилучшие результаты были достигнуты при применении методов градиентного бустинга и ансамблевых моделей, а также с использованием более сложных архитектур глубоких нейронных сетей для обработки больших массивов данных.

Полученный опыт подтвердил, что несмотря на существующие ограничения и сложности, применение технологий ИИ в интерпретации скважинных данных ГИС в реальных условиях Казахстана является перспективным направлением, требующим дальнейшего развития и тиражирования на уровне производственных структур.

По результатам анализа данных по 20 скважинам, для которых осуществлялся отбор керна, была выполнена попытка выделения литологии и последующего использования полученных данных в качестве обучающей выборки для построения модели ИИ. В рамках данного этапа работы по керновому материалу было классифицировано 9 пород, отражающих различия в литологическом составе пород.

Однако практика показала, что обучение модели исключительно на данных керна не обеспечивает необходимой точности и устойчивости результатов из-за ограниченного объёма выборки и недостаточного количества представленных образцов по каждому из классов. В связи с этим для дальнейшего обучения и повышения качества модели было принято решение использовать расширенную выборку, основанную на данных ГИС, которые включали те же интервальные характеристики, что и керн.

В результате была сформирована 10-классовая обучающая выборка по данным ГИС, отражающая выделенные ранее породы. На рис. 1 продемонстрирован пример такой выборки, где визуально видно, что часть пород хорошо разделяется по литологическим признакам, тогда как для других классов наблюдается частичное пересечение характеристик. Это указывает на необходимость дальнейшего уточнения методов предобработки и подбора оптимальных алгоритмов для повышения точности классификации.

Рисунок 1. Пример 10-классовой обучающей выборки

Figure 1. Example of a 10-class training dataset

Объединение выделенных по ГИС пород в породы по керну представляет собой самостоятельную задачу, обусловленную тем, что каждая порода по керновым данным является сложной структурой, состоящей из ряда взаимопересекающихся пород, расположенных в определённой последовательности.

В качестве примера приведено преобразование 10-классовой классификации пород в 5-классовую классификацию пород:

Класс 1 (песчаник крупнозернистый) соответствует 1-му классу пород.
Класс 2 (песчаник мелкозернистый) объединяет 2-й, 3-й и 4-й классы пород.
Класс 3 (алевролит) представлен 5-м классом пород.
Класс 4 (глинистый алевролит) включает 6-й, 7-й и 8-й классы пород.
Класс 5 (глина) объединяет 9-й и 10-й классы пород.

В обоих вариантах классификации разделение исходного набора данных на обучающую и валидационную выборки сохраняло исходные пропорции классов и не выявило значимого дисбаланса данных, в связи с чем применение методов балансировки выборок (таких как upscaling или downscaling) не предполагается. Соотношение тренировочной и тестовой выборок принято равным 70% и 30% соответственно.

Гистограммы для 5-классового и 10-классового вариантов представлены на рис. 2. Такой формат графического представления позволяет легко сравнить распределение данных по классам для тренировочной и тестовой выборок.

Рисунок 2. 5- и 10-классовые модели

Figure 2. 5-class and 10-class models

а) 5-классовый вариант / 5-class version; б) 10-классовый вариант / 10-class version

Для решения задачи автоматической классификации литологии на основе геофизических данных использованы два набора данных, представленных в формате LAS-файлов:

Набор 1: 20 скважин, данные основаны на результатах исследований керна (целевой признак – 9 классов).
Набор 2: 100 скважин, данные основаны на интерпретации ГИС, целевой признак – 10 классов.

В качестве признаков использовались стандартные параметры ГИС: SP, LLS, GR, CALI, DEPT (глубина с шагом 10 см).

Для повышения устойчивости модели и учёта геологической специфики было выполнено укрупнение исходных 10 классов до 5 обобщённых классов, ранее описанных выше.

Проведённые предварительные эксперименты показали, что обучение моделей на наборе 1 (по данным керна) не обеспечивает приемлемого качества классификации, выраженного через метрику «сходимость» (максимальное значение в диапазоне 0,55–0,60). В связи с этим в дальнейших расчётах использовался исключительно набор 2, основанный на данных интерпретаций ГИС, позволяющий получить более стабильные и воспроизводимые результаты.

Ключевая задача проекта заключалась в разработке моделей именно для данных, основанных на ГИС, что позволяет масштабировать методику на полный фонд скважин. Для обеспечения качества итоговых моделей необходимо предусмотреть доступ к достаточному объёму данных керновых исследований для валидации и контроля обученных моделей (рис. 3).

Рисунок 3. Группировка классов

Figure 3. Class grouping

В процессе подготовки исходных данных для построения моделей было загружено 100 скважин, что соответствует общему объёму в 1900000 строк. При этом значительная часть данных содержала пропуски различной природы. По результатам анализа установлено, что:

полностью пустыми оказались около 452 тысячи строк (~25% от общего объёма);
в 925 тысячах строк были неполные данные по ГИС-кривым;
остаток после удаления пустых строк составил около 452 тысячи строк.

Из оставшихся данных только 115 тысяч строк (примерно 8% от исходного объёма) содержат полный набор необходимых признаков и могут быть использованы для обучения и валидации моделей. Остальные 337 тысяч строк допустимо использовать лишь для прогнозных расчётов без последующей проверки качества.

Статистика по признакам показала следующие средние проценты пропусков:

целевая переменная – около 94%;
CALI – около 33%;
GR – около 26%;
SP – около 75%;
LLS – около 43%.

Таким образом, изначально большой объём сырых данных значительно сокращается после обработки и удаления пропусков, что необходимо учитывать при построении и тестировании моделей машинного обучения.

Данные были разделены на обучающую и тестовую выборки. Тестовая выборка использовалась для проведения перекрёстной проверки с целью подбора оптимальных параметров модели. При этом данные теста применялись исключительно для оценки обобщающей способности модели и не использовались в процессе обучения.

В задачах контролируемого процесса обучения часто возникают проблемы смещения и дисперсии модели. Перекрёстная проверка позволяет сбалансировать эти характеристики, снижая переобучение и повышая устойчивость модели к особенностям конкретного набора данных.

В рамках исследования были протестированы следующие алгоритмы машинного обучения (табл. 1–2):

Таблица 1. Сравнительная таблица рассматриваемых алгоритмов (10-классовая)

Table 1. Comparative table of the considered algorithms (10-class)

Показатели / Metrics	Logistic Regression	Random Forest	XG-Boost
Точность Accuracy Score	0,23	0,81	0,81
Среднее F1 Macro Score	0,17	0,81	0,81
Средневзвешенное F1 Weighted Score	0,19	0,81	0,81
Размер модели Model Size	0,02 mb	2 321 mb	609 mb
Скорость Predict Speed (s)	0,01	4,3	129,7

Таблица 2. Сравнительная таблица рассматриваемых алгоритмов (5-классовая)

Table 2. Comparative table of the considered algorithms (5-class)

Показатели / Metrics	Logistic Regression	Random Forest	XG-Boost
Точность Accuracy Score	0,49	0,90	0,90
Среднее F1 Macro Score	0,34	0,88	0,88
Средневзвешенное F1 Weighted Score	0,46	0,90	0,90
Размер модели Model Size	0,02 mb	619 mb	134 mb
Скорость Predict Speed (s)	0,01	1,7	40,0

Logistic Regression – использовалась в качестве базовой (vanilla) модели для целей сравнения. Является простым и быстрым алгоритмом, эффективно выявляющим линейные зависимости;
Random Forest – мощный ансамблевый метод, хорошо работающий на различных типах данных. Однако обученные модели могут занимать значительный объём памяти;
XGBoost – адаптивный градиентный бустинг, демонстрирующий высокую эффективность и скорость среди моделей своего класса. Отличается хорошим балансом между точностью и вычислительной сложностью.

Согласно результатам экспериментов, наилучшие показатели качества продемонстрировали модели Random Forest и XGBoost. При этом XGBoost обучается существенно дольше, но генерирует более компактную модель: например, модель Random Forest занимала около 18 ГБ памяти.

Для задачи ранжирования скважин была выбрана обученная модель на основе Random Forest с параметрами:число деревьев – 250 ед.;

максимальная глубина деревьев – 45 ед.;
размер модели – 619 Мб для выборки с 5 классами и 2321 Мб для выборки с 10 классами;
точность модели (метрика качества на тестовой выборке) составила 0,9 и 0,8 соответственно.

В качестве признаков использовались как исходные геофизические кривые, так и производные признаки, такие как первая и вторая производные кривой SP, а также синтетические признаки, полученные с помощью арифметических операций над исходными данными.

В дополнение к Random Forest и XGBoost были протестированы также алгоритмы LightGBM, Decision Tree, Linear Regression и др. По итогам сравнения наилучшие результаты показал алгоритм Random Forest, достигнув значения метрики качества 0,9.

В рамках данного исследования в качестве оптимального решения для поставленной задачи был выбран алгоритм Random Forest, продемонстрировавший наилучшее соотношение точности и вычислительной эффективности. Хотя алгоритм XGBoost показал аналогичные метрики качества, предпочтение было отдано Random Forest с учётом вышеописанного.

С учётом минимального целевого порога точности (точность > 0,85), была выбрана модель классификации с разделением на 5 классов. Такой подход обеспечил требуемый уровень обобщающей способности при сохранении интерпретируемости результатов.

Следует подчеркнуть, что представленные решения по выбору количества классов, алгоритма и его параметров не следует рассматривать как универсальные для более масштабных или разнородных наборов данных. Проведённый анализ ориентирован исключительно на демонстрацию предсказательной способности моделей в рамках данного проекта, ограниченного выборкой из 100 скважин.

Оценка производительности модели Random Forest на тестовой выборке показала высокий уровень точности (0,9) при использовании 5-классовой схемы классификации, что подтверждает её применимость для ранжирования объектов в рассматриваемом контексте.

Для более детального анализа качества классификации были рассчитаны показатели точности по каждому классу как для модели Random Forest, так и для логистической регрессии (табл. 3). Средняя точность модели Random Forest составила 0,90, что значительно превышает соответствующий показатель логистической регрессии – 0,63.

Таблица 3. Сравнение двух моделей

Table 3. Comparison of two models

Параметры сравнения Comparison Parameters	Точность / Accuracy
Параметры сравнения Comparison Parameters	Random Forest	Logystic Regression
Средняя Average	0,90	0,63
Точность по классу №1 Accuracy class No. 1	0,92	0,55
Точность по классу №2 Accuracy class No. 2	0,92	0,78
Точность по классу №3 Accuracy class No. 3	0,75	0,61
Точность по классу №4 Accuracy class No. 4	0,89	0,66
Точность по классу №5 Accuracy class No. 5	0,93	0,57

Разбивка по классам показала, что модель Random Forest демонстрирует устойчиво высокую точность для большинства категорий. Так, для классов №1, №2 и №5 точность составила 0,92, 0,92 и 0,93 соответственно. Несколько ниже точность наблюдается для класса №3 (0,75), что, вероятно, связано с его внутренней неоднородностью или ограниченным числом объектов в выборке. Тем не менее и в этом случае Random Forest превосходит логистическую регрессию, точность которой по данному классу составляет 0,61.

По всем пяти классам модель Random Forest обеспечивает стабильное и высокое качество классификации, тогда как логистическая регрессия демонстрирует более выраженную вариативность и менее удовлетворительные результаты – от 0,55 до 0,78.

Таким образом, сравнение точности по классам подтверждает преимущество алгоритма Random Forest в рассматриваемой задаче классификации скважин по выделенным категориям.

На рис. 4 представлены распределения точности для моделей Random Forest и логистической регрессии. График демонстрирует распределение точности моделей Random Forest и логистической регрессии.

Рисунок 4. Сравнение двух моделей

Figure 4. Comparison of two models

Синяя кривая и столбцы – Random Forest: точность сконцентрирована в диапазоне 0,93–0,99, что свидетельствует о высокой стабильности и качестве модели. Оранжевая кривая и столбцы – Logistic Regression: точность распределена шире и смещена к более низким значениям (около 0,49), что указывает на худшую предсказательную способность.

Анализ матриц ошибок показывает, что каждая из рассмотренных моделей демонстрирует различное поведение при классификации отдельных литологических классов. В целом, наибольшая точность достигается при распознавании песчаника, алевролита и глин, в то время как другие классы определяются менее уверенно.

Особенно стоит отметить, что глины стабильно показывают наивысшие значения F1-метрики при использовании как контролируемых, так и неконтролируемых алгоритмов. Это преимущество объясняется более широкой представленностью глин в разрезе, что обеспечивает лучшее обучение моделей на этом классе.

На рис. 5 представлена визуализация результатов классификации фаций, полученных в результате применения обученной модели машинного обучения. Колонки с первой по пятую отражают входные каротажные параметры, используемые при обучении модели: ГК, БК, коэффициент водонасыщенности, ПС и нормализованный ПС соответственно. Эти параметры представляют собой основную информацию о литологическом разрезе скважины и служат входными признаками для алгоритма классификации.

Рисунок 5. Использование обученной модели по сравнению с человеком

Figure 5. Application of the trained model in comparison with human interpretation

Шестая колонка содержит прогнозные данные по фациям, полученные с помощью обученной модели. В седьмой колонке приведены эталонные данные, полученные по результатам интерпретации профильными специалистами. Восьмая колонка отображает фации в виде цветовой шкалы (от 1 до 5), где каждому классу соответствует определённый цвет, что облегчает визуальное сопоставление между прогнозом и экспертной интерпретацией.

Сравнительный анализ показывает высокую степень сходимости между результатами, полученными моделью, и экспертной интерпретацией, включая как тонкослоистые, так и более протяжённые литологические интервалы. Коэффициент сходимости между модельной классификацией и экспертной разметкой на данной скважине приближается к 1, что свидетельствует о высокой точности и надёжности применённого подхода.

Таким образом, использование алгоритмов машинного обучения демонстрирует высокую эффективность в автоматизированной интерпретации фаций на основе стандартных каротажных данных и может служить надёжным инструментом в геологоразведочной практике.

На текущий момент данная модель внедрена в информационную систему (далее – ИС) ТОО «КМГ Инжиниринг», предназначенную для оперативного прогнозирования литологии по каротажным данным (используется 4 и 6 кривых). Скважинные данные загружаются в ИС. Далее обученная модель классифицирует каждый метр разреза, присваивая ему один из заранее определённых литологических типов. Результаты выводятся в виде цветокодированных колонок, сопоставимых с ручной интерпретацией специалистов, что позволяет оперативно корректировать стратиграфические модели и уточнять границы пластов (рис. 6).

Рисунок 6. Использование внедренных моделей в ИС

Figure 6. Application of implemented models in information systems

ИС обеспечивает визуализацию всех этапов – от исходных каротажных кривых до прогнозируемых литологий – в едином окне. Это позволяет быстро оценивать изменения фациальной обстановки.

Подобные подходы уже реализуются в интегрированном ПО в разных компаниях (Dream Cloud^⁷ и CIFLog^⁸).

Таким образом, использование машинного обучения в сочетании с современными информационными системами позволяет повысить точность и скорость интерпретации каротажных данных, снизить зависимость от субъективного фактора и обеспечить постоянное улучшение прогностических моделей за счёт накопления новой информации.

Интегрированные программные решения

Крупнейшие мировые компании, такие как Schlumberger, разрабатывают интегрированные программные комплексы. Например, DELFI – это платформа для когнитивной разведки и разработки месторождений, включающая обработку и интерпретацию данных, стандартизацию, очистку и анализ. ПО Techlog позволяет анализировать каротажные данные с помощью интеллектуальных алгоритмов.

В Китае разрабатываются собственные платформы, такие как Dream Cloud Collaboration Platform от CNPC^⁹, LEAD^¹⁰ и CIFlog. Развиваются технологии ИИ для моделирования пластов, интерпретации каротажа и геонавигации при бурении горизонтальных скважин [6].

Оборудование для геофизической разведки

Исследования в области ИИ и геофизической разведки стремительно развиваются по всему миру. Геофизическая разведка исторически является одной из первых отраслей, где использовались цифровые технологии, включая высокопроизводительные вычисления, трехмерную визуализацию и компьютерные сети.

ИИ применяется в оборудовании для геофизической разведки, включая вибросейсморазведку, беспилотники и сейсмическую аппаратуру.

Интеллектуальная вибросейсморазведка позволяет адаптировать параметры работы (мощность, диапазон частот, время сканирования и фазу) в зависимости от условий на поверхности и глубинных геологических характеристик, повышая безопасность и снижая нагрузку на окружающую среду.

Беспилотники используются для сбора геофизических данных, детальной топографической съёмки, оценки рисков, мониторинга узловых точек, восстановления данных, доставки оборудования и спасательных операций.

Современные сейсмические системы включают проводные (G3i^¹¹) и беспроводные (OBN (англ. Ocean Bottom Node – донный сейсмический узел), Hawk^¹², eSeis^¹³) решения. Технологии OBN позволяют преодолевать ограничения, связанные с шумами, плохой проходимостью местности и узким диапазоном наблюдений.

Заключение

Для Казахстана, обладающего крупными нефтегазовыми месторождениями, такими как Тенгиз, Кашаган и Карачаганак, внедрение ИИ в разведку и разработку – это не просто тренд, а реальная необходимость. Мы сталкиваемся с серьезными вызовами: сложные геологические условия, высокая неоднородность пластов, возрастающие затраты на добычу и необходимость более рационального использования ресурсов.

ИИ уже помогает нашей нефтегазовой отрасли решать эти задачи. Автоматизированный анализ геологоразведочных данных, прогнозирование продуктивности скважин и моделирование пластов на основе машинного обучения позволяют нам повышать эффективность работы. Казахстанские компании начинают активно использовать технологии цифровых двойников, интеллектуального управления добычей и автоматизированной интерпретации сейсмических данных [10–12].

Наша страна уверенно движется в сторону цифровизации нефтегазовой отрасли. В условиях глобальной конкуренции и требований устойчивого развития нам необходимо активнее внедрять ИИ, чтобы повышать коэффициент извлечения нефти, снижать издержки и минимизировать экологическое воздействие. ИИ – это не просто инструмент, а один из ключей к будущему нашей энергетики.

ДОПОЛНИТЕЛЬНО

Источник финансирования. Авторы заявляют об отсутствии внешнего финансирования при проведении исследования.

Конфликт интересов. Авторы декларируют отсутствие явных и потенциальных конфликтов интересов, связанных с публикацией настоящей статьи.

Вклад авторов. Все авторы подтверждают соответствие своего авторства международным критериям ICMJE (все авторы внесли существенный вклад в разработку концепции, проведение исследования и подготовку статьи, прочли и одобрили финальную версию перед публикацией). Наибольший вклад распределён следующим образом: Аяганова А.И. – разработка структуры статьи, анализ результатов исследования, подготовка рукописи; Курмангалиев Д.Ж. – сбор и обработка данных, разработка и тестирование моделей машинного обучения; Абилгазиева А.Ш. – проведение литературного обзора, сравнительный анализ научных источников; Дукесова Н.К. – валидация результатов исследования, научное редактирование и финальная проверка рукописи.

ADDITIONAL INFORMATION

Funding source. This study was not supported by any external sources of funding.

Competing interests. The authors declare that they have no competing interests.

Authors’ contribution. All authors made a substantial contribution to the conception of the work, acquisition, analysis, interpretation of data for the work, drafting and revising the work, final approval of the version to be published and agree to be accountable for all aspects of the work. The greatest contribution is distributed as follows: Anar I. Ayaganova – development of the article structure, analysis of the research results, and preparation of the manuscript; Darkhan Zh. Kurmangaliyev – data collection and processing, development and testing of machine learning models; Aliya Sh. Abilgaziyeva – conducting the literature review and comparative analysis of scientific sources; Nadezhda K. Dukessova – validation of the research results, scientific editing, and final revision of the manuscript.

¹ U-Net — это CNN, созданная для семантической сегментации изображений. Она классифицирует изображение попиксельно, создавая точную маску объектов.

² LAS – это формат файла для хранения информации о скважинном каротаже.

³ ASCII (англ. American Standard Code for Information Interchange – американский стандарт кодов для обмена информацией) – стандарт кодирования букв латинского алфавита, цифр, некоторых специальных знаков и управляющих символов, принятый в 1963 г. Американской ассоциацией стандартов как основной способ представления текстовых данных в электронных вычислительных машинах.

⁴ iStar – интеллектуальная платформа для бурения и каротажа скважин

⁵ Halliburton – американская транснациональная нефтесервисная компания

⁶ Avizo – это программный пакет для 3D-визуализации, обработки и анализа научных и промышленных данных. Он позволяет превращать сложные многомерные изображения (от микроскопии до компьютерной томографии) в количественные результаты и наглядные модели. Производитель Thermo Fisher Scientific, США.

⁷ Dream Cloud Collaboration Platform – промышленная облачная платформа CNPC для цифровой трансформации и совместной работы нефтегазовых предприятий.

⁸ CIFLog – это программная платформа для обработки и интерпретации данных ГИС, разработанная CNPC.

⁹ CNPC (англ. China National Petroleum Corporation) – Китайская национальная нефтегазовая корпорация.

¹⁰ LEAD (англ. Log Evaluation & Application Desktop) – интегрированное ПО для каротажной обработки и интерпретации, разработанное CNPC.

¹¹ G3i – это системы сбора и регистрации данных, разработанная INOVA.

¹² Hawk – это мультифункциональный инструмент наземной сейсмики, автономная нодальная система.

¹³ eSeis – беспроводная сейсморазведочная система, разработанная дочерней структурой CNPC.

Список литературы

Alaudah Y., Alfarraj M., AlRegib G. Machine learning for characterization of subsurface geology from seismic images // Journal of Applied Geophysics. 2019. Vol. 164. P. 225–239. doi: 10.1016/j.jappgeo.2019.02.005.
Qi J., Zhang B., Lyu B. Seismic attribute selection for machine-learning-based facies analysis // Geophysics. 2020. Vol. 85, N 2. P. 017–035. doi: 10.1190/geo2019-0223.1.
Ронкин М.В., Акимова Е.Н., Мисилов В.Е., Решетников К.И. Обзор применения глубоких нейронных сетей и параллельных архитектур в задачах фрагментации горных пород // Вестник ЮУГУ. Серия «Вычислительная математика и информатика». 2023. Т. 12, №4. С. 5–54. doi: 10.14529/cmse230401.
slb.com [интернет]. SLB. Techlog Wellbore Software Platform [дата обращения 12.02.2025]. Доступ по ссылке: www.slb.com/products-and-services/delivering-digital-at-scale/software/techlog
slb.com [интернет]. SLB. Remote Operations and Digital Logging Solutions [дата обращения 12.02.2025]. Доступ по ссылке: www.slb.com
neftegaz.ru [интернет]. ИА Neftegaz.RU. Halliburton представила интеллектуальную цифровую платформу для бурения и каротажа скважин [дата обращения 12.02.2025]. Доступ по ссылке: neftegaz.ru/news/Oborudovanie/701778-halliburton-predstavila-intellektualnuyu-tsifrovuyu-platformu-dlya-bureniya-i-karotazha-skvazhin/?ysclid=m8vzcjblz7594922150.
Kaur H., Pham N., Fomel S., et al. A deep learning framework for seismic facies classification // Interpretation. 2022. Vol. 11, N 4. P. 1–47. doi: 10.1190/int-2022-0048.1.
Абдуллина К.М., Спивак А.И. Применение нейронной сети архитектуры U-NET для задачи локализации нарушений целостности цифровых изображений // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20, №3. С. 425–431. doi: 10.17586/2226-1494-2020-20-3-425-431.
Волков С.С., Курочкин И.И. Применение глубоких нейронных сетей, основанных на LSTM, для решения задач классификации // Международная научно-техническая конференция «Перспективные информационные технологии»; 24–27 Май, 2021; Самара, Россия. Режим доступа: repo.ssau.ru/jspui/handle/123456789/2911.
kmg.kz [интернет]. АО НК «КазМунайГаз». Интеллектуальные месторождения. Кейсы КМГ [дата обращения 25.02.2025]. Доступ по ссылке: www.kmg.kz/ru/press-center/articles/intellectual-fields-cases/.
tengizchevroil.com [интернет]. ТШО. В Тенгизшевройл рассказали, как используется искусственный интеллект [дата обращения 25.02.2025]. Доступ по ссылке: www.tengizchevroil.com/ru/tco-news/detail/2024/04/06/how-artificial-intelligence-is-used-in-tengizchevroil.
forbes.kz [интернет]. Forbes Kazakhstan. «Каспий нефть»: цифровизация месторождения и социальная ответственность бизнеса [дата обращения 25.02.2025]. Доступ по ссылке: forbes.kz/articles/kaspiy_neft_tsifrovizatsiya_mestorojdeniya_zabota_o_kadrah_i_regione.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

2. Рисунок 1. Пример 10-классовой обучающей выборки

Скачать (55KB)

Метаданные

3. Рисунок 2. 5- и 10-классовые модели а) 5-классовый вариант / 5-class version; б) 10-классовый вариант / 10-class version

Скачать (65KB)

Метаданные

4. Рисунок 3. Группировка классов

Скачать (53KB)

Метаданные

5. Рисунок 4. Сравнение двух моделей

Скачать (171KB)

Метаданные

6. Рисунок 5. Использование обученной модели по сравнению с человеком

Скачать (830KB)

Метаданные

7. Рисунок 6. Использование внедренных моделей в ИС

Скачать (549KB)

Метаданные

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Применение искусственного интеллекта в нефтегазовой отрасли: тренд или необходимость?

Полный текст

Аннотация

Ключевые слова

Полный текст

Введение

ИИ в каротаже

Литературный обзор

Материалы и методы

Сбор и обработка данных

Автоматизированная интерпретация данных

Интегрированные программные решения

Оборудование для геофизической разведки

Заключение

ДОПОЛНИТЕЛЬНО

ADDITIONAL INFORMATION

Об авторах

Анар Изгалиевна Аяганова

Дархан Жунусканович Курмангалиев

Алия Шаймерденовна Абилгазиева

Надежда Куандыковна Дукесова

Список литературы

Дополнительные файлы

Данный сайт использует cookie-файлы