Optimal number of Monte-Carlo simulations for hydrocarbon resources probabilistic estimation
- Authors: Sadykov R.M.1
-
Affiliations:
- KMG Engineering
- Issue: Vol 4, No 4 (2022)
- Pages: 32-44
- Section: Geology
- URL: https://vestnik-ngo.kz/2707-4226/article/view/108590
- DOI: https://doi.org/10.54859/kjogi108590
- ID: 108590
Cite item
Full Text
Abstract
Background: Probabilistic resource estimation allows to assess the potential of oil and gas prospect, which is used for decision-making in the industry. The main result of the estimation is resource potential, expressed in probability distribution function of geological or recoverable hydrocarbon resources. Monte Carlo simulation commonly used for these purposes. It simulates the numerical value of the objective function.
Aim: The aim of the work is to find the optimal number of Monte-Carlo simulations in the probabilistic resource estimation.
Methods: Monte Carlo simulation is based on repeated calculation of the function describing the process using a random number generator. The function variable defined by statistical distributions is calculated using random number. Further, mathematical operations are performed on all variables of the function according to the mathematical model. Summarizing the obtained set of results, the statistical distribution describing the desired function is approximately estimated.
Results: The accuracy of distribution function estimation increases with an increase of the number of simulations. However, this tend to increase the computation time. Thus, there is a choice between the speed and accuracy of the solution.
The Latin hypercube reduces the influence of the random number generator imperfection, but intermediate calculations with Latin hypercube attenuate the decrease in the number of simulations compared to random sampling.
Conclusion: Based on the results of the work, a logarithmic dependence of the calculation accuracy on the number of Monte Carlo simulations was obtained. In most cases, 10000 simulations with accuracy about 1% will be sufficient.
Full Text
Введение
Симуляция Монте-Карло – широко используемая группа методов, в которых процесс или функция изучается путём многократных экспериментов (реализаций) с использованием определенной математической модели [1]. Симуляция используется в случаях, когда переменные функции неизвестны, но известно их распределение, а процесс или функция являются достаточно сложными для поиска аналитического решения.
Например, произведение двух случайных величин X, Y даёт третью случайную величину X·Y, дисперсия которой описывается достаточно громоздким уравнением. При использовании усечённых распределений определение дисперсии результата значительно усложняется.
Var(X·Y)=Var(X)·Var(Y) +
+ E(X)2·Var(Y) + E(Y)2·Var(X) (1)
При вероятностном подсчёте запасов объёмным методом используются по крайней мере 6 параметров, следовательно, рассчитать распределение геологических запасов аналитическим уравнением является сложной задачей. Использование усечённых функций распределения в качестве входных данных также усложняет задачу.
Симуляция методом Монте-Карло позволяет рассчитывать процесс с достаточно большим количеством переменных. Основных недостатком метода является приближённость решения. Целью данной работы является определение оптимального числа симуляций при вероятностном подсчёте запасов для получения решения с необходимой погрешностью.
Методология
Симуляция Монте-Карло
Пусть процесс описывается функцией (2), включающей в себя m переменных. В случае с вероятностным подсчётом запасов таковыми параметрами являются: положение контакта, доля коллектора, коэффициент пористости, коэффициент насыщенности углеводородами, пересчётный коэффициент и пр.
y = f(X1, X2,…,Xm) (2)
Каждая переменная может быть представлена в виде случайной величины Xi, которая описывается плотностной функцией вероятности PDFi (Xi) и вероятностной функцией распределения CDFi (Xi) [2]. При этом значение случайной величины при определённой вероятности p рассчитывается обратной функцией от функции распределения:
Xi = CDFi-1(p) (3)
При расчёте реализации для каждой случайной величины генерируется случайное число, в результате получается m случайных чисел rand. В таком случае уравнение (2) приобретает вид (4):
(4)
Далее реализации повторяются n раз, и при описании результатов указывается, что было проведено n симуляций.
Таким образом, по результатам симуляции Монте-Карло получают массив результатов {y1,y2,…,yn}, являющихся n-выборкой из функции, описывающей процесс. Предположив, что реализации между собой равновероятностны, итоговую функцию можно приближенно описать следующими статистическими величинами (табл. 1).
Таблица 1. Статистические величины для описания функции распределения
Table 1. Statistic values describing distribution function
Параметр Parameter | Формула Formula |
Среднее Mean | |
Среднеквадратичное отклонение Standard deviation | |
MIN | |
MAX |
Латинский гиперкуб и случайная выборка
Случайная выборка (Random sampler) – это способ получения случайной величины, при котором для его расчёта используется случайное число, определенное независимо от предыдущих реализаций. Однако, учитывая, что генератор случайных чисел в большинстве случаев не даёт равномерного распределения, случайная выборка может привести к значительному искажению итоговых результатов. Для преодоления влияния генератора случайных чисел используются разнообразные способы выборки, одним из которых является латинский гиперкуб.
Латинский гиперкуб (Latin-hypercube sampler) – это способ выбора значений из нескольких распределений, который обеспечивает более полный охват диапазона входных данных [3]. Это достигается разделением вертикальной оси накопленной функции распределения на n равных, непересекающихся интервалов (рис. 1). Таким образом, на горизонтальной оси также получается n интервалов с одинаковой вероятностью наступления, но разной шириной.
Следующим этапом является выбор значений внутри n интервалов. Для этого внутри каждого вертикального интервала случайной выборкой подбирается вероятность pi (5), которой соответствует некоторое значение внутри интервала на горизонтальной оси (3).
pi = pi min + rand(pi max – pi min) (5)
где pi min, pi max – минимальное и максимальное значения вероятности i-го интервала.
Рисунок 1. Разбиение накопленной функции распределения на n интервалов
Figure 1. Partition of cumulative distribution function into n intervals
Виды распределений
Равномерное распределение – это вид распределения, при котором случайная величина равновероятностно может принять любое значение из диапазона от минимального до максимального значения. Для непрерывной случайной величины функция плотности равномерного распределения есть постоянная. Непрерывное равномерное распределение задается двумя параметрами: минимальное min и максимальное max значения случайной величины [4] (табл. 2).
Таблица 2. Основные виды распределений
Table 2. Main types of distributions
Параметр Parameter | Равномерное распределение Uniform distribution | Нормальное распределение Normal distribution |
Плотность распределения Distribution density | ||
Функция распределения Distribution function | ||
Среднее Mean | Исходный параметр Input parameter | |
Среднеквадратичное отклонение Standard deviation | Исходный параметр Input parameter |
В случае вероятностного подсчёта ресурсов равномерное распределение используется для определения положения контакта в тех случаях, когда отсутствует какая-либо информация о положении контакта.
Нормальное распределение – наиболее часто используемый вид распределения, в котором функция плотности вероятности задаётся функцией Гаусса (табл. 2). Одной из отличительных особенностей данного распределения является его симметричность относительно среднего значения [5].
При вероятностном подсчёте ресурсов среднюю пористость и насыщенность пород часто описывают с использованием нормального распределения. Кроме того, в процессе вероятностного подсчёта ресурсов используют логнормальное распределение и гамма-распределение.
Отличительной особенностью данных распределений является смещённость плотности распределения в область меньших значений, а также невозможность их использования для случайных величин с отрицательными значениями. При вероятностном подсчёте запасов результирующая величина (геологические или извлекаемые ресурсы) имеет распределение похожее и на логнормальное, и на гамма-распределение.
Усечение распределения – это преобразование распределения таким образом, что случайная величина не может выпадать за указанные рамки, т.е. случайная величина ограничена минимальным и максимальным значением (6).
(6)
Вероятностный подсчёт ресурсов
Структура X
Структура X представлена брахиантиклинальной складкой и была выявлена по данным 2D сейсмики. Нефтегазоносность региона подтверждена наличием месторождений поблизости. По данным месторождений-аналогов, а также учитывая глубины, предполагается, что в случае обнаружения залежи пластовым флюидом будет нефть. Подсчётные параметры были определены на основе данных месторождений-аналогов.
Учитывая высокую степень неопределённости, подсчёт ресурсов ведется вероятностным способом. Исходные данные представлены в табл. 3.
Таблица 3. Исходные данные для вероятностного подсчёта ресурсов
Table 3. Input data for the probabilistic resources estimation
Параметр Parameter | Среднее Mean | Среднеквадратичное отклонение Standard deviation | MIN | MAX |
Положение водонефтяного контакта, м Position of the oil/water contact, m | -2360 | -2410 | ||
Общий объём, тыс. м³ Total volume, thousand m³ | 46018 | 4064690 | ||
Общая толщина, м Total thickness, m | 10 | 3 | 5 | 15 |
Доля коллектора, д. ед. Net to Gross ratio, units | 0,7 | 0,08 | 0,6 | 0,8 |
Коэффициент пористости, д. ед. Porosity, units | 0,2 | 0,03 | 0,15 | 0,25 |
Коэффициент нефтенасыщенности, д. ед. Oil saturation factor, units | 0,68 | 0,1 | 0,6 | 0,75 |
Объёмный коэффициент, д. ед. Formation volume factor, units | 0,8 | 0,05 | 0,7 | 0,9 |
Плотность нефти, т/м³ Oil density, t/m³ | 0,849 | 0,05 | 0,7 | 0,9 |
Коэффициент извлечения нефти, д. ед. Oil recovery factor, units | 0,3 | 0,05 | 0,2 | 0,4 |
Газосодержание, м³/т Gas content, m³/t | 126,9 | 30 | 50 | 150 |
Объёмный метод подсчёта ресурсов / запасов
При оценке ресурсного потенциала структуры был использован объёмный метод подсчёта ресурсов нефти. При расчёте геологических mgeo и извлекаемых mrec ресурсов нефти производится многократное произведение общего объёма залежи BV на различные коэффициенты (7–8). Геологические VGgeo и извлекаемые VGrec ресурсы попутного газа также рассчитываются путём перемножения соответствующих ресурсов нефти на газосодержание (9–10). Каждый из коэффициентов является независимой переменной, которую можно представить в виде непрерывной функции распределения.
(7)
(8)
(9)
(10)
Общий объём залежи. Различают два основных типа залежей: массивные и пластовые. Массивной называется та залежь, в которой непроницаемой является только покрышка. Внутренние пропластки внутри такой залежи гидродинамически связаны между собой.
Общий объём залежи BV зависит от геометрии пласта, его толщины H и положения контакта углеводорода с водой WC. Кровля пласта-коллектора структуры X была определена по данным геофизических исследований. Для простоты расчёта неопределённость, связанная с точностью картирования кровли пласта, не учитывается.
Учитывая степень заполнения ловушки месторождений-аналогов, предполагается наиболее вероятным заполнение залежи на половину. Учитывая замыкающую изолинию пласта (spill point), положение контакта описывается усечённым нормальным распределением (11). Толщина пласта была определена по данным гидродинамических исследований на близлежащих месторождениях и также описывается усечённым нормальным распределением (12).
(10)
(11)
Было проведено 100000 симуляций определения общего объёма залежи, в результате была получена гистограмма, представленная на рис. 2. Среднее значение полученной величины равно μBV = 635,6 млн м³, стандартное отклонение σBV = 400,0 млн м³.
Полученный в результате симуляции общий объём залежи BV был аппроксимирован различными функциями распределения (рис. 3). Суммарная ошибка наименьшая у гамма-распределения. Следовательно, для моделирования функции распределения общего объёма залежи пластового типа с двумя параметрами рекомендуется использовать гамма-функцию распределения как дающую меньшую погрешность.
Рисунок 2. Гистограмма распределения общего объёма залежи BV
Figure 2. Distribution histogram of the BV deposit total volume
Рисунок 3. Аппроксимация общего объёма залежи BV различными функциями распределений
Figure 3. Approximation of BV total bulk volume distribution by various distribution functions
Аналитический метод вероятностного подсчёта ресурсов
При подсчёте ресурсов объёмным методом производится перемножение переменных между собой. Для аналитического расчёта используется произведение двух независимых случайных величин. Пусть имеются две случайные величины X и Y со средним значением μX и μY и дисперсиями Var(X) и Var(Y). Тогда произведение этих величин будет являться также случайной величиной со средним значением и дисперсией показанными в уравнениях (1) и (12).
(12)
Далее последовательно перемножается каждая следующая переменная на результат перемножения предыдущих переменных. Вначале рассчитывается эффективный объём залежи (13, 14). После рассчитывается поровый (15, 16) и нефтенасыщенный объёмы залежи (17, 18). Полученный нефтенасыщенный объём залежи перемножается на коэффициент усадки нефти, что даёт геологические ресурсы нефти в объёмных единицах (19, 20). Перемножив величину на плотность нефти, получаются геологические ресурсы нефти в массовых единицах (21, 22). Извлекаемые ресурсы равны произведению геологических ресурсов нефти и коэффициента извлечения нефти (23, 24). И, наконец, геологические и извлекаемые ресурсы попутного газа равны произведению соответствующих ресурсов нефти на газосодержание (25, 26).
(13)
(14)
(15)
(16)
(17)
(18)
(19)
(20)
(21)
(22)
(23)
(24)
(25)
(26)
Метод Монте-Карло вероятностного подсчёта ресурсов
Для симуляции вероятностного подсчёта ресурсов методом Монте-Карло генерируется двумерный массив случайных чисел размером {m, n}, где m – число переменных, а n – число симуляций. Затем, использовав случайное число массива в качестве значения накопленной функции вероятностного распределения CDF, получается уравнение (27), решив которое, можно получить переменную. Таким образом, решается обратная задача – нахождение аргумента, зная значение функции.
Например, параметр общего объёма залежи BV зависит от положения контакта и толщины пласта, которые в свою очередь являются переменными, моделируемыми с помощью нормального распределения. Квантиль, или значение переменной с накопленной вероятностью p, может быть выражен через обратную функцию ошибки erf -1 (p). Обратная функции ошибки может быть рассчитана путём разложения в ряд.
(27)
где fX – функция плотности распределения случайной величины X.
(28)
Нахождение квантилей (значения переменной) гамма-распределения производится методом подбора: принимаются две точки l и r, значение накопленной фукнции в которых для l меньше p, а для r больше p (CDF(k,θ,l) < тp; CDF(k,θ,r) < p). Затем путём итеративного приближения друг к другу находится такое значение x, для которого выполняется условие |CDF(k,θ,x) – – p| ≤ eps, где eps – заданная точность переменной.
Проведя анализ над полученной выборкой, используя формулы из табл. 1, можно получить данные о статистическом распределении функции. Перцентили P10, P50, P90 рассчитываются либо по уравнению (3), используя вероятности 0,9, 0,5 и 0,1, либо путём ранжирования и разбиения множества полученных результатов.
Результаты
Случайная выборка или латинский гиперкуб
Для сравнения методов выборки случайных чисел была выбрана простая функция произведения двух случайных величин вида Y = X1·X2. Было проведено 20 расчётов с 10, 100, 1000 и 10000 симуляций, с использованием случайной выборки и с помощью латинского гиперкуба. Затем были рассчитаны ошибки среднего и среднеквадратичного отклонения относительно результатов, рассчитанных аналитическим способом. Результаты расчёта представлены на рис. 4. Как видно из рисунка, латинский гиперкуб во всех вариантах даёт меньшую погрешность, по сравнению со случайной выборкой (около 2 раз). Однако необходимо учитывать, что данный результат связан с несовершенством генератора случайных чисел. В настоящее время большинство генераторов случайных чисел завязаны на алгоритме псевдослучайных чисел, которые, в свою очередь, зависят от текущего такта центрального процессора компьютера.
Аналитическое решение
Формулы для аналитического решения представлены в уравнениях (13–26).
Однако данные уравнения были модифицированы, т.к. в качестве входных данных использовались усечённые распределения. В табл. 4 представлены результаты аналитических расчётов. Полученные результаты использовались для сравнения с результатами, полученными путём симуляции Монте-Карло при разном количестве симуляций.
Таблица 4. Результаты аналитического вероятностного подсчёта ресурсов
Table 4. Results of analytical probabilistic resources estimation
Параметр Parameter | Среднее Mean | Среднеквадратичное отклонение Standard deviation | MIN | MAX | Среднее усечённое Truncated mean | Среднеквадратичное отклонение усечённое Truncated standard deviation |
Общий объём пород, тыс. м³ Total rock volume, thousand m³ | 635601737 | 400048056 | ||||
Доля коллектора, д. ед. Net to Gross ratio, units | 0,70 | 0,08 | 0,60 | 0,80 | 0,70 | 0,05 |
Коэффициент пористости, д. ед. Porosity, units | 0,20 | 0,03 | 0,15 | 0,25 | 0,20 | 0,02 |
Коэффициент нефтенасыщенности, д. ед. Oil saturation coefficient, units | 0,68 | 0,10 | 0,60 | 0,75 | 0,68 | 0,04 |
Пересчетный коэффициент, д. ед. Formation volume factor, units | 0,80 | 0,05 | 0,70 | 0,90 | 0,80 | 0,04 |
Плотность нефти, т/м³ Oil density, t/m³ | 0,85 | 0,05 | 0,70 | 0,90 | 0,84 | 0,04 |
Геологические ресурсы нефти, тыс. т Geological resources of oil, thousand tons | 40186295 | 26558156 | ||||
Коэффициент извлечения нефти, д. ед. Oil recovery factor, units | 0,30 | 0,05 | 0,20 | 0,40 | 0,30 | 0,04 |
Извлекаемые ресурсы нефти, тыс. т Recoverable oil resources, thousand tons | 12055888 | 8244297 |
Число симуляций
Были проведены серии расчётов аналитическим методом и методом имитационного моделирования для различного числа симуляций. Для исключения влияния генератора случайных чисел расчёт повторялся 50 раз, каждый раз генерировались новые массивы случайных чисел. Анализировалось среднее значение погрешности при 10, 50, 100, 200, 500, 1000, 10000, 50000 и 100000 симуляций подсчёта ресурсов (табл. 5).
Оценивалась погрешность результатов относительно аналитического решения, которое даёт точный ответ. Увеличение числа симуляций повышает точность вычислений. Кроме того, расчёты чувствительны к генератору случайных чисел, из-за чего возможны случаи, когда большое число симуляций может снизить точность. Эмпирическим путём были получены формулы, с помощью которых можно определить требуемое число симуляций (рис. 5).
Таблица 5. Влияние количества симуляций на ошибку при симуляции Монте-Карло
Table 5. Effect of the number of simulations on the Monte Carlo simulation error
Параметр Parameter | Аналитическое решение Analytical Solution | Кол-во симуляций Монте-Карло Number of Monte Carlo simulations | ||||||
10 | 100 | 1000 | 10000 | 50000 | 100000 | |||
1 реализация 1 simulation | Среднее значение извлекаемых ресурсов нефти, тыс. т Mean of recoverable oil resources, thousand tons | 12055888 | 8222317 | 12273603 | 11924966 | 12016274 | 12071106 | 12048959 |
Среднеквадратичное отклонение извлечённых ресурсов нефти Standard deviation of recoverable oil resources | 8244297 | 5547411 | 7475631 | 8107110 | 8352298 | 8251386 | 8190219 | |
Погрешность данной реализации Error of this implementation | 0,0 | 0,3180 | 0,0181 | 0,0109 | 0,0033 | 0,0013 | 0,0006 | |
ИТОГИ RESULTS | Среднее значение ошибки Average error | 0,1582 | 0,0562 | 0,0201 | 0,0055 | 0,0023 | 0,0018 | |
Среднеквадратичное отклонение ошибки Standard deviation of error | 0,1363 | 0,0420 | 0,0144 | 0,0044 | 0,0017 | 0,0013 | ||
V2 | 0,7426 | 0,5582 | 0,5135 | 0,6206 | 0,5843 | 0,5364 |
Рисунок 4. Сравнение методов выборки случайного числа
Figure 4. Comparison of random number sampling methods
Рисунок 5. Средняя погрешность при разном количестве симуляций
Figure 5. Average error for different number of simulations
Выводы
Аналитический расчёт при вероятностном подсчёте ресурсов позволяет с наименьшими вычислительными затратами найти точную функцию распределения геологических и извлекаемых ресурсов. Однако при использовании аналитического расчёта возникают трудности с выводом формул, а также высокой вероятностью допущения технической ошибки при проведении вычислений.
Симуляция Монте-Карло позволяет приближенно находить решение для сложных функций, в которых может быть большое количество переменных. Точность решения зависит от количества симуляций, однако после определенного порога дополнительное увеличение количества симуляций практически не увеличивает точность расчёта.
Имеющиеся в настоящее время генераторы случайных чисел, основанные на алгоритме псевдослучайных чисел, не являются совершенными. Латинский гиперкуб в качестве метода выбора при определении случайных величин позволяет в некоторой степени уменьшить влияние генератора случайных чисел. По результатам расчётов, латинский гиперкуб показывал точность большую в среднем в 2 раза, по сравнению с использованием метода случайной выборки. С другой стороны, латинский гиперкуб, в свою очередь, требует дополнительных вычислений, что может быть скомпенсировано большим количеством симуляций с использованием метода случайной выборки.
По результатам работы были выведены формулы, позволяющие определить количество симуляций для получения функций распределения геологических или извлекаемых ресурсов с заданной точностью. Например, если необходима точность порядка 1%, то необходимо проведение порядка 10000 симуляций. В большинстве случаев такой точности, учитывая неопределенность входных данных, будет достаточно. Важным является исключение значимого влияния метода расчёта на итоговый результат, т.е. обеспечение повторяемости результатов.
ДОПОЛНИТЕЛЬНО
Источник финансирования. Автор заявляет об отсутствии внешнего финансирования при проведении исследования.
Конфликт интересов. Автор декларирует отсутствие явных и потенциальных конфликтов интересов, связанных с публикацией настоящей статьи.
ADDITIONAL INFORMATION
Funding source. This study was not supported by any external sources of funding.
Competing interests. Author declare that he has no competing interests.
About the authors
Raman M. Sadykov
KMG Engineering
Author for correspondence.
Email: r.sadykov@niikmg.kz
ORCID iD: 0000-0002-5936-2036
Kazakhstan, Astana
References
- Metropolis N, Ulam S. The Monte Carlo Method. Journal of the American Statistical Association. 1949;44(247):335–341.
- Shiryaev AN. Probability. Moscow: Nauka; 1980.
- Iman RL. Latin Hypercube Sampling. Wiley StatsRef: Statistics Reference Online. 2014. doi:.10.1002/9781118445112.stat03803.
- Dekking FM, Kraaikamp C, Lopuhaa HP, Meester LE. A modern introduction to probability and statistics: understanding why and how. London: Springer; 2005.
- Christian W (Particle Physics Group Fysikum University of Stockholm). Hand-book on Statistical Distributions for experimentalists. Internal Report. Stockholm; 1996. Report No.: SUF-PFY/96-01.