1С-Битрикс Разработчикам - Пример оптимизации "живого" проекта на платформе Битрикс

Активно развивающийся проект на платформе Битрикс 7.0 (Oracle версии 10.2.0.1, размер более 50 ГБ, Linux i386, выделенный сервер).
Предварительное замечание: этот сервер изначально был не совсем подготовлен для быстрой работы: 32-разрядная ОС на оборудовании x86_64, 32-битный Oracle, RAID-6 для файлов БД, 2 не самых быстрых (1.5 ГГц), зато 4-х ядерных процессора и 16 ГБ ОЗУ.
В связи с ростом нагрузки более чем в 2 раза с начала года - более 400,000 хитов в сутки, до 60,000 посетителей в сутки и после недавнего обновления на версию Битрикс 7.0 сайт стал испытывать определённые проблемы:

При load average 60 сайт удовлетворительно работал(что само по себе удивительно, Максим Смирнов искренне порадовался стабильности работы Linux+Oracle), при нагрузке 75 чувствовались проблемы.
Поскольку основную нагрузку создавали процессы Oracle, первым делом анализируем его.
Из отчётов AWR/statspack виясняем, что основное время пользовательские процессы вели активную "умственную" деятельность (CPU time):

[FONT=Courier]Top 5 Timed Events                                         Avg %Total
~~~~~~~~~~~~~~~~~~                                        wait   Call
Event                                 Waits    Time (s)   (ms)   Time
------------------------------ ------------ ----------- ------ ------
CPU time                                          8,511         73.6
db file scattered read            2,836,881       1,012      0   8.7
db file sequential read           2,452,163         606      0   5.2
log file sync                        24,138         463     19   4.0
log file parallel write              26,075         283     11   2.4
---------------------------------------------------------------------
Instance Efficiency Percentages (Target 100%)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
            Buffer Nowait %:   99.98       Redo NoWait %:  100.00
            Buffer  Hit   %:   94.95    In-memory Sort %:  100.00
            Library Hit   %:   98.75        Soft Parse %:   98.75
         Execute to Parse %:    7.35         Latch Hit %:   99.90
Parse CPU to Parse Elapsd %:   86.79     % Non-Parse CPU:   96.29[/FONT]

Ну и поскольку мы видим, что на разбор SQL тратится совсем немного времени, менее 4% (%Non-Parse CPU: 96.29), а думать пользовательским процессам вообще говоря не о чем, кроме разбора и выполнения - ищем неэффективные запросы - с помощью тех же родных оракловских инструментов AWR/statspack выявляем самые ресурсоёмкие (по критериям SQL ordered by Elapsed Time, SQL ordered by CPU Time, SQL ordered by Gets) запросы и проверяем инилизационные параметры.
Проверяем ключевые параметры Oracle:

Анализирум-оптимизируем явно "медленные" запросы, достраиваем недостающие индексы на таблицах B_FORUM_PRIVATE_MESSAGE, B_IBLOCK_ELEMENTB_IBLOCK_SECTION_ELEMENT, B_STAT_* - скрипты для создания индексов отправляем разработчикам для включения в будущие релизы Битрикса.
Проверяем системную статистику Oracle - никогда не собиралась, в этом случае это оправдано, т.к. используется 32-битный Oracle с ограничением SGA ~ 2,7 GB, т.е. наша БД активно использует кеш файловой системы и для неё операции физического чтения это чтение из кэша - в общем, "правды нет" и системная статистика тут вряд ли поможет.
Load_average ~ от 10 до 15
Проверяем httpd сервер:

Load_average ~ от 8 до 12
Уже удовлетворительно, пробуем копнуть глубже, используем модуль Битрикс "Монитор производительности":

Таким образом с помощью "Монитора производительности" удалось выяснить основную причину проблем - неэффективные постраничные запросы, с выборкой и обработкой всего массива строк на стороне PHP, характерные для "старых" компонентов 1.0. Компоненты 2.0 формируют более оптимальный SQL код - в PHP возвращается из БД точно необходимое для отображения запрошенной станицы количество строк. Обновлённые запросы компонентов 2.0 также более эффективны с точки зрения производительности БД.
Что в результате?

Load_average ~ от 3 до 7
Средний % Idle CPU ~ 40-60% - это тот резерв, которого мы добивались!
С учётом появившегося резерва можно быть уверенным, что сайт выдержит планируемое 2-х кратное увеличение нагрузки.
P.S. Отражение результатов в статистике Oracle

[FONT=Courier]Top 5 Timed Events                                         Avg %Total
~~~~~~~~~~~~~~~~~~                                        wait   Call
Event                                 Waits    Time (s)   (ms)   Time
------------------------------ ------------ ----------- ------ ------
CPU time                                          5,041         80.9
log file sync                        33,127         657     20  10.6
db file sequential read             482,404         379      1   6.1
log file parallel write              33,075         372     11   6.0
SQL*Net message to client        19,624,717          29      0   0.5
---------------------------------------------------------------------[/FONT]

Потребляемое нашей системой CPU time уменьшилось в 1,7 раза: с 8500 до 5000 секунд - система тратит меньше процессорных циклов вследствие оптимизации запросов
Количество операций чтения блоков (db file sequential read) уменьшилось более, чем в 5 раз
Многоблочное чтение (FULL SCAN'ы, db file scattered read) исчезли из TOP-5 - большая часть доступа к данным происходит по индексам
Операции, связанные с записью лог-файлов (log file sync, log file parallel write) незначительно увеличились количественно, что говорит о возросшем количестве транзакций (нагрузке), но продолжают быть достаточно медленными - 20 миллисекунд, это много, и является последствием использования RAID-6 для БД

Предыдущие комментарии 9

Дегтярёв Михаил

Пользователь 17315 24 Ноябрь, 2008 21:00

ИМХО, RAID 6 на нормальном контроллере помедленнее, чем RAID 5, но не настолько, как вы говорите.
Я так понял, что вас спас именно переход на компоненты 2.0? Код компонентов вы не меняли?

0 Ответить Ещё

Usoltsev Igor

Пользователь 16965 25 Ноябрь, 2008 11:04

Я не сравниваю друг с другом RAID 6 и RAID 5, оба эти варианта для файлов БД не предназначены. Из уровней RAID для БД рекомендуется RAID 10, работающий предсказуемо быстро на любом оборудовании (контроллере).
В компонентах 2.0 используются оптимизированная обработка постраничных запросов и со стороны БД (более быстрые запросы), и со стороны PHP (обработка меньшего объёма данных). Снижается нагрузка и на БД, и на Веб - в посте просто приведён наглядный пример с точки зрения производительности системы.

Левый Иван

Пользователь 16182 6 Март, 2009 21:41

А у меня "Эксперт", и 15 сайтов в многосайтовой системе с тысячной посещаемостью каждый, которые очень даже активно нагружают сервер.

Монитор производительности очень бы пригодится, а покупать ради него "Бизнес" где есть только дополнительный интернет-магазин (который нам не нужен) совсем не хочется.

Интересно, можно ли модуль монитора аккуратно установить на проекте, потестировать, а потом удалить?

Пример оптимизации "живого" проекта на платформе Битрикс

Продукты

Управление сайтом

Битрикс24

Интернет-магазин + CRM

Решения

Для интернет-магазинов

Каталог готовых решений

Внедрение

Выбрать партнера

Проверить партнера

Стать партнером