Исходные данные, на мой взгляд, абсолютно понятны: в таблице учитываются количества ежедневных открытий произведений Пупкина (столбцы P-BZ,
начиная со строки 4 и ниже). Информация полезная, поскольку, в первую очередь, помогает самому автору понять, насколько востребованными являются его опусы. Очевидно, что на обозрении находятся данные за 62 дня, считая от текущей даты. Данные за эту дату в какой-то момент времени могут в таблице и отсутствовать в зависимости от соотношения поясного времени местонахождений автора и сервера «СИ». Но в любом случае, в течение 24 часов данные в столбце текущей даты появятся.
В левой части таблиц (столбцы D-O «За последние 12 месяцев») находятся данные, просуммированные по соответствующим месяцам. Понятно, что данные текущего календарного месяца (столбец D) ежедневно (а точнее, один раз в сутки) корректируются в зависимости от числа посетителей за последний день. Построчные суммы этих данных выводятся в столбец C «12 мес.». Одновременно на соответствующие величины увеличиваются данные в столбце B «Всего» и итоговое за всё время существования раздела количество посещений (ячейка B3 «По разделу, всего»). В течение первых 12-ти месяцев существования раздела данные в столбцах D и C совпадают, за исключением данных в ячейках B3 и С3 (о которой речь пойдёт ниже).
Понятно и другое: количества посещений, указанные в столбце B «Всего», считаются нарастающим итогом с момента образования раздела и могут только увеличиваться
3.
В отличие от этого, через 12 месяцев существования раздела данные в столбце C «За 12 мес.» могут как увеличиваться, так и уменьшаться. Причина явления очевидна: при переходе в 13-й месяц данные за месяц 1-й из пространства D-O убираются, все месяцы как бы сдвигаются на один столбец вправо, а в столбце D начинают накапливаться данные о посещениях за текущий, 13-й месяц. Соответствующим образом изменяются и суммарные данные за
последние 12 месяцев в столбце C. И если по тому или иному произведению посещаемость в 13-м месяце ниже, чем в 1-ом, естественно, величина в соответствующей произведению ячейке столбца C уменьшится. Как объясняется
в одном из разделов помощи «СИ»,
«это сделано, чтобы уравнять в рейтинге новичков и старичков».
Кроме того, в том же разделе утверждается, что,
«если в прошлом январе автора читали активнее, то посещаемость за 12 месяцев у него будет идти на спад, если в этом январе "прибыль" больше "убытка", то раздел будет подниматься в общем рейтинге посещаемости».
А вот соответствует ли истине это утверждение, надо бы уточнить.
Для начала попытаемся выяснить, что за показатель находится в строке 3 «По разделу», начиная с ячейки C3, и вправо, до конца таблицы. Впрочем, ответ на этот вопрос даётся на
«F.A.Q. журнала Самиздат», а также неоднократно звучит на страницах технического форума. Суть ответа сводится к следующему: ежедневно в строке C указывается наибольшая за данный день посещаемость
«какой-либо одной работы» не больше и не меньше. Назовём пока эту величину числом
N (не путать с одноимённым столбцом).
Безусловно, как
некий показатель посещаемости раздела, N имеет право на существование ровно в той же степени, в какой по размеру самой большой рыбы можно судить о количественных характеристиках работы рыболовецкого сейнера за день. Вот только отражают ли эти показатели реальную картину что для сейнера, что для «Самиздата»?
Приведу простейший пример.
| День 2 | День 1 |
По разделу | 23 | 21 |
Опус 1 | 0 | 20 |
Опус 2 | 0 | 21 |
Опус 3 | 23 | 19 |
Сумма | 23 | 60 |
Рейтинг | 7,7 | 20,0 |
Давайте сравним показатели двух дней. В существующей нынче схеме
День 2 превзошёл по посещаемости
День 1, поскольку показатель N
Опуса 3 был максимальным и оказался даже выше, чем аналогичный показатель
Опуса 2 за день предыдущий. Нормально? Возможно. Да вот только речь-то везде идёт о
посещаемости, а она как раз в целом по разделу в первый день была чуть ли не в три раза выше, чем во второй. Справедливо ли в данной ситуации «пальму первенства» за посещаемость отдавать второму дню? Очевидно нет!
Не менее очевидно, что общая посещаемость раздела, указанная в одной из жёлтых строк таблиц, является более объективным показателем популярности раздела (а в конечном итоге, вся таблица, как понимается, направлена на определение именно этого параметра. Но, как совершенно справедливо отмечалось в F.A.Q., показатель общей посещаемости заведомо ставит авторов-новичков и пишущих на «СИ» уже много лет в изначально не равные условия: понятно, что
суммарная посещаемость десяти произведений, скорее всего, будет выше, чем число посетителей одного-единственного опуса.
И что же делать? Что брать за объективный показатель? Здесь наука статистика постаралась за нас. Есть в ней весьма подходящий, на мой взгляд, показатель
импакт-фактор. Определяет он, правда, численный показатель важности научного журнала и исходит из количества цитирований материалов данного журнала и общего количества статей, размещённых в нём. Но если мы слово «журнал» заменим на слово «раздел», а «количество цитирований» на «количество посещений», то и непонятное название «импакт-фактор» вполне может быть заменено на «рейтинг посещаемости».
Иначе говоря, достаточно суммарное количество посещений за день разделить на количество статей в разделе, как появляется достаточно объективный показатель дневной посещаемости раздела. Именно этот показатель указан во второй, нижней строке жёлтых пар. Достаточно беглого взгляда по всем таблицам, чтобы понять: приведённый «рейтинг» описывает посещаемость раздела гораздо более объективно, нежели существующий показатель N.
Для получения месячного рейтинга достаточно сложить рейтинги по дням и разделить на соответствующее количество дней: для первого месяца существования раздела на количество дней его существования, для остальных на календарное количество дней в месяце. Таким образом решается вопрос об изменении суммарного количества посещений, связаном с размещением произведений в течение текущего месяца.
Мне не до конца ещё понятно, как необходимо расчитывать рейтинг за год, спустя более 12-ти месяцев существования раздела. Поэтому в соответствующей ячейке B10 таблицы 3 стоит вопросительный знак. Но, думаю, светлые головы «Самиздата» смогли бы решить и этот вопрос.
С позиций вычислительных ресурсов (ведь расчёты ежедневно выполняются для каждого автора), думаю, нагрузка увеличится незначительно, поскольку исходные данные для расчёта так или иначе обсчитываются и сегодня. Построение алгоритма не вопрос, изменение интерфеса таблицы тоже. Остановка за одним «политической волей» командиров «Самиздата».
Магадан, 24 июля 2012 г.
* * *
1
Отдельный вопрос ещё как на этот форум попасть? Всякий ли прочувствует-догадается, что путь туда открывается исключительно со страниц комментариев (?!). М-да... Интуитивным такой пользовательский интерфейс уж явно не назовёшь. Да и нечего за каждой справкой на форум бегать, людей от важных дел отрывать! Какие проблемы? кнопку «Помощь» контекстной сделать, а не отпихивать ею по любому поводу на общую информационную страницу, где эту самую информацию ещё о-очень поискать надо.
2
Понятно, что таблицы столь же условны, как и названный автор. Адресные строки и абсолютные значения исходных цифр указаны и приняты исключительно из соображений удобства.
3
Впрочем, существует одно исключение. Вот какой диалог по этой ситуации я нашёл на форуме:
«Скажите, пожалуйста, если удалить произведение, то отразится ли это на статистике посещаемости в окошке «Всего»? То есть, уменьшится ли там цифра?
Тут всё хитрее. Данные по посещаемости за последние два неполных месяца (скажем, сегодня за апрель и май) считаются «честно». За следующие просто хранится мертвая, ни к чему не привязанная цифра.
Если вы удалите произведение, в которое два последних месяца заходило мало людей (в любой день было другое произведение, где посещаемость выше), то это не повлечет снижения общей посешаемости. Даже если в январе именно удаленное произведение было «паровозом» и посещалось чаще всего итоговая цифра за январь и сумма за год не изменятся.
Если же удаляемое произведение хотя бы один день за последние два месяца было на первом месте среди других ваших произведений по посещаемости то да, снизится.
Причина такого странного поведения: движок Самиздата создавался тогда, когда и место на диске, и вычислительные мощности, и широкие каналы были в дефиците. Поэтому «честной» базы данных с запросами здесь нет: вся статистика считается not-real-time скриптами, запускаемыми время от времени, а старые промежуточные данные стираются.»