Например такой пример

:
Есть информационная система, в которую постоянно поступают "информационные сообщения". В каждом сообщении система находит "информационные метки", которые указывают на издателя данного информационного сообщения. Процесс поиска метки является ресурсоемким. Само нахождение метки является вероятностным. Т.е. некоторые метки выявляются строго точно, о некоторых можно говорить что они есть в информационном сообщении с какой-то вероятностью. Задача системы, анализируя найденные метки, а) вычислять разного рода информацию об издателях информационных сообщений, в частности, устанавливать, что два сообщения принадлежат одному издателю б) находить нестрогие дубликаты информационных сообщений, в частности устанавливать, что два сообщения от разных издателей относятся к одному событию, хотя и содержат разный набор сведений о событии в) находить "негодные" информационные сообщения. По мере накопления информации алгоритм анализа может меняться. Соответственно автоматическое вычеркивание "негодных" сообщений также приводит к изменениям алгоритма. При изменении алгоритма необходимо делать так, чтобы объем пересчета был минимальным, т.к. накоплено сообщений может быть много. Кроме того задача состоит в том, чтобы бОльшая часть анализа проводилась в момент поступления в очередь обработки нового информационного сообщения, а не, скажем, по расписанию.