Создание и изменение данных > Добавление данных из внешних хранилищ

Тип источника xmlpipe2 позволяет передавать пользовательские полнотекстовые и атрибутные данные в Manticore в пользовательском XML-формате, при этом схема (т.е. набор полей и атрибутов) задаётся либо в самом XML-потоке, либо в настройках источника.

Для объявления XML-потока обязательна директива xmlpipe_command, которая содержит shell-команду, производящую индексируемый XML-поток. Это может быть файл, но также возможно выполнение программы, которая генерирует XML-содержимое на лету.

При индексации источника xmlpipe2 индексатор запускает указанную команду, открывает пайп к её stdout и ожидает правильно сформированный XML-поток.

Вот пример того, как может выглядеть XML-поток данных:

<?xml version="1.0" encoding="utf-8"?>
<sphinx:docset>
<sphinx:schema>
<sphinx:field name="subject"/>
<sphinx:field name="content"/>
<sphinx:attr name="published" type="timestamp"/>
<sphinx:attr name="author_id" type="int" bits="16" default="1"/>
</sphinx:schema>
<sphinx:document id="1234">
<content>this is the main content <![CDATA[and this <cdata> entry
must be handled properly by xml parser lib]]></content>
<published>1012325463</published>
<subject>note how field/attr tags can be
in <b> class="red">randomized</b> order</subject>
<misc>some undeclared element</misc>
</sphinx:document>
<sphinx:document id="1235">
<subject>another subject</subject>
<content>here comes another document, and i am given to understand,
that in-document field order must not matter, sir</content>
<published>1012325467</published>
</sphinx:document>
<!-- ... even more sphinx:document entries here ... -->
<sphinx:killlist>
<id>1234</id>
<id>4567</id>
</sphinx:killlist>
</sphinx:docset>

Разрешаются произвольные поля и атрибуты. Они также могут встречаться в потоке в произвольном порядке в пределах каждого документа; порядок игнорируется. Существует ограничение на максимальную длину поля; поля длиной более 2 МБ будут обрезаны до 2 МБ (это ограничение можно изменить в источнике).

Схема, т.е. полный список полей и атрибутов, должна быть объявлена до начала разбора документов. Это можно сделать либо в конфигурационном файле с помощью настроек xmlpipe_field и xmlpipe_attr_XXX, либо прямо в потоке с помощью элемента <sphinx:schema>. Элемент <sphinx:schema> является необязательным. Его разрешено размещать только в качестве самого первого подэлемента в <sphinx:docset>. Если определение схемы в потоке отсутствует, используются настройки из конфигурационного файла. В противном случае настройки из потока имеют приоритет. Обратите внимание, что идентификатор документа должен быть указан как свойство id тега <sphinx:document> (например, <sphinx:document id="1235">) и должен быть уникальным положительным 64-битным целым числом, не равным нулю.

Неизвестные теги (которые не были объявлены ни как поля, ни как атрибуты) будут проигнорированы с предупреждением. В приведённом выше примере <misc> будет проигнорирован. Все вложенные теги и их атрибуты (например, <strong> внутри <subject>) будут тихо проигнорированы.

Поддержка кодировок входящего потока зависит от наличия установленного в системе iconv. xmlpipe2 анализируется с помощью парсера libexpat, который из коробки понимает US-ASCII, ISO-8859-1, UTF-8 и несколько вариантов UTF-16. Скрипт конфигурации Manticore также проверит наличие libiconv и будет использовать его для обработки других кодировок. Кроме того, libexpat требует использования кодировки UTF-8 на стороне Manticore, потому что возвращаемые им данные всегда находятся в UTF-8.

XML-элементы (теги), распознаваемые xmlpipe2 (и их атрибуты, где применимо):

sphinx:docset — обязательный корневой элемент, обозначает и содержит набор документов xmlpipe2.
sphinx:schema — необязательный элемент, должен либо встречаться как самый первый дочерний элемент sphinx:docset, либо отсутствовать совсем. Объявляет схему документа и содержит определения полей и атрибутов. Если присутствует, он переопределяет настройки источника из конфигурационного файла.
sphinx:field — необязательный элемент, дочерний для sphinx:schema. Объявляет полнотекстовое поле. Известные атрибуты:
- "name" — указывает имя XML-элемента, которое будет рассматриваться как полнотекстовое поле в последующих документах.
- "attr" — указывает, индексировать ли это поле также как строковое. Возможное значение — "string".
sphinx:attr — необязательный элемент, дочерний для sphinx:schema. Объявляет атрибут. Известные атрибуты:
- "name" — имя элемента, который следует трактовать как атрибут в последующих документах.
- "type" — тип атрибута. Возможные значения: "int", "bigint", "timestamp", "bool", "float", "multi" и "json".
- "bits" — размер в битах для типа атрибута "int". Допустимые значения от 1 до 32.
- "default" — значение по умолчанию для атрибута, которое будет использоваться, если элемент атрибута отсутствует в документе.
sphinx:document — обязательный элемент, должен быть дочерним для sphinx:docset. Содержит произвольные другие элементы с значениями полей и атрибутов для индексирования, объявленных либо с помощью sphinx:field и sphinx:attr, либо в конфигурационном файле. Единственный известный атрибут — "id", который должен содержать уникальный целочисленный идентификатор документа.
sphinx:killlist — необязательный элемент, дочерний для sphinx:docset. Содержит несколько элементов "id", содержимое которых — идентификаторы документов, помещаемые в "kill-list" таблицы. Kill-list используется при поисках по нескольким таблицам для подавления документов, которые найдены в других таблицах поиска.

Если XML не содержит определения схемы, типы данных элементов таблиц должны быть определены в конфигурации источника.

xmlpipe_field — объявляет поле типа text.
xmlpipe_field_string — объявляет текстовое поле/строковый атрибут. Колонка будет индексироваться как текстовое поле и одновременно храниться как строковый атрибут.
xmlpipe_attr_uint — объявляет целочисленный атрибут
xmlpipe_attr_timestamp — объявляет атрибут типа timestamp
xmlpipe_attr_bool — объявляет булев атрибут
xmlpipe_attr_float — объявляет числовой с плавающей точкой атрибут
xmlpipe_attr_bigint — объявляет атрибут типа big integer
xmlpipe_attr_multi — объявляет многозначный атрибут с целыми числами
xmlpipe_attr_multi_64 — объявляет многозначный атрибут с 64-битными целыми числами
xmlpipe_attr_string — объявляет строковый атрибут
xmlpipe_attr_json — объявляет атрибут в формате JSON

Если установлена настройка xmlpipe_fixup_utf8, это будет включать проверку и фильтрацию UTF-8 на стороне Manticore для предотвращения сбоев XML-парсера на документах, не являющихся UTF-8. По умолчанию эта опция отключена.

В определённых случаях может быть трудно или даже невозможно гарантировать, что входящие тела документов XMLpipe2 имеют полностью корректное и соответствующее UTF-8 кодирование. Например, в поток могут проникать документы с национальными одно-байтовыми кодировками. XML-парсер libexpat является хрупким, что означает, что он прекратит обработку в таких случаях. Функция исправления UTF8 позволяет избежать этой проблемы. Когда исправление включено, Manticore будет предварительно обрабатывать входящий поток перед передачей его XML-парсеру и заменять недопустимые UTF-8 последовательности пробелами.

xmlpipe_fixup_utf8 = 1

Пример XML-источника без схемы в конфигурации:

source xml_test_1
{
    type = xmlpipe2
    xmlpipe_command = cat /tmp/products_today.xml
}

Пример XML-источника со схемой в конфигурации:

source xml_test_2
{
    type = xmlpipe2
    xmlpipe_command = cat /tmp/products_today.xml
    xmlpipe_field = subject
    xmlpipe_field = content
    xmlpipe_attr_timestamp = published
    xmlpipe_attr_uint = author_id:16
}

Извлечение из CSV,TSV

Last modified: August 28, 2025

TSV/CSV — это самый простой способ передачи данных индексатору Manticore. Этот метод был создан из-за ограничений xmlpipe2. В xmlpipe2 индексатор должен сопоставить каждый тег атрибута и поля в XML-файле с соответствующим элементом схемы. Это сопоставление требует времени, и оно увеличивается с ростом количества полей и атрибутов в схеме. У TSV/CSV такой проблемы нет, так как каждое поле и атрибут соответствуют определённому столбцу в TSV/CSV файле. В некоторых случаях TSV/CSV может работать немного быстрее, чем xmlpipe2.

Первый столбец в TSV/CSV файле должен быть идентификатором документа. Остальные столбцы должны соответствовать объявлению полей и атрибутов в определении схемы. Обратите внимание, что вам не нужно объявлять идентификатор документа в схеме, поскольку он всегда считается присутствующим, должен находиться в 1-м столбце и должен быть уникальным положительным ненулевым 64-битным целым числом со знаком.

Разница между tsvpipe и csvpipe заключается в разделителе и правилах кавычек. В tsvpipe в качестве жёстко заданного разделителя используется символ табуляции, и нет правил кавычек. В csvpipe есть опция csvpipe_delimiter для разделителя со значением по умолчанию , (запятая), а также действуют правила кавычек, такие как:

Любое поле может быть заключено в кавычки
Поля, содержащие разрыв строки, двойные кавычки или запятые, должны заключаться в кавычки
Символ двойной кавычки в поле должен быть представлен двумя символами двойной кавычки

Директива tsvpipe_command является обязательной и содержит команду оболочки, вызываемую для создания TSV потока, который индексируется. Команда может читать TSV файл, но также может быть программой, которая генерирует содержимое с разделителями табуляции на лету.

Для объявления типов индексируемых столбцов можно использовать следующие директивы:

tsvpipe_field — объявляет текстовое поле (text).
tsvpipe_field_string — объявляет текстовое поле/строковый атрибут. Столбец будет как проиндексирован как текстовое поле, так и сохранён как строковый атрибут.
tsvpipe_attr_uint — объявляет целочисленный атрибут.
tsvpipe_attr_timestamp — объявляет атрибут временной метки.
tsvpipe_attr_bool — объявляет булев атрибут.
tsvpipe_attr_float — объявляет атрибут с плавающей запятой.
tsvpipe_attr_bigint — объявляет атрибут с большим целым числом.
tsvpipe_attr_multi — объявляет многозначный атрибут с целыми числами.
tsvpipe_attr_multi_64 — объявляет многозначный атрибут с 64-битными целыми числами.
tsvpipe_attr_string — объявляет строковый атрибут.
tsvpipe_attr_json — объявляет JSON атрибут.

Пример источника, использующего TSV файл:

source tsv_test
{
    type = tsvpipe
    tsvpipe_command = cat /tmp/rock_bands.tsv
    tsvpipe_field = name
    tsvpipe_attr_multi = genre_tags
}

1   Led Zeppelin    35,23,16
2   Deep Purple 35,92
3   Frank Zappa 35,23,16,92,33,24

Директива csvpipe_command является обязательной и содержит команду оболочки, вызываемую для создания CSV потока, который индексируется. Команда может просто читать CSV файл, но также может быть программой, которая генерирует содержимое с разделителями-запятыми на лету.

Для объявления типов индексируемых столбцов можно использовать следующие директивы:

csvpipe_field — объявляет текстовое поле (text).
csvpipe_field_string — объявляет текстовое поле/строковый атрибут. Столбец будет как проиндексирован как текстовое поле, так и сохранён как строковый атрибут.
csvpipe_attr_uint — объявляет целочисленный атрибут.
csvpipe_attr_timestamp — объявляет атрибут временной метки.
csvpipe_attr_bool — объявляет булев атрибут.
csvpipe_attr_float — объявляет атрибут с плавающей запятой.
csvpipe_attr_bigint — объявляет атрибут с большим целым числом.
csvpipe_attr_multi — объявляет многозначный атрибут с целыми числами.
csvpipe_attr_multi_64 — объявляет многозначный атрибут с 64-битными целыми числами.
csvpipe_attr_string — объявляет строковый атрибут.
csvpipe_attr_json — объявляет JSON атрибут.

Пример источника, использующего CSV файл:

source csv_test
{
    type = csvpipe
    csvpipe_command = cat /tmp/rock_bands.csv
    csvpipe_field = name
    csvpipe_attr_multi = genre_tags
}

1,"Led Zeppelin","35,23,16"
2,"Deep Purple","35,92"
3,"Frank Zappa","35,23,16,92,33,24"

Извлечение из XML-потока Схема Main+delta

Last modified: August 28, 2025

Во многих ситуациях полный набор данных слишком велик, чтобы его часто перестраивать с нуля, в то время как количество новых записей остается относительно небольшим. Например, на форуме может быть 1 000 000 архивных сообщений, но ежедневно добавляется только 1 000 новых сообщений.

В таких случаях реализация "живых" (почти в реальном времени) обновлений таблицы может быть достигнута с использованием схемы "main+delta".

Идея заключается в настройке двух источников и двух таблиц: одной "основной" таблицы для данных, которые редко меняются (если вообще меняются), и одной "дельта" таблицы для новых документов. В примере 1 000 000 архивных сообщений будут храниться в основной таблице, а 1 000 новых ежедневных сообщений будут помещены в дельта-таблицу. Затем дельта-таблицу можно часто перестраивать, делая документы доступными для поиска в течение секунд или минут. Определение того, какие документы принадлежат какой таблице, и перестроение основной таблицы могут быть полностью автоматизированы. Один из подходов — создать таблицу-счетчик, которая отслеживает ID, используемый для разделения документов, и обновлять ее при каждом перестроении основной таблицы.

Использование столбца с меткой времени в качестве переменной для разделения более эффективно, чем использование ID, поскольку метки времени могут отслеживать не только новые документы, но и измененные.

Для наборов данных, которые могут содержать измененные или удаленные документы, дельта-таблица должна предоставлять список затронутых документов, гарантируя их подавление и исключение из поисковых запросов. Это достигается с помощью функции, называемой Списки исключений (Kill Lists). ID документов, которые нужно исключить, могут быть указаны во вспомогательном запросе, определенном с помощью sql_query_killlist. Дельта-таблица должна указать целевые таблицы, для которых будут применяться списки исключений, с помощью директивы killlist_target. Влияние списков исключений на целевую таблицу является постоянным, что означает, что даже если поиск выполняется без дельта-таблицы, подавленные документы не появятся в результатах поиска.

Обратите внимание, как мы переопределяем sql_query_pre в источнике дельта. Мы должны явно включить это переопределение. Если мы этого не сделаем, запрос REPLACE будет выполнен также во время сборки источника дельта, что фактически сделает его бесполезным.

‹›

Example

Example

📋

# in MySQL
CREATE TABLE deltabreaker (
  index_name VARCHAR(50) NOT NULL,
  created_at TIMESTAMP NOT NULL  DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (index_name)
);
# in manticore.conf
source main {
  ...
  sql_query_pre = REPLACE INTO deltabreaker SET index_name = 'main', created_at = NOW()
  sql_query =  SELECT id, title, UNIX_TIMESTAMP(updated_at) AS updated FROM documents WHERE deleted=0 AND  updated_at  >=FROM_UNIXTIME($start) AND updated_at  <=FROM_UNIXTIME($end)
  sql_query_range  = SELECT ( SELECT UNIX_TIMESTAMP(MIN(updated_at)) FROM documents) min, ( SELECT UNIX_TIMESTAMP(created_at)-1 FROM deltabreaker WHERE index_name='main') max
  sql_query_post_index = REPLACE INTO deltabreaker set index_name = 'delta', created_at = (SELECT created_at FROM deltabreaker t WHERE index_name='main')
  ...
  sql_attr_timestamp = updated
}
source delta : main {
  sql_query_pre =
  sql_query_range = SELECT ( SELECT UNIX_TIMESTAMP(created_at) FROM deltabreaker WHERE index_name='delta') min, UNIX_TIMESTAMP() max
  sql_query_killlist = SELECT id FROM documents WHERE updated_at >=  (SELECT created_at FROM deltabreaker WHERE index_name='delta')
}
table main {
  path = /var/lib/manticore/main
  source = main
}
table delta {
  path = /var/lib/manticore/delta
  source = delta
  killlist_target = main:kl
}

Извлечение из CSV,TSV Объединение таблиц

Last modified: August 28, 2025

Получение данных из XML-потоков

Объявление XML-потока

Формат XML-файла

Определение данных в конфигурации источника

Специфические настройки XML источника

Загрузка данных из TSV и CSV

Формат файла

Объявление TSV потока

Индексируемые столбцы TSV

Объявление CSV потока

Индексируемые столбцы CSV

Схема main+delta

≫ Добавление данных из таблиц