数据创建和修改 > 从外部存储添加数据 > 从数据库获取数据 > 行获取查询

Manticore Search 允许使用专用驱动程序或 ODBC 从数据库中获取数据。当前的驱动程序包括：

mysql - 用于 MySQL/MariaDB/Percona MySQL 数据库
pgsql - 用于 PostgreSQL 数据库
mssql - 用于 Microsoft SQL 数据库
odbc - 用于任何接受 ODBC 连接的数据库

要从数据库中获取数据，必须配置一个类型为上述之一的源。该源需要包含如何连接数据库的信息以及用于获取数据的查询。还可以设置额外的预查询和后查询——用于配置会话设置或执行获取前/后的任务。源还必须包含所获取列的数据类型定义。

Last modified: August 28, 2025

源定义必须包含连接设置，这包括主机、端口、用户凭据或驱动程序的特定设置。

要连接的数据库服务器主机。注意 MySQL 客户端库会根据主机名选择是通过 TCP/IP 还是通过 UNIX 套接字进行连接。具体来说，“localhost”将强制使用 UNIX 套接字（这是默认且通常推荐的方式），而“127.0.0.1”将强制使用 TCP/IP。

要连接的服务器 IP 端口号。对于 mysql，默认值为 3306，而对于 pgsql，默认值为 5432。

在建立连接后使用的 SQL 数据库，并在此数据库内执行进一步查询。

用于连接的用户名。

连接时使用的用户密码。如果密码包含 #（可以在配置文件中用它来添加注释），可以使用 \ 进行转义。

要连接的本地数据库服务器的 UNIX 套接字名称。请注意，是否使用此值取决于 sql_host 设置。

sql_sock = /var/lib/mysql/mysql.sock

MySQL 客户端连接标志。可选，默认值为 0（不设置任何标志）。

此选项必须包含一个整数值，该值为标志的总和。该值将原封不动地传递给 mysql_real_connect()。这些标志在 mysql_com.h 包含文件中枚举。特别感兴趣的与索引相关的标志及其相应的值如下：

CLIENT_COMPRESS = 32；可以使用压缩协议
CLIENT_SSL = 2048；握手后切换到 SSL
CLIENT_SECURE_CONNECTION = 32768；新的 4.1 认证例如，您可以指定 2080（2048 + 32）以同时使用压缩和 SSL，或者指定 32768 仅使用新认证。最初引入此选项是为了能够在不同的主机上使用压缩协议。在 1 Gbps 链路上，尽管压缩减少了网络流量，但实际测试表明，启用压缩可能会显著增加索引时间（报告的总索引时间改进幅度可达 20-30%）。您的体验可能有所不同。

mysql_connect_flags = 32 # enable compression

mysql_ssl_cert - SSL 证书路径
mysql_ssl_key - SSL 密钥文件路径
mysql_ssl_ca - CA 证书路径

unpack_mysqlcompress_maxsize = 1M

要使用 MySQL UNCOMPRESS() 算法解压的列。多值，可选，默认值为空列表。

使用此指令指定的列将由索引器使用 MySQL COMPRESS() 和 UNCOMPRESS() 函数使用的修改过的 zlib 算法进行解压。当在数据库之外进行索引时，这可以让您卸载数据库并节省网络流量。此功能仅在编译时 zlib 和 zlib-devel 都可用时才可用。

unpack_mysqlcompress = body_compressed
unpack_mysqlcompress = description_compressed

默认情况下，用于解压数据的缓冲区大小为 16M。可以通过设置 unpack_mysqlcompress_maxsize 来更改此大小。

使用 unpack_mysqlcompress 时，由于实现细节的原因，无法从压缩数据中推断出所需的缓冲区大小。因此，缓冲区必须提前分配，解压后的数据不能超过缓冲区大小。

unpack_zlib = col1
unpack_zlib = col2

要使用 zlib（又称 deflate 或 gunzip）解压的列。多值，可选，默认值为空列表。仅适用于 mysql 和 pgsql 类型的源。

使用此指令指定的列将由 indexer 使用标准 zlib 算法（称为 deflate 并且也由 gunzip 实现）进行解压。当在数据库之外进行索引时，这可以让您卸载数据库并节省网络流量。此功能仅在编译时 zlib 和 zlib-devel 都可用时才可用。

MS SQL Windows 认证标志。连接到 MS SQL Server 时是否使用当前登录的 Windows 账户凭据进行身份验证。

mssql_winauth = 1

使用 ODBC 的源需要设置 DSN（数据源名称）字符串，可以通过 odbc_dsn 设置。

odbc_dsn = Driver={Oracle ODBC Driver};Dbq=myDBName;Uid=myUsername;Pwd=myPassword

请注意，格式取决于所使用的具体 ODBC 驱动程序。

介行获取查询

Last modified: August 28, 2025

使用所有 SQL 驱动程序，构建一个普通表通常按以下方式进行。

建立与数据库的连接。
执行 sql_query_pre_all 查询以进行任何必要的初始设置，例如使用 MySQL 设置每个连接的编码。这些查询在整个索引过程之前执行，也在重新连接后执行，以索引 MVA 属性和联接字段。
执行 sql_query_pre 预查询以进行任何必要的初始设置，例如设置临时表或维护计数器表。这些查询在整个索引过程只执行一次。
执行 sql_query_pre 的预查询以进行任何必要的初始设置，例如设置临时表，或维护计数器表。这些查询在整个索引过程中只执行一次。
执行主查询 sql_query，并处理它返回的行。
执行后查询 sql_query_post 以进行必要的清理。
关闭与数据库的连接。
索引器执行排序阶段（严格来说，是表类型特定的后处理）。
再次建立与数据库的连接。
执行后处理查询 sql_query_post_index 以进行必要的最终清理。
再次关闭与数据库的连接。

从 MYSQL 获取数据的示例：

source mysource {
  type             = mysql
  path             = /path/to/realtime
  sql_host         = localhost
  sql_user         = myuser
  sql_pass         = mypass
  sql_db           = mydb
  sql_query_pre    = SET CHARACTER_SET_RESULTS=utf8
  sql_query_pre    = SET NAMES utf8
  sql_query        =  SELECT id, title, description, category_id  FROM mytable
  sql_query_post   = DROP TABLE view_table
  sql_query_post_index = REPLACE INTO counters ( id, val ) \
    VALUES ( 'max_indexed_id', $maxid )
  sql_attr_uint    = category_id
  sql_field_string = title
 }
table mytable {
  type   = plain
  source = mysource
  path   = /path/to/mytable
  ...
 }

这是用于从 SQL 服务器检索文档的查询。只能声明一个 sql_query，且必须有一个。另见 Processing fetched data

预取查询或预查询。这是一个多值的可选设置，默认是一个空的查询列表。预查询在 sql_query 之前按其在配置文件中的顺序执行。预查询的结果会被忽略。

预查询用途多样。它们可用于设置编码、标记将要被索引的记录、更新内部计数器、设置各种每连接的 SQL 服务器选项和变量，等等。

预查询最常见的用途可能是指定服务器返回行所用的编码。注意 Manticore 只接受 UTF-8 文本。设定编码的两个 MySQL 特定示例如下：

sql_query_pre = SET CHARACTER_SET_RESULTS=utf8
sql_query_pre = SET NAMES utf8

此外，特定于 MySQL 源，禁用查询缓存（仅限索引器连接）在预查询中很有用，因为索引查询不会频繁重跑，缓存它们的结果没有意义。这可以通过以下方式实现：

sql_query_pre = SET SESSION query_cache_type=OFF

后取查询。此为可选设置，默认值为空。

此查询在 sql_query 成功完成后立即执行。后取查询如果出现错误，会以警告方式报告，但不会终止索引。它的结果集会被忽略。注意此时索引尚未完成，后续索引仍可能失败。因此，不应从这里执行任何永久更新。例如，永久改变最后成功索引 ID 的辅助表更新，不应从 sql_query_post 查询运行，而应从 sql_query_post_index 查询运行。

后处理查询。此为可选设置，默认值为空。

此查询在索引完全且成功完成时执行。如果此查询出现错误，会以警告方式报告，但不会终止索引。它的结果集会被忽略。文本中可以使用 $maxid 宏；它将被展开为索引期间实际从数据库获取的最大文档 ID。如果没有索引任何文档，$maxid 将被展开为 0。

示例：

sql_query_post_index = REPLACE INTO counters ( id, val ) \
    VALUES ( 'max_indexed_id', $maxid )

sql_query_post 和 sql_query_post_index 的区别在于，sql_query_post 在 Manticore 接收到所有文档时立即运行，但后续索引可能因其他原因失败。相反，在执行 sql_query_post_index 查询时，表已确保成功创建。数据库连接会断开重建，因为排序阶段可能非常长，否则会超时。

据库连接理获取的数据

Last modified: August 28, 2025

默认情况下，sql_query结果集的第一列被索引为文档ID。

文档ID MUST 是非常第一个字段，并且 MUST BE 唯一的非零整数，范围从 -9223372036854775808 到 9223372036854775807。

你可以指定最多256个全文字段和任意数量的属性。所有既不是文档ID（第一个字段）也不是属性的列将被索引为全文字段。

声明一个64位 signed 整数。

声明一个布尔属性。它等同于一个位数为1的整数属性。

声明一个浮点属性。

值将以单精度，32位IEEE 754格式存储。表示范围大约是从1e-38到1e+38。可以精确存储的大约7位小数。

浮点属性的一个重要用途是存储以弧度表示的纬度和经度值，以便在查询时进行地理球体距离计算。

声明一个JSON属性。

在索引JSON属性时，Manticore期望一个包含JSON格式数据的文本字段。JSON属性支持任意JSON数据，没有嵌套级别或类型的限制。

声明一个多值属性。

普通属性仅允许每个文档附加一个值。然而，在某些情况下（如标签或类别），希望附加多个相同属性的值，并能够对值列表进行过滤或分组。

MVA可以从列中获取值（如其他数据类型一样）——在这种情况下，结果集中的列必须提供用逗号分隔的多个整数值的字符串——或者通过运行单独的查询来获取值。

在执行查询时，引擎会运行查询，按ID分组结果，并将值分配给表中的相应文档。ID未在表中找到的值将被丢弃。在执行查询之前，任何定义的 sql_query_pre_all 将被运行。

sql_attr_multi 的声明格式如下：

sql_attr_multi = ATTR-TYPE ATTR-NAME 'from' SOURCE-TYPE \
    [;QUERY] \
    [;RANGED-QUERY]

其中

ATTR-TYPE 是 uint，bigint 或 timestamp。
SOURCE-TYPE 是 field，query，ranged-query 或 ranged-main-query。
QUERY 是一个可选的SQL查询，用于获取所有 (docid, attrvalue) 对。
RANGED-QUERY 是一个可选的SQL查询，用于获取最小和最大ID值，类似于 sql_query_range。
退格符只是为了清晰而包含的；所有内容也可以在单行中声明。

它用于 ranged-query SOURCE-TYPE。如果使用 ranged-main-query SOURCE-TYPE，则省略 RANGED-QUERY，并将自动使用与 sql_query_range 相同的查询（在复杂的继承设置中很有用，可以节省手动多次复制相同查询的麻烦）。

sql_attr_multi = uint tag from field
sql_attr_multi = uint tag from query; SELECT id, tag FROM tags
sql_attr_multi = bigint tag from ranged-query; \
    SELECT id, tag FROM tags WHERE id>=$start AND id<=$end; \
    SELECT MIN(id), MAX(id) FROM tags

声明一个字符串属性。每个值的最大大小固定为4GB。

声明一个UNIX时间戳。

时间戳可以存储从1970年1月1日到2038年1月19日之间的日期和时间，精度为一秒。预期的列值应为UNIX格式的时间戳，即自1970年1月1日格林尼治标准时间午夜以来的32位无符号整数秒数。时间戳在内部以整数形式存储和处理。除了以整数形式处理时间戳外，还可以使用不同的日期函数，如时间段排序模式或使用 GROUP BY 进行日/周/月/年提取。

请注意，MySQL中的DATE或DATETIME列不能直接用作Manticore的时间戳属性；需要显式使用UNIX_TIMESTAMP函数（如果数据在范围内）进行转换。

请注意，时间戳不能表示1970年1月1日之前的日期，而MySQL中的UNIX_TIMESTAMP()将不会返回预期的结果。如果你只需要处理日期，而不是时间，可以考虑使用MySQL中的TO_DAYS()函数。

声明一个无符号整数属性。

可以通过在属性名称后附加 :BITCOUNT 来指定整数属性的位数（参见下面的示例）。具有小于默认32位大小或位字段的属性会变慢。

sql_attr_uint = group_id
sql_attr_uint = forum_id:9 # 9 bits for forum_id

声明一个组合字符串属性/文本字段。值将作为全文字段索引，但也会以相同名称存储在字符串属性中。请注意，只有在确定希望该字段以全文方式和属性方式（具有排序和分组的能力）进行搜索时，才应使用此功能。如果你只是想获取字段的原始值，除非你隐式地通过 stored_fields 从存储字段列表中删除了该字段，否则不需要为此做任何操作。

sql_field_string = name

声明一个基于文件的字段。

此指令使索引器将字段内容解释为文件名，并加载和处理所引用的文件。大小超过 max_file_field_buffer 的文件将被跳过。在文件加载过程中（I/O错误、超出限制等）发生的任何错误将作为索引警告报告，并不会提前终止索引。此类文件不会被索引内容。

sql_file_field = field_name

联合/负载字段获取查询。多值，可选，默认为空查询列表。

sql_joined_field 允许使用两种不同的功能：联合字段和负载（负载字段）。其语法如下：

sql_joined_field = FIELD-NAME 'from'  ( 'query' | 'payload-query' | 'ranged-query' | 'ranged-main-query' ); \
        QUERY [ ; RANGE-QUERY ]

其中

FIELD-NAME 是联合/负载字段名称
QUERY 是一个必须获取进一步处理值的SQL查询
RANGE-QUERY 是一个可选的SQL查询，用于获取要处理的值范围

Joined fields 让您避免在主文档查询（sql_query）中使用 JOIN 和/或 GROUP_CONCAT 语句。当 SQL 端的 JOIN 慢，或需要卸载到 Manticore 端，或者仅仅是为了模拟 MySQL 特定的 GROUP_CONCAT 功能（以防您的数据库服务器不支持该功能）时，这会很有用。

查询必须恰好返回 2 列：文档 ID 和要追加到已连接字段的文本。文档 ID 可以重复，但必须是升序。对于给定 ID 获取的所有文本行将被串联在一起，串联结果将作为已连接字段的全部内容进行索引。行将按照查询返回的顺序连接，并在它们之间插入分隔空白字符。例如，如果已连接字段查询返回如下行：

( 1, 'red' )
( 1, 'right' )
( 1, 'hand' )
( 2, 'mysql' )
( 2, 'manticore' )

那么索引结果将等同于为文档 1 添加一个新文本字段，其值为 'red right hand'，为文档 2 添加一个新文本字段，其值为 'mysql sphinx'，其中包括关键字在字段内按照查询顺序出现的位置。如果需要特定顺序，必须在查询中明确指定。

已连接字段只在索引方式上有所不同。已连接字段和常规文本字段之间没有其他区别。

在执行已连接字段查询之前，如果存在任何 sql_query_pre_all 集合，将会被执行。这允许您在已连接字段上下文内设置所需的编码等。

当单个查询效率不够高或由于数据库驱动程序限制而无法工作时，可以使用范围查询。它的工作方式类似于主索引循环中的范围查询。区间将被预先查询并获取一次，然后执行多个带有不同 $start 和 $end 替换的查询以获取实际数据。

使用 ranged-main-query 查询时，省略 ranged-query，它将自动使用 sql_query_range 中的相同查询（在复杂继承设置中非常有用，可以避免手动多次复制相同的查询）。

Payloads 允许您创建一个特殊字段，其中不存储关键字位置，而是存储所谓的用户负载。负载是附加到每个关键字的自定义整数值。然后可以在搜索时用于影响排名。

负载查询必须返回恰好 3 列：

文档 ID
关键字
整数负载值。

文档 ID 可以重复，但必须是升序。负载必须是 24 位范围内的无符号整数，即从 0 到 16777215。

唯一考虑负载的排序器是 proximity_bm25（默认 ranker）。对于具有负载字段的表，它会自动切换到一个变体，该变体匹配这些字段中的关键字，计算匹配负载乘以字段权重的总和，并将该总和加到最终排名中。

请注意，负载字段会被包含复杂操作符的全文查询忽略。它仅适用于简单的词袋查询。

‹›

Configuration file
Just SELECT
Full-text search
Complex full-text search

📋

source min {
    type = mysql
    sql_host = localhost
    sql_user = test
    sql_pass =
    sql_db = test
    sql_query = select 1, 'Nike bag' f \
    UNION select 2, 'Adidas bag' f \
    UNION select 3, 'Reebok bag' f \
    UNION select 4, 'Nike belt' f
    sql_joined_field = tag from payload-query; select 1 id, 'nike' tag, 10 weight \
    UNION select 4 id, 'nike' tag, 10 weight;
}
index idx {
    path = idx
    source = min
}

mysql> select * from idx;
+------+------------+------+
| id   | f          | tag  |
+------+------------+------+
|    1 | Nike bag   | nike |
|    2 | Adidas bag |      |
|    3 | Reebok bag |      |
|    4 | Nike belt  | nike |
+------+------------+------+
4 rows in set (0.00 sec)

请注意，当您搜索 nike | adidas 时，结果中包含 "nike" 的部分因为来自负载查询的 "nike" 标签及其权重而获得更高权重。

mysql> select *, weight() from idx where match('nike|adidas');
+------+------------+------+----------+
| id   | f          | tag  | weight() |
+------+------------+------+----------+
|    1 | Nike bag   | nike |    11539 |
|    4 | Nike belt  | nike |    11539 |
|    2 | Adidas bag |      |     1597 |
+------+------------+------+----------+
3 rows in set (0.01 sec)

请注意，特殊的负载字段会被包含复杂操作符的全文查询忽略。它仅适用于简单的词袋查询。

mysql> select *, weight() from idx where match('"nike bag"|"adidas bag"');
+------+------------+------+----------+
| id   | f          | tag  | weight() |
+------+------------+------+----------+
|    2 | Adidas bag |      |     2565 |
|    1 | Nike bag   | nike |     2507 |
+------+------------+------+----------+
2 rows in set (0.00 sec)

sql_column_buffers = <colname>=<size>[K|M] [, ...]

每列缓冲大小。可选，默认为空（自动推断大小）。仅适用于 odbc，mssql 源类型。

ODBC 和 MS SQL 驱动程序有时无法返回预期的最大实际列大小。例如，NVARCHAR(MAX) 列总是向 indexer 报告其长度为 2147483647 字节，即使实际使用的长度可能远小于此。然而，接收缓冲区仍需预先分配且大小必须确定。当驱动程序根本不报告列长度时，Manticore 会为每个非字符列分配默认的 1 KB 缓冲区，为每个字符列分配 1 MB 缓冲区。驱动程序报告的列长度也会被限制在 8 MB 的上限，因此如果驱动程序报告（几乎）2 GB 的列长度，它会被限制，并为该列分配 8 MB 缓冲区。可以通过 sql_column_buffers 指令覆盖这些硬编码限制，以节省实际较短列的内存或突破 8 MB 限制以支持实际更长列。指令值必须为逗号分隔的选定列名和大小列表：

示例：

sql_query = SELECT id, mytitle, mycontent FROM documents
sql_column_buffers = mytitle=64K, mycontent=10M

行获取查询围查询

Last modified: August 28, 2025

介绍

数据库连接

sql_host

sql_port

sql_db

sql_user

sql_pass

sql_sock

驱动程序的特定设置

MySQL

mysql_connect_flags

SSL 证书设置

unpack_mysqlcompress

unpack_zlib

MSSQL

ODBC

执行 fetch 查询

sql_query

sql_query_pre

sql_query_post

sql_query_post_index

处理获取的数据

属性声明：

sql_attr_bigint

sql_attr_bool

sql_attr_float

sql_attr_json

sql_attr_multi

sql_attr_string

sql_attr_timestamp

sql_attr_uint

sql_field_string

sql_file_field

sql_joined_field

sql_column_buffers