Manticore Search Manual

注意：与 Apache Superset 的集成需要 Manticore Buddy。如果无法使用，请确保已安装 Buddy。

Apache Superset 是一个现代的数据探索和可视化平台。Manticore Search 可以与 Apache Superset 集成，使用户能够充分利用 Manticore Search 的强大功能进行数据分析和可视化。

注意：此集成仅适用于 Apache Superset 3.x 分支，暂不支持版本 4 或更新版本。

在将 Manticore Search 与 Apache Superset 集成之前，请确保：

Manticore Search（版本 6.2.0 或更高）已正确安装并配置在您的服务器上。请参阅官方 Manticore Search 安装指南寻求帮助。
Apache Superset 已在您的系统上设置完成。请按照官方 Apache Superset 安装指南进行安装。

将 Manticore Search 连接到 Apache Superset 的步骤：

登录到您的 Apache Superset 控制面板。
点击顶部导航栏中的“+”，选择“数据库连接”。
点击“+ DATABASE”添加新数据库。
选择数据库类型为“MySQL”。
在配置页面中填写以下信息：
- 数据库名称：数据库名称（例如，“Manticore”）
- 主机：您的 Manticore Search 服务器主机
- 端口：Manticore Search 运行的端口
- 用户名：您的 Manticore Search 用户名
- 显示名称：连接的显示名称
点击“Connect”验证连接并保存。

连接 Manticore Search 到 Apache Superset 后，您可以使用 Manticore 数据创建图表和仪表板：

在 Apache Superset 控制面板，点击顶部导航栏的“Dashboards”，选择“New dashboard”。
打开仪表板，点击“+”图标添加新图表。
选择已连接到 Manticore Search 的数据集。
选择想要创建的图表类型（例如，条形图、折线图、饼图）。
使用 Apache Superset 的查询构建器或编写 SQL 查询，从 Manticore Search 数据库中提取数据。
根据需要自定义图表的外观、标签和其他设置。
点击“UPDATE CHART”更新图表。
添加图表名称，点击“Save”将其永久保存在仪表板中。

通过 Apache Superset 使用 Manticore Search，您可以：

查看并查询 Manticore Search 表中的数据
基于 Manticore 数据创建各种类型的可视化
使用这些可视化构建和定制仪表板

Manticore Search 的数据类型在与 Apache Superset 交互时会映射为 MySQL 数据类型。有关支持的数据类型及其映射的详细信息，请参阅 Manticore Search 文档。

通过 Apache Superset 使用 Manticore Search 时，一些高级 MySQL 功能可能不可用。
与直接操作 MySQL 数据库相比，某些数据操作可能有所限制。

通过遵循这些步骤和指南，您可以有效地将 Manticore Search 与 Apache Superset 集成，实现强大的数据探索和可视化功能。

有关 Apache Superset 和 Manticore Search 的更多信息，请参阅以下资源：

Apache Superset 集成

SphinxSE

Last modified: August 28, 2025

≫ 扩展

SphinxSE 是一个可以编译进 MySQL/MariaDB 服务器的 MySQL 存储引擎，利用它们的插件架构。

尽管名为 SphinxSE，但它实际上并不存储任何数据。相反，它充当内置客户端，使 MySQL 服务器能够与 searchd 通信，执行搜索查询并检索搜索结果。所有的索引和搜索都在 MySQL 之外进行。

一些常见的 SphinxSE 应用包括：

简化将 MySQL 全文搜索（FTS）应用程序迁移到 Manticore；
使 Manticore 能够与尚未提供原生 API 的编程语言一起使用；
当需要在 MySQL 侧进行额外的 Manticore 结果集处理（例如，与原始文档表的 JOIN 或额外的 MySQL 侧过滤）时提供优化。

您需要获取 MySQL 源代码，准备这些源代码，然后重新编译 MySQL 二进制文件。可以从 http://dev.mysql.com 网站获取 MySQL 源代码（mysql-5.x.yy.tar.gz）。

将 sphinx.5.0.yy.diff 差异文件复制到 MySQL 源代码目录，并运行
```
$ patch -p1 < sphinx.5.0.yy.diff
```
如果不存在与所需具体版本完全匹配的 .diff 文件：构建，尝试使用最近的版本号应用 .diff。重要的是，该补丁应能够应用且没有任何拒绝。
在 MySQL 源代码目录中，运行
```
$ sh BUILD/autorun.sh
```
在 MySQL 源代码目录中，创建 sql/sphinx 目录，并将 Manticore 源代码中的 mysqlse 目录中的所有文件复制到该目录。例如：
```
$ cp -R /root/builds/sphinx-0.9.7/mysqlse /root/builds/mysql-5.0.24/sql/sphinx
```

配置 MySQL 并启用新引擎：

$ ./configure --with-sphinx-storage-engine

编译并安装 MySQL：
```
$ make
$ make install
```

在 MySQL 源代码目录中，创建一个 storage/sphinx 目录，并将 Manticore 源代码中的 mysqlse 目录中的所有文件复制到此新位置。例如：
```
$ cp -R /root/builds/sphinx-0.9.7/mysqlse /root/builds/mysql-5.1.14/storage/sphinx
```
在 MySQL 源目录中，运行：
```
$ sh BUILD/autorun.sh
```
配置 MySQL 并启用 Manticore 引擎：
```
$ ./configure --with-plugins=sphinx
```
编译并安装 MySQL：
```
$ make
$ make install
```

要验证是否已成功将 SphinxSE 编译进 MySQL，请启动新构建的服务器，运行 MySQL 客户端并执行 SHOW ENGINES 查询。您应该会看到所有可用引擎的列表。Manticore 应该在其中，并且 "Support" 列应显示 "YES"：

‹›

sql

📋

mysql> show engines;

‹›

Response

+------------+----------+-------------------------------------------------------------+
| Engine     | Support  | Comment                                                     |
+------------+----------+-------------------------------------------------------------+
| MyISAM     | DEFAULT  | Default engine as of MySQL 3.23 with great performance      |
  ...
| SPHINX     | YES      | Manticore storage engine                                       |
  ...
+------------+----------+-------------------------------------------------------------+
13 rows in set (0.00 sec)

要使用 SphinxSE 进行搜索，您需要创建一个特殊的 ENGINE=SPHINX "搜索表"，然后使用带有全文查询的 SELECT 语句在查询列中进行查询。

以下是一个创建语句和搜索查询的示例：

CREATE TABLE t1
(
    id          INTEGER UNSIGNED NOT NULL,
    weight      INTEGER NOT NULL,
    query       VARCHAR(3072) NOT NULL,
    group_id    INTEGER,
    INDEX(query)
) ENGINE=SPHINX CONNECTION="sphinx://localhost:9312/test";
SELECT * FROM t1 WHERE query='test it;mode=any';

在搜索表中，前三个列必须具有以下类型：第 1 列（文档 ID）为 INTEGER UNSIGNED 或 BIGINT，第 2 列（匹配权重）为 INTEGER 或 BIGINT，第 3 列（您的查询）为 VARCHAR 或 TEXT。这种映射是固定的；您不能省略这三个必需的列，也不能改变它们的顺序或类型。此外，查询列必须索引，而其他列应保持未索引。列名是忽略的，因此您可以使用任意名称。

额外的列必须是 INTEGER、TIMESTAMP、BIGINT、VARCHAR 或 FLOAT。它们将绑定到 Manticore 结果集中的属性，因此它们的名称必须与 sphinx.conf 中指定的属性名称匹配。如果 Manticore 搜索结果中没有匹配的属性名称，则该列将具有 NULL 值。

还可以将特殊“虚拟”属性名称绑定到 SphinxSE 列。为此，请使用 _sph_ 而不是 @。例如，要获取 @groupby、@count 或 @distinct 虚拟属性的值，请使用 _sph_groupby、_sph_count 或 _sph_distinct 列名，分别。

CONNECTION 字符串参数用于指定 Manticore 的主机、端口和表。如果在 CREATE TABLE 中未指定连接字符串，则假定表名为 *（即，搜索所有表）和 localhost:9312。连接字符串的语法如下：

CONNECTION="sphinx://HOST:PORT/TABLENAME"

稍后可以更改默认连接字符串：

mysql> ALTER TABLE t1 CONNECTION="sphinx://NEWHOST:NEWPORT/NEWTABLENAME";

您也可以在每次查询时覆盖这些参数。

如示例所示，查询文本和搜索选项应放置在搜索查询列（即第 3 列）的 WHERE 子句中。选项之间用分号分隔，名称与值之间用等号分隔。可以指定任意数量的选项。可用的选项有：

query - 查询文本；
mode - 匹配模式。必须是 "all"、"any"、"phrase"、"boolean" 或 "extended" 之一。默认为 "all"；
sort - 匹配排序模式。必须是 "relevance"、"attr_desc"、"attr_asc"、"time_segments" 或 "extended" 之一。在除 "relevance" 之外的所有模式中，冒号后还需要属性名（或 "extended" 的排序子句）：
```
... WHERE query='test;sort=attr_asc:group_id';
... WHERE query='test;sort=extended:@weight desc, group_id asc';
```
offset - 结果集中的偏移量；默认为 0；
limit - 从结果集中检索的匹配项数量；默认为 20；

index - 要搜索的表名：

... WHERE query='test;index=test1;';
... WHERE query='test;index=test1,test2,test3;';

minid, maxid - 要匹配的最小和最大文档 ID；
weights - 分配给 Manticore 全文字段的权重逗号分隔列表：
```
... WHERE query='test;weights=1,2,3;';
```

filter, !filter - 逗号分隔的属性名和要匹配的值集合：

# only include groups 1, 5 and 19
... WHERE query='test;filter=group_id,1,5,19;';
# exclude groups 3 and 11
... WHERE query='test;!filter=group_id,3,11;';

range, !range - 逗号分隔的（整数或大整数）Manticore 属性名，以及要匹配的最小和最大值：

# include groups from 3 to 7, inclusive
... WHERE query='test;range=group_id,3,7;';
# exclude groups from 5 to 25
... WHERE query='test;!range=group_id,5,25;';

floatrange, !floatrange - 逗号分隔的（浮点数）Manticore 属性名，以及要匹配的最小和最大值：

# filter by a float size
... WHERE query='test;floatrange=size,2,3;';
# pick all results within 1000 meter from geoanchor
... WHERE query='test;floatrange=@geodist,0,1000;';

maxmatches - maxmatches - 每个查询的最大匹配值，如 max_matches 搜索选项所述：
```
... WHERE query='test;maxmatches=2000;';
```
cutoff - 最大允许匹配数，如 cutoff 搜索选项所述：
```
... WHERE query='test;cutoff=10000;';
```
maxquerytime - 最大允许查询时间（毫秒），如 max_query_time 搜索选项所述：
```
... WHERE query='test;maxquerytime=1000;';
```

groupby - 分组函数和属性。关于分组搜索结果，请阅读此处：

... WHERE query='test;groupby=day:published_ts;';
... WHERE query='test;groupby=attr:group_id;';

groupsort - 分组排序子句：

... WHERE query='test;groupsort=@count desc;';

distinct - 进行分组时用于计算 COUNT(DISTINCT) 的属性：
```
... WHERE query='test;groupby=attr:country_id;distinct=site_id';
```
indexweights - 逗号分隔的表名和权重列表，用于在多个表中搜索时使用：
```
... WHERE query='test;indexweights=tbl_exact,2,tbl_stemmed,1;';
```
fieldweights - 逗号分隔的每字段权重列表，可供排序器使用：
```
... WHERE query='test;fieldweights=title,10,abstract,3,content,1;';
```
comment - 用于在查询日志中标记此查询的字符串，如 comment 搜索选项所述：
```
... WHERE query='test;comment=marker001;';
```
select - 包含要计算的表达式的字符串：
```
... WHERE query='test;select=2*a+3*** as myexpr;';
```
host, port - 远程 searchd 主机名和 TCP 端口，分别对应：
```
... WHERE query='test;host=sphinx-test.loc;port=7312;';
```
ranker - 与 "extended" 匹配模式一起使用的排序函数，如 ranker 所述。已知值有 "proximity_bm25"、"bm25"、"none"、"wordcount"、"proximity"、"matchany"、"fieldmask"、"sph04"、"expr:EXPRESSION" 语法支持基于表达式的排序器（其中 EXPRESSION 应替换为您的特定排序公式），以及 "export:EXPRESSION"：
```
... WHERE query='test;mode=extended;ranker=bm25;';
... WHERE query='test;mode=extended;ranker=expr:sum(lcs);';
```
"export" 排序器的功能类似于 ranker=expr，但它会保留每个文档的因子值，而 ranker=expr 在计算最终的 WEIGHT() 值后会丢弃它们。请注意，ranker=export 旨在偶尔使用，例如训练机器学习（ML）函数或手动定义您自己的排序函数，不应在实际生产中使用。使用此排序器时，您可能需要检查 RANKFACTORS() 函数的输出，该函数会生成一个包含每个文档所有字段级因子的字符串。

‹›

sql

📋

SELECT *, WEIGHT(), RANKFACTORS()
    FROM myindex
    WHERE MATCH('dog')
    OPTION ranker=export('100*bm25');

‹›

Response

*************************** 1\. row ***************************
           id: 555617
    published: 1110067331
   channel_id: 1059819
        title: 7
      content: 428
     weight(): 69900
rankfactors(): bm25=699, bm25a=0.666478, field_mask=2,
doc_word_count=1, field1=(lcs=1, hit_count=4, word_count=1,
tf_idf=1.038127, min_idf=0.259532, max_idf=0.259532, sum_idf=0.259532,
min_hit_pos=120, min_best_span_pos=120, exact_hit=0,
max_window_hits=1), word1=(tf=4, idf=0.259532)
*************************** 2\. row ***************************
           id: 555313
    published: 1108438365
   channel_id: 1058561
        title: 8
      content: 249
     weight(): 68500
rankfactors(): bm25=685, bm25a=0.675213, field_mask=3,
doc_word_count=1, field0=(lcs=1, hit_count=1, word_count=1,
tf_idf=0.259532, min_idf=0.259532, max_idf=0.259532, sum_idf=0.259532,
min_hit_pos=8, min_best_span_pos=8, exact_hit=0, max_window_hits=1),
field1=(lcs=1, hit_count=2, word_count=1, tf_idf=0.519063,
min_idf=0.259532, max_idf=0.259532, sum_idf=0.259532, min_hit_pos=36,
min_best_span_pos=36, exact_hit=0, max_window_hits=1), word1=(tf=3,
idf=0.259532)

geoanchor - 地理距离锚点。在本节中了解更多关于地理搜索的信息。接受 4 个参数，分别是纬度和经度属性名，以及锚点坐标：
```
... WHERE query='test;geoanchor=latattr,lonattr,0.123,0.456';
```

一个 非常重要 的注意事项是，让 Manticore 处理结果集的排序、过滤和分片，比增加最大匹配数并在 MySQL 端使用 WHERE、ORDER BY 和 LIMIT 子句 要高效得多。这有两个原因。首先，Manticore 采用了多种优化措施，并且比 MySQL 更好地执行这些任务。其次，searchd 需要打包、传输以及 SphinxSE 需要解包的数据量会更少。

自 5.0.0 版本起，Manticore 默认存储所有字段。当 Manticore 通过 SphinxSE 与 MySQL 或 MariaDB 一起使用时，存储所有字段通常没有意义，因为原始数据已经存储在 MySQL/MariaDB 中。在此类设置中，建议通过以下设置显式禁用相关 Manticore 表的存储字段：

stored_fields =

请参阅设置参考：stored_fields。

如果您保持默认设置（存储所有字段），然后通过 SphinxSE 一次性选择大量文档，可能会超出引擎的内部限制，并收到类似以下的错误：

"bad searchd response length"

设置 stored_fields = 可以避免将大型存储负载发送回 MySQL/MariaDB，并在典型的 SphinxSE 集成中防止此错误。

您可以使用 SHOW ENGINE SPHINX STATUS 语句获取与查询结果相关的附加信息：

‹›

sql

📋

mysql> SHOW ENGINE SPHINX STATUS;

‹›

Response

+--------+-------+-------------------------------------------------+
| Type   | Name  | Status                                          |
+--------+-------+-------------------------------------------------+
| SPHINX | stats | total: 25, total found: 25, time: 126, words: 2 |
| SPHINX | words | sphinx:591:1256 soft:11076:15945                |
+--------+-------+-------------------------------------------------+
2 rows in set (0.00 sec)

您也可以通过状态变量访问此信息。请注意，使用此方法不需要超级用户权限。

‹›

sql

📋

mysql> SHOW STATUS LIKE 'sphinx_%';

‹›

Response

+--------------------+----------------------------------+
| Variable_name      | Value                            |
+--------------------+----------------------------------+
| sphinx_total       | 25                               |
| sphinx_total_found | 25                               |
| sphinx_time        | 126                              |
| sphinx_word_count  | 2                                |
| sphinx_words       | sphinx:591:1256 soft:11076:15945 |
+--------------------+----------------------------------+
5 rows in set (0.00 sec)

SphinxSE 搜索表可以与其他引擎的表进行连接。以下是使用 example.sql 中的 "documents" 表的示例：

‹›

sql

📋

mysql> SELECT content, date_added FROM test.documents docs
-> JOIN t1 ON (docs.id=t1.id)
-> WHERE query="one document;mode=any";
mysql> SHOW ENGINE SPHINX STATUS;

‹›

Response

+-------------------------------------+---------------------+
| content                             | docdate             |
+-------------------------------------+---------------------+
| this is my test document number two | 2006-06-17 14:04:28 |
| this is my test document number one | 2006-06-17 14:04:28 |
+-------------------------------------+---------------------+
2 rows in set (0.00 sec)
+--------+-------+---------------------------------------------+
| Type   | Name  | Status                                      |
+--------+-------+---------------------------------------------+
| SPHINX | stats | total: 2, total found: 2, time: 0, words: 2 |
| SPHINX | words | one:1:2 document:2:2                        |
+--------+-------+---------------------------------------------+
2 rows in set (0.00 sec)

SphinxSE 还具有一个 UDF 函数，允许您使用 MySQL 创建摘要。此功能类似于 HIGHLIGHT()，但可以通过 MySQL+SphinxSE 访问。

提供 UDF 的二进制文件名为 sphinx.so，应当与 SphinxSE 一起自动构建并安装到相应位置。如果由于某种原因没有自动安装，请在构建目录中找到 sphinx.so，并将其复制到你的 MySQL 实例的插件目录。完成后，使用以下语句注册 UDF：

CREATE FUNCTION sphinx_snippets RETURNS STRING SONAME 'sphinx.so';

函数名必须是 sphinx_snippets；不能使用任意名称。函数参数如下：

原型： function sphinx_snippets ( document, table, words [, options] );

document 和 words 参数可以是字符串或表列。options 必须像这样指定：'value' AS option_name。有关支持的选项列表，请参阅高亮部分。唯一特定于 UDF 的附加选项称为 sphinx，允许你指定 searchd 的位置（主机和端口）。

使用示例：

SELECT sphinx_snippets('hello world doc', 'main', 'world',
    'sphinx://192.168.1.1/' AS sphinx, true AS exact_phrase,
    '[**]' AS before_match, '[/**]' AS after_match)
FROM documents;
SELECT title, sphinx_snippets(text, 'table', 'mysql php') AS text
    FROM sphinx, documents
    WHERE query='mysql php' AND sphinx.id=documents.id;

Apache Superset FEDERATED

Last modified: October 31, 2025

使用MySQL的FEDERATED引擎，您可以从MySQL/MariaDB连接到本地或远程的Manticore实例，并执行搜索查询。

实际的Manticore查询不能直接与FEDERATED引擎一起使用，而必须通过“代理”（作为字符串在列中发送）发送，因为FEDERATED引擎的限制以及Manticore实现自定义语法如MATCH子句。

要通过FEDERATED进行搜索，您首先需要创建一个FEDERATED引擎表。Manticore查询将包含在SELECT语句中执行的FEDERATED表的query列中。

创建一个FEDERATED兼容的MySQL表：

‹›

Example

Example

📋

CREATE TABLE t1
(
    id          INTEGER UNSIGNED NOT NULL,
    year        INTEGER NOT NULL,
    rating      FLOAT,
    query       VARCHAR(1024) NOT NULL,
    INDEX(query)
) ENGINE=FEDERATED
DEFAULT CHARSET=utf8
CONNECTION='mysql://FEDERATED@127.0.0.1:9306/DB/movies';

‹›

Response

Query OK, 0 rows affected (0.00 sec)

查询FEDERATED兼容表：

‹›

SQL

📋

SELECT * FROM t1 WHERE query='SELECT * FROM movies WHERE MATCH (\'pie\')';

‹›

Response

+----+------+--------+------------------------------------------+
| id | year | rating | query                                    |
+----+------+--------+------------------------------------------+
|  1 | 2019 |      5 | SELECT * FROM movies WHERE MATCH ('pie') |
+----+------+--------+------------------------------------------+
1 row in set (0.04 sec)

唯一的固定映射是query列。它是必需的，并且必须是唯一的一个与表关联的列。

通过FEDERATED链接的Manticore表必须是一个物理表（普通或实时）。

FEDERATED表的列名应与远程Manticore表属性相同，因为它们将绑定到Manticore结果集中的属性名称。然而，它可能只映射一些属性，而不是所有属性。

Manticore服务器通过用户名“FEDERATED”识别来自FEDERATED客户端的查询。CONNECTION字符串参数用于指定通过连接发送的查询的Manticore主机、SQL端口和表。CONNECTION字符串的语法如下：

CONNECTION="mysql://FEDERATED@HOST:PORT/DB/TABLENAME"

由于Manticore没有数据库的概念，DB字符串可以是随机的，因为它将被Manticore忽略，但MySQL要求CONNECTION字符串定义中有一个值。如示例所示，完整的SELECTSQL查询应放置在query列的WHERE子句中。

仅支持SELECT语句，不支持INSERT、REPLACE、UPDATE或DELETE。

一个非常重要的注意事项是，允许Manticore执行排序、过滤和切片结果集比在MySQL侧增加最大匹配数并使用WHERE、ORDER BY和LIMIT子句要高效得多。这是有两个原因。首先，Manticore实现了许多优化并在此类任务中表现优于MySQL。其次，Manticore需要传输的数据量更少，因此在Manticore和MySQL之间传输的数据量更少。

可以在FEDERATED表和其他MySQL表之间执行JOIN操作。这可以用于检索未存储在Manticore表中的信息。

‹›

SQL

📋

SELECT t1.id, t1.year, comments.comment FROM t1 JOIN comments ON t1.id=comments.post_id WHERE query='SELECT * FROM movies WHERE MATCH (\'pie\')';

‹›

Response

+----+------+--------------+
| id | year | comment      |
+----+------+--------------+
|  1 | 2019 | was not good |
+----+------+--------------+
1 row in set (0.00 sec)

SphinxSE UDF 和插件

Last modified: April 13, 2026

与 Apache Superset 的集成

前提条件

将 Manticore Search 连接到 Apache Superset

创建图表和仪表板

支持的功能

数据类型处理

限制

参考资料

≫ 扩展

SphinxSE

安装 SphinxSE

编译 MySQL 5.0.x 与 SphinxSE

编译 MySQL 5.1.x 与 SphinxSE

检查 SphinxSE 安装

使用 SphinxSE

关于使用 SphinxSE 时存储字段的重要说明

SHOW ENGINE SPHINX STATUS

通过 MySQL 构建摘要

FEDERATED

使用FEDERATED

FEDERATED提示

查询以JOIN MySQL基于表与由Manticore提供的FEDERATED表：