事前に読んでおきたい関連記事: Orbit NG: 新しい検索のためのインフラ
目次
データに関する説明
Orbit NGとQP(Orbit 1.9.8) 検索エンジンの数としての差異は微差ですが、 これら2つの検索エンジンは同じものではなく、データもまったく同じではないため、微妙に異なる結果をなぜもたらすのかを説明します。
データ索引は 旧バージョン QPと新バージョン NG(Elasticサーチ)で厳密に同一ではありません:
- QP 内では、FULLTEXTデータベースでは公報が提供元から届き次第Orbit Intelligenceに掲載されていました。FAMPATのファミリーとFULLPATの出願データは、週に一度(日曜日)、データ構築が行われると更新されていました。一方、Orbit NG(Elasticサーチ)では、すべての公報/出願/ファミリーが同時にデータ投入され、更新されます。これにより、3つのコレクションの同期更新が簡素化され、以前よりも高速になりました。
- このプロセスの直接的な結果として、火曜日とその翌日には、Elastic Search(Orbit NG)で検索すると、旧バージョン(QP)で検索した場合よりも多くの検索結果が得られることになります。
- 更新とバグ修正などは新バージョンのOrbit NG(Elasticサーチ)のコレクションに適用され、QPデータベースには常には適用されません。
- このような改善によって相当数の文書の更新されない、あるいはその差がほとんどない場合は、QPデータの更新を行わず、齟齬が生じないようにし、より長期間の運用を確保します。
エイリアスの違いと検索フィールドの違い
エイリアスとは、現在の検索フィールドの多くを置き換える検索フィールドのことで、各フィールドを列記することを回避できます。以下に影響のあるエイリアスのリストと、以前/現在の動作を示します:
- /IPC と /CPC
- 旧エンジンでは、/IPC/CPCはエイリアスで現在および過去のすべてのIPCコードを検索していました。
- 新エンジン(Elasticサーチ)では、/CPCと/IPCは現在の分類コードのみを検索するため、エイリアスによる置き換えがなくなりました。分類の履歴を含めるには、/ICH と /CPCH フィールドを明示的に追加してください。
F演算子の違い
F演算子は同じフィールド内を検索することができます。 旧バージョン QPでは 、
"Usb "と "Key "がタイトルまたは要約に同時に存在する文書を検索します。
しかし新バージョンOrbit NGでは、この演算子は少し違った働きをします:
- 旧エンジンでは、SDOC演算子に基づいて、同じ公開段階内で検索を行っていました。
- 新エンジンでは、F演算子は、ファミリー/出願の異なる公開段階間で同じフィールド内を検索します。以前の動作を踏襲する必要がある場合は、99DまたはP演算子に置き換えてください。
SおよびP演算子の違い
F演算子で検索される動きがわずかに変わったことに伴って、S演算子やP演算子も、主に新バージョン(Orbit NG)での文章や段落の構造によって進化します:
- エラスティック サーチの文章のルール制限により、検索語の数は200語までに制限されます。さらに、段落は 20,000語までのかたまりとして定義されます。これらの数値を超えると、各構造は2つに分割、または文や段落を充足するのに必要な数に分割されます。そのため、検索された2つの単語が上記の制限を超える語数で区切られている場合、旧エンジンQPでは文書が見つかり、新エンジンESでは見つからないことがあります。
- 2つ以上の単語がSまたはPと組み合わされる場合、例えば以下のようになります:
- QPでは、まずUsbをkeyと同じ文章で検索し、次にKeyをKeyboardと同じ文章で検索します。
- ESでは、すべての用語が同じ文の一部でなければヒットしません。
DおよびW演算子の違い
新バージョンでの演算子DとWは、上述のほかの演算子同様に文章と段落の構造を尊重します。
例えば、
という構文は、KeyがUsbの後ろにあったり、Usbという単語が別の文の頭にある場合、たとえ文書を読んだときにこれらの単語が近かったとしても、検索できません。
200語の文章構造は、特別に長い文章に影響があるかもしれません。とはいえ、主な違いは単語間の距離計算にあり、例えば次のような検索がります。
QPでは、演算子SとPで説明したように、この場合2回検索され、KeyとUsbが1語で区切られるところと、それからUsbとKeyboardを最大3語まで区切られるところをもう1回検索します。
ESでは、この3つの単語が 4つの単語(1+3)で区切られる場所を検索します。
QP検索を模倣するには、次のように括弧を入れなければなりません: