Orbit NG: QP(Orbit 1.9.8)の結果とOrbit NG(Elastic)の結果に違いがあるのはなぜですか?

変更日 木, 5 9月, 2024 で 8:58 午前

事前に読んでおきたい関連記事: Orbit NG: 新しい検索のためのインフラ 


目次


データに関する説明

Orbit NGとQP(Orbit 1.9.8) 検索エンジンの数としての差異は微差ですが、 これら2つの検索エンジンは同じものではなく、データもまったく同じではないため、微妙に異なる結果をなぜもたらすのかを説明します。


データ索引は 旧バージョン QPと新バージョン NG(Elasticサーチ)で厳密に同一ではありません:

  • QP 内では、FULLTEXTデータベースでは公報が提供元から届き次第Orbit Intelligenceに掲載されていました。FAMPATのファミリーとFULLPATの出願データは、週に一度(日曜日)、データ構築が行われると更新されていました。一方、Orbit NG(Elasticサーチ)では、すべての公報/出願/ファミリーが同時にデータ投入され、更新されます。これにより、3つのコレクションの同期更新が簡素化され、以前よりも高速になりました。
    • このプロセスの直接的な結果として、火曜日とその翌日には、Elastic Search(Orbit NG)で検索すると、旧バージョン(QP)で検索した場合よりも多くの検索結果が得られることになります。
  • 更新とバグ修正などは新バージョンのOrbit NG(Elasticサーチ)のコレクションに適用され、QPデータベースには常には適用されません。
    • このような改善によって相当数の文書の更新されない、あるいはその差がほとんどない場合は、QPデータの更新を行わず、齟齬が生じないようにし、より長期間の運用を確保します。


エイリアスの違いと検索フィールドの違い

エイリアスとは、現在の検索フィールドの多くを置き換える検索フィールドのことで、各フィールドを列記することを回避できます。以下に影響のあるエイリアスのリストと、以前/現在の動作を示します:

  • /IPC と /CPC
    • 旧エンジンでは、/IPC/CPCはエイリアスで現在および過去のすべてのIPCコードを検索していました。
    • 新エンジン(Elasticサーチ)では、/CPCと/IPCは現在の分類コードのみを検索するため、エイリアスによる置き換えがなくなりました。分類の履歴を含めるには、/ICH と /CPCH フィールドを明示的に追加してください。  


F演算子の違い

F演算子は同じフィールド内を検索することができます。 旧バージョン QPでは

(Usb F Key)/TI/AB
Generic

"Usb "と "Key "がタイトルまたは要約に同時に存在する文書を検索します。


しかし新バージョンOrbit NGでは、この演算子は少し違った働きをします:

  • 旧エンジンでは、SDOC演算子に基づいて、同じ公開段階で検索を行っていました。
  • 新エンジンでは、F演算子は、ファミリー/出願の異なる公開段階間で同じフィールド内を検索します。以前の動作を踏襲する必要がある場合は、99DまたはP演算子に置き換えてください。


SおよびP演算子の違い


F演算子で検索される動きがわずかに変わったことに伴って、S演算子やP演算子も、主に新バージョン(Orbit NG)での文章や段落の構造によって進化します:

  • エラスティック サーチの文章のルール制限により、検索語の数は200語までに制限されます。さらに、段落は 20,000語までのかたまりとして定義されます。これらの数値を超えると、各構造は2つに分割、または文や段落を充足するのに必要な数に分割されます。そのため、検索された2つの単語が上記の制限を超える語数で区切られている場合、旧エンジンQPでは文書が見つかり、新エンジンESでは見つからないことがあります。
  • 2つ以上の単語がSまたはPと組み合わされる場合、例えば以下のようになります:
(Usb S key S keyboard)/TI
Generic
  • QPでは、まずUsbをkeyと同じ文章で検索し、次にKeyをKeyboardと同じ文章で検索します
  • ESでは、すべての用語が同じ文の一部でなければヒットしません。


DおよびW演算子の違い


新バージョンでの演算子DとWは、上述のほかの演算子同様に文章と段落の構造を尊重します。


例えば、 

(Key 3D Usb)
Generic

という構文は、KeyがUsbの後ろにあったり、Usbという単語が別の文の頭にある場合、たとえ文書を読んだときにこれらの単語が近かったとしても、検索できません。


200語の文章構造は、特別に長い文章に影響があるかもしれません。とはいえ、主な違いは単語間の距離計算にあり、例えば次のような検索がります。

key 1D usb 3D keyboard
Generic

QPでは、演算子SとPで説明したように、この場合2回検索され、KeyとUsbが1語で区切られるところと、それからUsbとKeyboardを最大3語まで区切られるところをもう1回検索します。


ESでは、この3つの単語が 4つの単語(1+3)で区切られる場所を検索します。


QP検索を模倣するには、次のように括弧を入れなければなりません:

 ((key 1D usb) 3D keyboard)

この記事は役に立ちましたか?

それは素晴らしい!

フィードバックありがとうございます

お役に立てず申し訳ございません!

フィードバックありがとうございます

この記事に改善できることがあれば教えてください。

少なくとも一つの理由を選択してください
CAPTCHA認証が必要です。

フィードバックを送信しました

記事の改善におけるご協力ありがとうございます。