コンセプトとキーコンテンツの抽出

変更日月, 14 11月, 2022 で 10:13 午前

コンセプトは、ある特許のキーとなる言葉で公報の全文から人工知能（AI）技術を使用して抽出されたものです。それらは、公報中のセマンティックな内容を反映しています。検索でコンセプトを使用すると、意味的に類似した（共起表現の類似）用語を検索でき、より幅広く網羅的に検索できます。コンセプトは、右側のパネルの「コンセプト」というタブに表示されます。コンセプトをグラフ化することもできます。これについては、以下で詳しく説明します。

たとえば、コンセプトで「cellphone」を検索し、「mobile phones」に言及している特許を見つけます。cellphoneとmobile phoneという用語は文字列は似ていませんが、コンセプトで似ています。

コンセプトのフィールドには3つの値があります。

- コンセプト

- ドキュメント内のこのコンセプトの関連度（relevancy）のパーセンテージ

- 頻度（このコンセプトの出現数）

関連度の低い概念とは、多くの場合、明細書の中間にあるような「あまり関心度の低い（重要でない）」部分の中で1回か2回くらい出現があるコンセプトです。

反対に、本発明の目的の中のコンセプト（出現頻度が１回であっても）は、他の「孤立した（離れた）」場所にあるコンセプトよりも高い関連度スコアになります。

コンセプトのリストは、関連度スコア、次に頻度（スコアが等しい場合）でソートされます。

関連度スコアは常に相対スコアです。最も関連性の高いコンセプトのスコアは100であり、他のすべてのスコアはこれから計算されます。

この計算では、以下の項目が考慮されます。

- 全文におけるコンセプトの位置

- 文中のコンセプトの位置

- テキスト内の頻度とこのコンセプトの他のスコアとの組み合わせ

そして最後に、計算した「生の」スコアは、そのドキュメントの最も関連性の高いスコア100をべ―スに正規化されます。

出力したり、KWICタブを見ると、コンセプトの後ろに括弧で囲まれた2つの数字が続いています。それらは、ドキュメント内のコンセプトの重要度（0から100までの値）とドキュメント内のコンセプトの頻度を指します。

[KWIC]タブの詳細については、以下のリンクを参照してください。

KWIC(Key Words In Context)タブを理解する

キーコンテンツは、全文から言語技術を使用して抽出され、「発明の目的」、「従来技術に対する発明の利点」、および「独立クレーム」で構成されています。このタブは当該発明の要約であり、ヒットした結果をすばやく確認、理解、比較するのに役立ちます。

コンセプトとキーコンテンツは共に、EP出願（Euro‐PCT除く）、WO出願、米国、英国、カナダ、インド、オーストラリア、イスラエルの特許の英語のオフィシャルテキストから抽出されています。また、フランス、中国、韓国、ドイツ、日本の英語翻訳からも抽出されています。すべてのコンセプトは、識別されたフィールド（出現箇所）によって重み付けされています。コンセプトは、その特許のセマンティック内容（共起表現）の抽出結果です。

コンセプトは解析モジュールでグラフ化でき、自身の出願をより理解できます。解析を保存すると、コンセプトをグループ化したり除外することもできます。

保存された解析の詳細については、次の記事をご覧ください。

解析の保存方法と活用