チケット #30 (closed タスク: fixed)

登録: 17 年

最終更新: 17 年

現行 OReFiL システムの分析

報告者: h-morita 担当者: h-morita
優先度: 各マイルストーンで解決する マイルストーン: Iterate2(11/22)
コンポーネント: OReFiL バージョン:
キーワード: 関係者:
GanttChart表示: OFF 依存TaskNo:
開始予定日: YYYY/MM/DD 終了予定日: YYYY/MM/DD

説明 (最終更新者: h-morita) (diff)

現行システム分析結果

構成

現行 OReFil システムの構成

  • Linux
  • Apache
    Apache2 (/opt/apache2) を利用している模様。
    /etc/httpd/conf/httpd.confは使われていない模様。
  • Perl
    CGI スクリプトとして動作。
    森田環境では別途 Template モジュールを導入。
  • Berkeley DB
    文書 ID からオンラインリソースの各種属性情報を引く為に利用されている模様。
    Perl の DB_File モジュール経由で利用されている。
    バージョンは4.2のものに依存している。
  • Lemur
    メインの検索エンジン。
    検索文字列から文書 ID を引く為に利用される。
    内部的には IndriRunQuery コマンドを利用している。

検索時の動作フロー

フロントエンドである index.cgi (実体は index07.cgi)はおおよそ以下のようなフローをたどる。

  1. 初期化
  2. バックエンドに対し問い合わせ
    1. 入力されたパラメータを元に IndriRunQuery
      • 以下のフォーマットで出力される(TREC フォーマット)
        <queryID> Q0 <DocID> <rank> <score> <runID>
        
      • <DocID> はさらに以下のフォーマットで出力される
        <id>|<url>|<pmids>
        
    2. IndriRunQuery の結果を元に、map して grep して map
      1. 1回目の map
        IndriRunQueryの結果をパース。
      2. grep
        パース結果をフィルタ。
      3. 2回目の map
        パース結果を元に属性情報を取り出し、検索結果用のタプルを作る。
        MeSH の出現頻度を累計
  3. MeSH の出現頻度を加工
  4. Index の最終作成日を算出 インデックスファイルの更新日時を元に算出
  5. Template モジュールに食わせる元データの作成
  6. Template エンジンを実行

チケットの履歴

更新者: h-morita (17 年 前)

  • 分類不具合 から タスク に変更されました。

分類を修正。

更新者: h-morita (17 年 前)

  • ステータスnew から closed に変更されました。
  • 解決方法fixed に設定されました。
  • 説明 が変更されました (diff)

チケット概要に書かれた分析結果を成果物として、一旦タスクをクローズとする。

Note: チケットについてのヘルプは TracTickets を参照 して下さい。