[学士論文] 情報検索に基づくバグ箇所局所化のためのクエリ再構成手法の効果

小林研B4の猪俣さんが学士特別課題研究論文(旧学士論文)を提出しました.

題目:情報検索に基づくバグ箇所局所化のためのクエリ再構成手法の効果
論文概要:

ソフトウェア開発において,バグの解消には多くの労力が必要となる.それを支援する方法の1つとして情報検索を使用したバグ箇所局所化が提案されている.

情報検索を使用したバグ箇所局所化では一般的にバグレポートからクエリを作成し,ソースコードファイルを文書とみなして検索を行う.最も簡単な方法はバグレポートをそのままクエリとして使用する方法である.バグレポート全体をクエリとした場合の検索精度は低いため,クエリを改良する様々な手法が提案されている.これらのクエリ改良手法により精度は向上したが,検索精度を最大化するよう最適化した模範クエリと比較すると改善の余地があることがMillsらにより示されている.林らは模範クエリに含まれる単語の特徴を分析することで模範クエリに近いクエリを構成する手法を提案した.しかし,林らは模範クエリに近いクエリを生成できることは示したが,模範クエリに近いクエリが実際に検索精度を改善させるかは明らかにしていない.

本研究で使用したMillsらのデータセットで既存研究のクエリ改良手法および林らの手法のクエリの検索精度をバグレポートをそのまま用いる場合と比較して改善したかどうかを分析する.林らの手法の検索への貢献を詳細に分析するために,林らの手法で生成されたクエリの長さと模範クエリとの関連度を用いて検索精度の改善・悪化を分析する.そこから得られた知見をもとに林らが模範クエリとして有用であると示した特徴7つから1つを除いた6つの特徴を使用する手法を提案する.除く特徴は7つそれぞれ使用するため合計7つの改善手法について検索精度の調査を行う.

本研究では既存のクエリ改良手法および林らの手法のクエリの検索精度がバグレポートをそのまま用いた場合と比較して向上が見られなかったことを明らかにした.林らの手法のクエリは単語を模範クエリと同等の割合で削減すると検索精度が改善する場合が多いことを明らかにし,模範クエリとの関連度は検索精度の改善・悪化にあまり影響を与えないことを明らかにした.本研究で提案した改善手法のうち,林らの手法の有用として使用する特徴7つから「目的格を使用しない」手法と「品詞分類されなかった単語を使用しない」手法が林らの提案手法よりも検索精度を改善させる場合が多いことを明らかにした.