├── amazon.png ├── essay.pdf ├── amazon.bk.png ├── new_ir_with_navi.png ├── README.md ├── .gitignore └── essay.tex /amazon.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/otakumesi/naist_essay/HEAD/amazon.png -------------------------------------------------------------------------------- /essay.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/otakumesi/naist_essay/HEAD/essay.pdf -------------------------------------------------------------------------------- /amazon.bk.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/otakumesi/naist_essay/HEAD/amazon.bk.png -------------------------------------------------------------------------------- /new_ir_with_navi.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/otakumesi/naist_essay/HEAD/new_ir_with_navi.png -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | NAISTに提出する小論文 2 | --- 3 | 4 | 以下のTeXテンプレートを使用した。 5 | https://www.y-misc.org/tex/template.html 6 | -------------------------------------------------------------------------------- /.gitignore: -------------------------------------------------------------------------------- 1 | ## Core latex/pdflatex auxiliary files: 2 | *.aux 3 | *.lof 4 | *.log 5 | *.lot 6 | *.fls 7 | *.out 8 | *.toc 9 | *.fmt 10 | *.fot 11 | *.cb 12 | *.cb2 13 | .*.lb 14 | 15 | ## Intermediate documents: 16 | *.dvi 17 | *.xdv 18 | *-converted-to.* 19 | # these rules might exclude image files for figures etc. 20 | # *.ps 21 | # *.eps 22 | # *.pdf 23 | 24 | ## Generated if empty string is given at "Please type another file name for output:" 25 | .pdf 26 | 27 | ## Bibliography auxiliary files (bibtex/biblatex/biber): 28 | *.bbl 29 | *.bcf 30 | *.blg 31 | *-blx.aux 32 | *-blx.bib 33 | *.run.xml 34 | 35 | ## Build tool auxiliary files: 36 | *.fdb_latexmk 37 | *.synctex 38 | *.synctex(busy) 39 | *.synctex.gz 40 | *.synctex.gz(busy) 41 | *.pdfsync 42 | 43 | ## Auxiliary and intermediate files from other packages: 44 | # algorithms 45 | *.alg 46 | *.loa 47 | 48 | # achemso 49 | acs-*.bib 50 | 51 | # amsthm 52 | *.thm 53 | 54 | # beamer 55 | *.nav 56 | *.pre 57 | *.snm 58 | *.vrb 59 | 60 | # changes 61 | *.soc 62 | 63 | # cprotect 64 | *.cpt 65 | 66 | # elsarticle (documentclass of Elsevier journals) 67 | *.spl 68 | 69 | # endnotes 70 | *.ent 71 | 72 | # fixme 73 | *.lox 74 | 75 | # feynmf/feynmp 76 | *.mf 77 | *.mp 78 | *.t[1-9] 79 | *.t[1-9][0-9] 80 | *.tfm 81 | 82 | #(r)(e)ledmac/(r)(e)ledpar 83 | *.end 84 | *.?end 85 | *.[1-9] 86 | *.[1-9][0-9] 87 | *.[1-9][0-9][0-9] 88 | *.[1-9]R 89 | *.[1-9][0-9]R 90 | *.[1-9][0-9][0-9]R 91 | *.eledsec[1-9] 92 | *.eledsec[1-9]R 93 | *.eledsec[1-9][0-9] 94 | *.eledsec[1-9][0-9]R 95 | *.eledsec[1-9][0-9][0-9] 96 | *.eledsec[1-9][0-9][0-9]R 97 | 98 | # glossaries 99 | *.acn 100 | *.acr 101 | *.glg 102 | *.glo 103 | *.gls 104 | *.glsdefs 105 | 106 | # gnuplottex 107 | *-gnuplottex-* 108 | 109 | # gregoriotex 110 | *.gaux 111 | *.gtex 112 | 113 | # htlatex 114 | *.4ct 115 | *.4tc 116 | *.idv 117 | *.lg 118 | *.trc 119 | *.xref 120 | 121 | # hyperref 122 | *.brf 123 | 124 | # knitr 125 | *-concordance.tex 126 | # TODO Comment the next line if you want to keep your tikz graphics files 127 | *.tikz 128 | *-tikzDictionary 129 | 130 | # listings 131 | *.lol 132 | 133 | # makeidx 134 | *.idx 135 | *.ilg 136 | *.ind 137 | *.ist 138 | 139 | # minitoc 140 | *.maf 141 | *.mlf 142 | *.mlt 143 | *.mtc[0-9]* 144 | *.slf[0-9]* 145 | *.slt[0-9]* 146 | *.stc[0-9]* 147 | 148 | # minted 149 | _minted* 150 | *.pyg 151 | 152 | # morewrites 153 | *.mw 154 | 155 | # nomencl 156 | *.nlg 157 | *.nlo 158 | *.nls 159 | 160 | # pax 161 | *.pax 162 | 163 | # pdfpcnotes 164 | *.pdfpc 165 | 166 | # sagetex 167 | *.sagetex.sage 168 | *.sagetex.py 169 | *.sagetex.scmd 170 | 171 | # scrwfile 172 | *.wrt 173 | 174 | # sympy 175 | *.sout 176 | *.sympy 177 | sympy-plots-for-*.tex/ 178 | 179 | # pdfcomment 180 | *.upa 181 | *.upb 182 | 183 | # pythontex 184 | *.pytxcode 185 | pythontex-files-*/ 186 | 187 | # thmtools 188 | *.loe 189 | 190 | # TikZ & PGF 191 | *.dpth 192 | *.md5 193 | *.auxlock 194 | 195 | # todonotes 196 | *.tdo 197 | 198 | # easy-todo 199 | *.lod 200 | 201 | # xmpincl 202 | *.xmpi 203 | 204 | # xindy 205 | *.xdy 206 | 207 | # xypic precompiled matrices 208 | *.xyc 209 | 210 | # endfloat 211 | *.ttt 212 | *.fff 213 | 214 | # Latexian 215 | TSWLatexianTemp* 216 | 217 | ## Editors: 218 | # WinEdt 219 | *.bak 220 | *.sav 221 | 222 | # Texpad 223 | .texpadtmp 224 | 225 | # Kile 226 | *.backup 227 | 228 | # KBibTeX 229 | *~[0-9]* 230 | 231 | # auto folder when using emacs and auctex 232 | ./auto/* 233 | *.el 234 | 235 | # expex forward references with \gathertags 236 | *-tags.tex 237 | 238 | # standalone packages 239 | *.sta 240 | 241 | # generated if using elsarticle.cls 242 | *.spl 243 | -------------------------------------------------------------------------------- /essay.tex: -------------------------------------------------------------------------------- 1 | \documentclass[a4j,10pt, twocolumn]{jarticle} \usepackage[dvipdfmx]{graphicx} \usepackage{amssymb} \usepackage{amsmath} 2 | \usepackage{float} 3 | \usepackage{slashbox} 4 | \usepackage[compact]{titlesec} 5 | \usepackage{fancyhdr} 6 | %--------------------------------------------------- 7 | % ページの設定 8 | %--------------------------------------------------- 9 | \setlength{\textwidth}{179truemm} 10 | \setlength{\textheight}{260truemm} 11 | \setlength{\topmargin}{-14.5truemm} 12 | \setlength{\oddsidemargin}{-9.5truemm} 13 | \pagestyle{fancy} 14 | \fancyhf{} 15 | \fancyhead[L]{} 16 | \fancyhead[C]{} 17 | \fancyhead[R]{} 18 | \renewcommand{\headrulewidth}{0pt} 19 | \fancyfoot[L]{} 20 | \fancyfoot[C]{} 21 | \fancyfoot[R]{} 22 | \renewcommand{\footrulewidth}{0pt} 23 | \setlength{\headheight}{-2truemm} 24 | \setlength{\parindent}{1zw} 25 | 26 | \begin{document} 27 | \twocolumn 28 | [ 29 | \begin{center} 30 | {\huge NAISTにて取り組みたい研究について} 31 | \end{center} 32 | \vspace{3truemm} 33 | ] 34 | 35 | \rhead{ 36 | \normalsize{ 37 | 氏名: 新妻巧朗 試験区分: 情報科学区分 希望研究室: 自然言語処理研究室 38 | } 39 | } 40 | 41 | \section{はじめに} 42 | \subsection{NAISTで取り組みたいこと} 43 | NAISTにて、私が取り組みたい研究テーマは「情報検索システムにおけるファセットの自動生成手法」である。 44 | 45 | このファセットとは、図書館情報学の「あるクラスを2以上の異なる区分特性によって区分したときに得られる下位クラスの総体\cite{libdic}」という定義を指す。 46 | また、この区分特性は「ある分類に属する個々のメンバーに共通する性質」のことを言う。 47 | そして、ファセットを具体的に説明すると、共通の性質を抽出することで得られたある区分で検索結果を絞り込む切り口のことである。 48 | \section{研究の概要} 49 | \subsection{背景・社会的意義} 50 | 現代社会において情報収集をするためには、検索エンジンを利用することは必要不可欠である。 51 | しかし、検索エンジンを適切に活用できず、目的の情報に至れない場面も多い。 52 | それは多くの検索エンジンの仕組みが、利用者に対して情報検索能力を要求しているからである。 53 | これまでも福島らの研究によって情報検索能力は個人差が大きく、能力差によって情報格差が生じていることが調査されてきた\cite{fukushima}。 54 | こうした課題を解決することで、情報に辿りつけないために生じる機会損失を減らすことができるのではないかと考えている。 55 | 過去に齋藤らによる教育を通して情報検索能力を向上させる研究\cite{saito}も存在しているが、本研究ではシステムの拡張によって解決するアプローチを考えていく。 56 | 57 | 福島らによって言語能力の高さが情報検索能力の高さに関係しているとわかった\cite{fukushima}。 58 | つまり、言語能力の高低が情報検索において、情報格差を生み出していると考えられる。 59 | そのため、情報の探索過程の言語能力を要求する場面で利用者の補助をおこなうシステムを提案したい。 60 | \subsection{提案内容} 61 | 62 | そこで、入力された検索質問に対して適切なファセットを表示し選択させることで、検索質問を検索意図に近づけていくシステム(図1)を提案したい。 63 | 64 | \begin{figure}[ht] 65 | \includegraphics[width=85mm]{./new_ir_with_navi.png} 66 | \caption{システムのイメージ図} 67 | \end{figure} 68 | 69 | 検索意図とは、人が検索行動をおこなう動機のことである。 70 | 情報の探索行動は、検索質問を検索の動機を満たす文書に近づけるプロセスであると考えられる。 71 | そのため、ファセット検索が利用できるのではないかと考えた。 72 | ファセット検索とは、検索システムの利用者に検索対象を何らかの区分で絞り込むファセットを選択させ、検索対象を絞り込む検索手法である\cite{faceted}。 73 | これはシステムの利用者が検索意図を言語化する行動をシステムが代行していると言える。 74 | そのため、検索エンジンが個人の言語能力に依存している問題にアプローチできると考えている。 75 | \section{研究の方法} 76 | \subsection{従来のファセット検索の課題} 77 | ファセット検索の典型的な用例として、Amazon.co.jp\cite{amazon}の検索結果画面をあげる。 78 | ファセット検索は図2の赤枠で囲われたメニューのように、ある分類に関する検索結果をさらに絞り込む選択肢を提供する。 79 | \begin{figure}[ht] 80 | \includegraphics[width=85mm]{./amazon.png} 81 | \caption{Amazonの検索結果画面: 日本酒に対するファセット検索} 82 | \end{figure} 83 | この例では、商品データを検索対象として索引している。このように従来のファセット検索では、検索対象になる文書には既に構造化がなされ、属性データを持っているものを利用することが多い。 84 | この属性データとは、ある区分特性に属しているかどうかを示すメタデータのことである。 85 | また、ファセット検索を非構造的な文書に利用する場合には、ファセットを作成しその情報をメタデータとして追加して半構造的な文書にする。 86 | そのためには、事前に文書から区分特性を見つけ出して索引可能な属性データに変換し、文書に付与する必要がある。 87 | 従来であれば、この作業は人手を用いておこなわれてきた。 88 | しかし、Webを対象にファセットを作成する場合には、文書の増減と文書分類の変化が早く人手による作業が現実的でないという課題がある。 89 | そこで区分特性を推測し自動的に属性データを付与することで、ファセット検索をWebにも応用できるようにしたいと考えた。 90 | 91 | \subsection{研究の方向性} 92 | 本システムではファセットを作成するために必要な二つのデータを出力をすることを目標とする。 93 | \begin{description} 94 | \item[ファセットを表すtupleのリスト] ある語彙$v$を上位クラスとして、$v$がある区分特性$c$を介して関係する語彙の集合$V$を下位クラスとして考えるとき、それらのデータからなる$\langle v, c, V\rangle$形式のtupleのリスト。 95 | \item[属性データ] 文書があるファセットに含まれるかどうかを示すデータ。文書に付与するメタデータとして考える。 96 | \end{description} 97 | 98 | \subsubsection{ファセットを表すtupleのリスト} 99 | 索引する文書を入力データとしたときの、このtupleの情報を抽出する方法を考える。 100 | 本システムにおいて、区分特性には述語を活用することを提案したい。 101 | 述語は「主語について、その動作・作用・性質・状態などを叙述するもの」と定義されている\cite{daijisen}。 102 | そのため、述語は主語にとって目的語がどんな操作対象、性質、状態かを表すと考えられ、主語と目的語の関係を表す語と見なせるからだ。 103 | 104 | ここで、区分特性の抽出にはOpenIEと呼ばれる研究の成果を活用できる可能性がある。 105 | OpenIEは文章から$\langle \arg1, rel, \arg2 \rangle$形式のtupleで、情報を抽出をする研究分野である\cite{niklaus}。 106 | 文書中の述語をrelとして、その周辺の語彙などをarg1, arg2として抽出する。 107 | このとき、arg1を語彙$v$、relを区分特性$c$とみなせば、arg1とrelが一致しているtupleをまとめ、それぞれのarg2を集めて下位クラスの語彙の集合$V$にすることで、$\langle v, c, V\rangle$のtupleを作成できると考えている。 108 | 109 | 例えば、「日本酒」を語彙$v$とすると、区分特性$c$は「の銘柄は」といった述語となる。そして、その目的語である「一ノ蔵」「花浴陽」などをまとめて語彙の集合$V$を得れば、$\langle "日本酒", "の銘柄は", ["一ノ蔵", "花浴陽", \dots] \rangle$というtupleを作れる。 110 | 111 | \subsubsection{属性データ} 112 | 3.2.1にて作成したtupleの上位クラスである語彙$v$を使う。語彙$v$が文書に関係しているかをブール値で表現し、メタデータとして付与することで実現する。tf-idfなどに閾値をもうけて関係性を表現することを検討している。 113 | \subsubsection{まとめ} 114 | ユーザインタフェースを作成するのに3.2.1のtupleを利用する。例えば、検索質問の語彙と3.2.1のtupleの語彙$v$が一致するファセットを検索結果画面に表示する。そして、検索処理では3.2.2で文書に付与した属性データを利用することで、提案をしたシステムが実現できるのではないかと考えている。 115 | 116 | \section{これまでの修学経験等} 117 | 学部では地方の産業構造に関する実証分析をする研究してきた。 118 | 特に卒業研究では総生産と地域を構成する産業に目をつけ、経済格差が生じる要因について分析をした。 119 | また、社会人ではWebサービスにソフトウェアエンジニアとして携わり、検索システムの利用者が得たい情報をどう探索しているかについて考えてきた。 120 | 特に現在携わっているアルバイト求人のデータベースメディアでは、どうファセットナビゲーションを実現するとよいのか、求人検索機能のファセット検索をどう実装すべきかなどを試行錯誤する機会に恵まれた。 121 | こうした経験が本研究では役立つのではないかと考えている。 122 | 123 | \section{最後に} 124 | ここまでNAISTにて取り組みたい研究テーマや自身の経験について述べてきた。 125 | 私がNAISTを志望するのは、様々な経歴を持った人間を受け入れ、かつそのサポート体制が整っており優れた研究成果を出している大学院であるからだ。 126 | こうしたNAISTの整った教育・研究環境を活かして、自然言語処理や情報検索の分野に貢献していきたい。 127 | 128 | \begin{thebibliography}{9} 129 | \bibitem{libdic} 130 | 日本図書館情報学会用語辞典編集委員会編 (2013), 図書館情報学用語辞典 第4版 131 | \bibitem{fukushima} 132 | 福島健介・小原 格・須原慎太郎・ほか (2005), インターネット検索能力の差異に及ぼす 要因の検討 その1, コンピュータ&エデュケーション VOL.18 2005 133 | \bibitem{saito} 134 | 齋藤ひとみ・三輪和久 (2004), Web 情報検索におけるリフレクションの支援, 人工知能学会論文誌 19 巻 4 号 C (2004 年) 135 | \bibitem{faceted} 136 | Daniel Tunkelang (2009), Faceted Search (Synthesis Lectures on Information Concepts, Retrieval, and Services), pp. 21―26 137 | \bibitem{amazon} 138 | Amazon.co.jp (2019/5/23), https://www.amazon.co.jp/ 139 | \bibitem{daijisen} 140 | 池上秋彦・金田弘・杉崎一雄・ほか (2019/4), デジタル大辞泉 141 | \bibitem{niklaus} 142 | Christina Niklaus, Matthias Cetto, Andre Freitas, and Siegfried Handschu (2018), A Survey on Open Information Extraction, Proceedings of the 27th International Conference on Computational Linguistics 143 | \end{thebibliography} 144 | \end{document} 145 | --------------------------------------------------------------------------------