「Google日本語入力」開発者が語る、その狙い
大きな反響を呼んでいる「Google日本語入力」。そこには「IMEはWebアプリケーションの重要なコンポーネントの1つだ」というWeb企業・Googleらしい認識と理想が込められている。開発者が狙いを語った。
Google日本法人が公開した新日本語入力システム(IME)「Google日本語入力」について、開発した同社の技術者が12月7日、開発の経緯や狙いなどを話した。予想を超える反響があったといい、「早い時期にβが取れる形で提供したい」と意気込む。Googleが来年リリースを予定している「Chrome OS」にも組み込まれる予定だ。
同IMEは12月3日にβ版として公開。Webから集めた情報を基に自動的に生成した辞書を搭載し、新語や専門用語、芸能人の名前などに強いのが特徴だ。冒頭の数文字を入力すると候補語を変換するサジェスト機能や、数字を16進数に変換する機能など、Googleらしい機能も備えている。Windows XP/Vista/7(それぞれ32ビット版)とMac OS X(Leopard以降)に対応し、無料で利用できる。
エンジニアの情熱の成果
開発は、ソフトウェアエンジニアの工藤拓さんと小松弘幸さんの20%ルール(勤務時間の20%を好きなことに使える制度)で始まった。
工藤さんは、Google検索で正しい可能性があるキーワード候補を推薦する「もしかして」機能の開発を担当しており、同機能が誤変換を効果的に修正できていたことから「これをIMEに生かせないか」と考えたという。小松さんは日本語予測入力変換システム「PRIME」や、「POBox」のEMACS版を開発するなどしており、IME開発を希望してGoogleに入社したという経緯があった。
小松さんによると、「最初の数カ月はコードを書かず、デザインディスカッションに費やした」という。当初は2人の20%プロジェクトだったが、IMEや日本語処理システムの開発に携わっていた技術者が集結。「IMEを作りたくて集めたのではなく、もっといいIMEを作りたいと集まった」と、優れた人材がそろっているGoogleならではの好条件が威力を発揮。「成功例、失敗例を持っているので、ノウハウを注ぎ込んでアーキテクチャを設計した」という。
複数のOSに対応するマルチプラットフォーム、オープンソースソフトウェア(OSS)の活用というコンセプトは当初から前提としており、WindowsとMacintoshへの両対応に加え、OSSも積極的に活用した。小松さんは「エンジニアによる『もっといいIMEを』という情熱の成果。これはGoogleじゃないと作れないIMEだと自負している」と話す。
「Webのありのままを反映したエンジン」
同IMEのキャッチフレーズは「思いどおりの日本語入力」。公開後、「歴女」といったネットで頻出する流行語や芸能人の名前など、一般のIMEでは変換が難しい単語に強いことが話題になった。小松さんとともに開発を始めた工藤さんは、「Webのありのままを反映したエンジン」と表現する。
IMEのコアとなる変換エンジンは、Googleがクロールで取得した膨大なWebのデータから構築した統計的言語モデルを活用して構成した。単語が登場する頻度の情報をデータベース化し、ランキング化することで変換精度を高めるというアプローチを取っている。辞書もクロールしたデータから機械的に生成することで、人力では難しい専門用語や新語などを網羅的に収録することが可能になっている。
辞書と統計的言語モデルの作成には、Googleの大規模分散処理システム「MapReduce」を活用。数千台規模のクラスターを使い、頻度の計算などを効率良く行うことができるという。膨大なWebデータ、優れたエンジニア、豊富な計算機資源という条件が新しいIMEを生んだことになる。
辞書の語彙数は公開していないが、辞書のデータサイズは50Mバイト以下。圧縮にかなり工夫をこらしており、「よくこの語彙数でこのサイズになったと自画自賛するほど」のコンパクトさになっているという。
辞書はファイル単体としては独立しておらず、プログラムのバイナリに組み込む形にしてあるという。そのため、辞書をアップデートする際はGoogle Update経由でソフトウェア自体のバージョンアップという形で行うことになる(その際、再起動やログオフは不要にしている)。更新頻度は、最新の言葉を網羅できるような間隔がどの程度なのか、検討を進めているという。
同IMEはローカル上で完全動作し、ネットに接続しなくても使用可能だ。IMEで入力した文字列をGoogleが収集しているのでは──という懸念に対し、シニアエンジニアリングマネージャの及川卓也さんは「個人情報は取得していないことを約束する」と否定する。
インストール時にチェックなどで希望すればGoogleに統計情報と障害情報を送信することは可能だが、統計情報は入力文字数の平均値など、障害情報はクラッシュ時のダンプファイルなどで、入力した文字の情報は含まれないという。
IMEはWebアプリの重要コンポーネントに
及川さんによると、IMEは「Webアプリケーションの重要なコンポーネント」という位置付けだ。
WebアプリケーションはWebブラウザ上で動き、ブラウザはOS上で動作する。ユーザーはキーボードから語句を入力してWebアプリを利用するが、「この形できれいにいくのは英語圏だけ」だと及川さんは話す。つまり日本語の誤変換などで、「キーボードからタイプされたものがそのままWebアプリケーションに入力されない」という状況がGoogle的な現状認識だ。
「Webを表示するためのフォントの種類やレンダリングが非英語圏は追いついていない」という認識をChromeブラウザの日本語版に活かすように、同IMEは日本語入力システムというものに対する、Googleによる、Google的アプローチによる1つの回答ということになる。
その豊富な語彙数や無料というインパクトから他社製IMEとの比較も注目されているが、及川さんは「現在のIMEに対する不満より、Chromeもそうだが、われわれが作るならどういうものが作れるのか、という点が立脚点になっている」という。「他社との差別化はゴールにしていない。人の頭の中に浮かんだものをそのまま出すにはどうすればいいかということを考えている」。新しいアプローチを提示することで、縮小しつつあるIME市場が活性化するのでは──とも話す。
ただ、「Webのありのまま」を反映した結果、語句の誤用例などがそのまま変換やサジェストに反映されてしまっている例が多いことも指摘されている。これは開発側も認識しており、「もしかして」で培った技術などを導入して修正する方法などを検討していく。
だが及川さんは「IMEが誤用を出すのは問題だと思っているが、何を持って誤用とするのか考えが出せないでいる」とも話す。Webは生きた言葉の最前線だ。IMEが“言葉の裁判官”を買って出るべきなのか、ここは思想の問題と言えそうだ。
モバイル版の予定はなし
要望が高かった64ビット版は近日中に公開する予定。使用したユーザーからのフィードバックや「この機能がないと使えない」といった要望が開発側に多く届いており、不具合の修正や要望を盛り込んだ形で正式版を早期にリリースしたい考えだ。
Chrome OSに組み込む場合は、同OSがOSS化を予定しているため、組み込んだ部分についてはIMEもオープンソース化することを検討しているという。ただ、同IME自体がLinuxに対応する予定はないとしている。
同日から「Google音声検索」の日本語対応が始まった。IMEと同様の技術が日本語音声認識に組み込まれているが、IMEはモバイルに対応する予定はないという。ユーザーニーズがPCとモバイルで異なる上、システム上の制約も異なるためとしている。
http://www.itmedia.co.jp/news/articles/0912/07/news099.html
「Google 일본어 입력」개발자가 말하는, 그 목적
큰 반향을 부르고 있는 「Google 일본어 입력」.거기에는 「IME는 Web 어플리케이션의 중요한 컴퍼넌트의 하나다」라고 하는 Web 기업·Google인것 같은 인식과 이상이 담겨져 있다.개발자가 목적을 말했다.
Google 일본 법인이 공개한 신일본어 입력 시스템(IME) 「Google 일본어 입력」에 대해서, 개발한 동사의 기술자가12월 7일, 개발의 경위나 목적등을 이야기했다.예상을 넘는 반향이 있었다고 해, 「빠른 시기에β가 잡히는 형태로 제공하고 싶다」라고 분발한다.Google가 내년 릴리스를 예정하고 있는 「Chrome OS」에도 짜넣어질 예정이다.
동IME는 12월 3일에β판으로서 공개.Web로부터 모은 정보를 기본으로 자동적으로 생성한 사전을 탑재해, 신어나 전문 용어, 연예인의 이름 등에 강한 것이 특징이다.모두의 수문자를 입력하면 후보어를 변환하는 사제스트 기능이나, 숫자를 16 진수로 변환하는 기능 등, Google인것 같은 기능도 갖추고 있다.Windows XP/Vista/7(각각 32비트판)으로 Mac OS X(Leopard 이후)에 대응해, 무료로 이용할 수 있다.
엔지니어의 정열의 성과
개발은, 소프트웨어 엔지니어 쿠도 히로시씨와 코마츠 히로시행씨의 20%룰(근무시간의 20%을 좋아하는 일로 사용할 수 있는 제도)로 시작되었다.
쿠도씨는, Google 검색으로 올바를 가능성이 있는 키워드 후보를 추천하는 「혹시」기능의 개발을 담당하고 있어, 같은 비행기능이 오변환을 효과적으로 수정 되어 있던 것으로부터 「이것을 IME에 활용할 수 없는가」라고 생각했다고 한다.코마츠씨는 일본어 예측 입력 변환 시스템 「PRIME」나, 「POBox」의 EMACS판을 개발하는 등 내려 IME 개발을 희망해 Google에 입사했다고 하는 경위가 있었다.
코마츠씨에 의하면, 「최초의 수개월은 코드를 쓰지 않고, 디자인 디스커션에 소비했다」라고 한다.당초는 2명의 20%프로젝트였지만, IME나 일본어 처리 시스템의 개발에 종사하고 있던 기술자가 집결.「IME를 만들고 싶어서 모은 것은 아니고, 더 좋은 IME를 만들고 싶으면 모였다」라고, 뛰어난 인재가 갖추어져 있는 Google만이 가능한 호조건이 위력을 발휘.「성공예, 실패예를 가지고 있으므로, 노하우를 쏟아 아키텍쳐를 설계했다」라고 한다.
복수의 OS에 대응하는 멀티 플랫폼, 오픈 소스 소프트웨어(OSS)의 활용이라고 하는 컨셉은 당초부터 전제로 하고 있어, Windows와 Macintosh에의 양대응에 가세해 OSS도 적극적으로 활용했다.코마츠씨는 「엔지니어에 의한 「 더 좋은 IME를」이라고 하는 정열의 성과.이것은 Google가 아니면 만들 수 없는 IME라고 자부하고 있다」라고 이야기한다.
「Web의 있는 그대로를 반영한 엔진」
동IME의 캐치프레이즈는 「생각 대로의 일본어 입력」.공개 후, 「력녀」라는 넷에서 빈출 하는 유행어나 연예인의 이름 등, 일반의 IME에서는 변환이 어려운 단어에 강한 일이 화제가 되었다.코마츠씨와 함께 개발을 시작한 쿠도씨는, 「Web의 있는 그대로를 반영한 엔진」이라고 표현한다.
IME의 코어가 되는 변환 엔진은, Google가 크롤로 취득한 방대한 Web의 데이터로부터 구축한 통계적 언어 모델을 활용해 구성했다.단어가 등장하는 빈도의 정보를 데이타베이스화해, 랭킹화하는 것으로 변환 정도를 높인다고 하는 어프로치를 취하고 있다.사전도 크롤 한 데이터로부터 기계적으로 생성하는 것으로, 인력으로는 어려운 전문 용어나 신어등을 망라적으로 수록하는 것이 가능하게 되어 있다.
사전과 통계적 언어 모델의 작성에는, Google의 대규모 디스트리뷰티드 프로세싱 시스템 「MapReduce」를 활용.수천대 규모의 클러스터를 사용해, 빈도의 계산등을 효율 좋게 실시할 수 있다고 한다.방대한 Web 데이터, 뛰어난 엔지니어, 풍부한 계산기 자원이라고 하는 조건이 새로운 IME를 낳은 것이 된다.
사전의 어휘수는 공개하고 있지 않지만, 사전의 데이터 사이즈는 50 M바이트 이하.압축에 꽤 궁리를 하고 있어 「자주(잘) 이 어휘수로 이 사이즈가 되었다고 자화자찬하는 만큼」의 컴팩트함이 되어 있다고 한다.
사전은 파일 단체로서는 독립하고 있지 않고, 프로그램의 바이너리에 짜넣는 형태로 해 있다고 한다.그 때문에, 사전을 업데이트 할 때는 Google Update 경유로 소프트웨어 자체의 버전 업이라고 하는 형태로 실시하게 된다(그 때, 재기동이나 로그 오프는 불필요하게 하고 있다).갱신 빈도는, 최신의 말을 망라할 수 있는 간격이 어느 정도인가, 검토를 진행시키고 있다고 한다.
동IME는 로컬상에서 완전 동작해, 넷에 접속하지 않아도 사용 가능하다.IME로 입력한 문자열을 Google가 수집하고 있는 것은──이라고 하는 염려에 대해, 시니어 엔지니어링 매니저의 타카가와 타쿠야씨는 「개인정보는 취득하고 있지 않는 것을 약속한다」라고 부정한다.
인스톨시에 체크등에서 희망하면 Google에 통계 정보와 장해 정보를 송신하는 것은 가능하지만, 통계 정보는 입력 문자수의 평균치 등, 장해 정보는 크래쉬시의 덤프 파일등에서, 입력한 문자의 정보는 포함되지 않는다고 한다.
IME는 Web 어플리의 중요 컴퍼넌트에
타카가와씨에 의하면, IME는 「Web 어플리케이션의 중요한 컴퍼넌트」라고 하는 자리 매김이다.
Web 어플리케이션은 Web 브라우저상에서 움직여, 브라우저는 OS상에서 동작한다.유저는 키보드로부터 어구를 입력해 Web 어플리를 이용하지만, 「이 형태로 예쁘게 가는 것은 영어권만」이라면 타카가와씨는 이야기한다.즉 일본어의 오변환등에서, 「키보드로부터 타입 된 것이 그대로 Web 어플리케이션에 입력되지 않는다」라고 하는 상황이 Google적인 현상 인식이다.
「Web를 표시하기 위한 폰트의 종류나 렌더링이 비영어권은 따라잡지 않았다」라고 하는 인식을 Chrome 브라우저의 일본어판에 살리도록(듯이), 동IME는 일본어 입력 시스템이라는 것에 대한, Google에 의한, Google적 어프로치에 의한 1개의 회답이라는 것이 된다.
그 풍부한 어휘수나 무료라고 하는 임펙트로부터 타사제 IME라는 비교도 주목받고 있지만, 타카가와씨는 「현재의 IME에 대한 불만보다, Chrome도 그렇지만, 우리가 만든다면 어떤 것을 만들 수 있는지, 라고 하는 점이 입각점이 되어 있다」라고 한다.「타사와의 차별화는 골로 하고 있지 않다.사람의 머릿속에 떠오른 것을 그대로 내려면 어떻게 하면 좋을것인가 라고 하는 일을 생각하고 있다」.새로운 어프로치를 제시하는 것으로, 축소하고 있는 IME 시장이 활성화 하는 것은──이라고도 이야기한다.
단지, 「Web의 있는 그대로」를 반영한 결과, 어구의 오용예등이 그대로 변환이나 사제스트에 반영되어 버리고 있는 예가 많은 일도 지적되고 있다.이것은 개발측도 인식하고 있어, 「혹시」로 기른 기술등을 도입해 수정하는 방법등을 검토해 간다.
하지만 타카가와씨는 「IME가 오용을 내는 것은 문제라고 생각하지만, 무엇을 가지고 오용으로 할 생각을 낼 수 없다」라고도 이야기한다.Web는 산 말의 최전선이다.IME가“말의 재판관”을 사 나와야 하는 것인가, 여기는 사상의 문제라고 말할 수 있을 것 같다.
모바일판의 예정은 없음
요망이 높았던 64비트판은 가까운 시일내로 공개할 예정.사용한 유저로부터의 피드백이나 「이 기능이 없으면 사용할 수 없다」라는 요망이 개발 측에 많이 닿고 있어 불편의 수정이나 요망을 포함시킨 형태로 정식판을 조기에 릴리스 하고 싶은 생각이다.
Chrome OS에 짜넣는 경우는, 동OS가 OSS화를 예정하고 있기 위해, 짜넣은 부분에 대해서는 IME도 오픈 소스화하는 것을 검토하고 있다고 한다.단지, 동IME 자체가 Linux에 대응할 예정은 없다고 하고 있다.
같은 날부터 「Google 음성 검색」의일본어 대응이 시작되었다.IME와 같은 기술이 일본어 음성인식에 짜넣어지고 있지만, IME는 모바일에 대응할 예정은 없다고 한다.유저 요구가 PC와 모바일로 다른 위, 시스템상의 제약도 다르기 위해로 하고 있다.
http://www.itmedia.co.jp/news/articles/0912/07/news099.html