eyegene Unicode対応マニュアル

eyegene Unicode対応マニュアル

ユニコードのショートマニュアル、および

ソフトウェアの国際化の下で

LinuxやUnix

Nicode YouTube

書いたエドワード・H・トラガー

一般的な紹介

このページには、多言語国際化のプロジェクトのためのUnicodeの使用、他のURLアドレスへのリンクと情報の簡単な概要を提供のLinuxおよびUNIXに基づいて他のオペレーティングシステム。 あなたのLinux / UNIXコンピュータ上で複数の言語を使用する能力をしたいが、まだこれを行う方法を考え出したていない場合は、このページを読んでする必要があります。 私は、この文書でソフトウェア好ましいのLinux(SuSE 7.2、7.3、8.1、8.2、9.0beta)と、 開口部 (3.2、3.3)でより少ない程度およびSolaris第八の設定ソフトウェアと前記設定をテストしました

本稿の目的は、1)やむを得ないのいくつか紹介するオープンソースの Linuxや他のUNIX環境でUnicodeを使用し、2)このようなソフトウェアのインストールの重要な側面を指摘します。 ここよりもはるかに大きい程度で、以下のトピックのいくつかをカバーする他のUnicodeのWebリソース。 代わりに、包括的であることの、私はすぐにあなたの多言語または国際プロジェクトでLinux生産的になることができますいくつかのソフトウェアの重要な部分、およびキー設定の問題に集中しようとした、または現在使用されている他のオペレーティングシステムは、UNIXに基づいています-u。 文書を通じて、さまざまなトピックの包括的な治療のためのガイドラインを提供しています。

注意:コンパイルするために、または共通のを使用してソースからソフトウェアをインストールします。このドキュメントは、簡単には、コマンド環境で動作するように、あなたはすでにのLinux / UNIXの-aのシステム管理タスクの基本的な理解を持っている、(のようなことを想定してい
./configureを – > 確認 – > のsu -cコマンド・シーケンス) “をインストールします”。

ユニコードの概要

コンピュータは、文字を表す数字(コードポイント)を割り当てられます。 国家と何百ものがありますISO現代言語学の記録のコンピュータ符号化のための基準は。 これらの古いコードパターン文字の多くは、256(すなわち2 8)コードポイントのに限定されています。 これは多くの問題になります。 主な問題は、1つでも言語のため、多くの場合、十分ではない256個のコード・ポイントは、複数の言語のためおろかということです。 もう一つ、非常に明白な問題は、国家またはISOエンコーディングで文字を表すコードポイントは、必然的に異なる国やISOエンコーディングで完全に異なる文字(例を提示するために再利用されるということです。重いアクセント付きラテン小文字、「U」 「ש」ISO-8859-7、ヘブライ文字SHINに小さなギリシャ文字のオメガ「ω」;、西ヨーロッパのISOをコード8859-1ラテン小文字は、中央および東ヨーロッパのISO-8859-2エンコーディング「を」SA上の小さな円になりISO-8859-8で…というように!もっと珍しいの詳細については、読んでこれを )。 これは簡単に、とりわけ、データベースを電子メールの歪み、Webページにつながり、またはすることができます。

わずかに異なるドメインで同じ問題を説明するために、英語のようなよく知られている言語を考慮する。 言語は、ちょうど26文字で書くことができ、または英語の科学と数学の書類の発行者は、多くの追加のシンボルを必要とする – 256個のコード・ポイントだけでは十分ではありません! 想像どのように問題のある情報の電子的交換することができ、より互換性のないエンコーディングがあり、中国、のような言語。

Unicodeは、すべての近代的なグローバル言語レコードと最も一般的に使用される記号の文字と表意文字のためのユニークなコードポイントを割り当てることによって、複数のコーディングの問題を解決します。 駅のUnicodeコンソーシアムがあるwww.unicode.org

UTF-8

UTF-8は、暗号化のためのデファクトスタンダードであるUniocode、UnicodeとUNIX、特にLinuxベースの手術システムのためにシリアライズする方法です。 UTF-8には、多言語ウェブサイト上でのコーディングのための優先事項です。 この方法では、ASCIIコードは1つのバイトを占めます。 これは、ASCII-ROMと同一である、UTF-8のUnicodeシリアライゼーションのASCIIサブセットです。 ASCII範囲を超える基本的な多平面内のUnicodeコードポイント、シリアライズ2:00午前3時にバイト(6バイトのシリアル化につながる可能性がUnicodeで利用可能な追加のレベル)です。

文字が複数のバイトにシリアライズされている場合は、最も重要なビットが常に設定されているので、これらのバイトは、ASCIIボックスに分類されることはありません。 また、非ASCII文字を表す複数バイトの文字列の最初のバイトは、まだ文字(図1)のシリアル化のために使用されたバイト数を示すいくつかのビットを保持します

UTF-8 serialization table
図。 最初の UTF-8。 Unicode文字がUTF-8で複数のバイトをシリアライズすると、最初のバイトserijalizovanogのビットの最大値は、シリアライズこの文字のために使用されるバイト数を示しています。 ビット文字を提示し、「n」は 、Unicode文字コード値を保持します。

これは、不足しているバイトは明らかであろする状況を考慮せずにコーディングになります。 UTF-8は、バイト指向のオペレーティングシステムやソフトウェア上で、UNIXの国際化のためのシンプルでエレガントなソリューションを提供します。 詳細については、マーカス・クーン・EOV優れたよくある質問、読みのUnix / Linux用のUTF-8とUnicodeのFAQを 下記のすべてのソフトウェアはまた、よくUTF-8でサポートされています。

ヒント:UTF-8は使いやすいです、ストレージ、ドキュメント、データベース、およびソースコードを確認。 すべての多言語、国際的、または英語以外のデータや文書のためのUTF-8エンコーディング方式を使用してください。 廃止された国家の文字エンコーディングの使用は避けてください(すなわち。ISO-8859-1、ISO-8859-2、ISO-8859-15、TIS-620、シフトJIS、GB-18030、KOI8、など)。 このようUTF-16などの他のUnicodeエンコーディングを使用して回避するための十分な理由もあります UTF-8でアストラデータを変換するためにどのような情報は、( ユーティリティを参照)、以下の見つけることができます

UTF-8にお住まいの地域の基準を設定します

完全にあなたのLinuxや他のUNIXシステム上のUnicodeを利用するには、UTF-8にロケールを設定する必要があります。 最近のLinuxディストリビューションは、UTF-8の標準を使用し、今のルールです。 あなたが本当に新しいLinuxディストリビューションを使用しない限り、しかし、まだISO-8859に基づいて時代遅れのローカル標準、または任意の他の国家のコードを使用する可能性があります。 あなたも少なくUNIXではなくLinuxベースのOSを使用している場合は、UTF-8標準を使用します。 地元の規格、タイプのあなたの現在の設定を決定するために、 locale ここではLinuxおよびSolaris CDからいくつかの結果は以下のとおりです。

Linuxからの例を「ロケール」:
user_a@some_linux_box:~> locale
LANG=en_US
LC_CTYPE="en_US"
LC_NUMERIC="en_US"
LC_TIME="en_US"
LC_COLLATE=POSIX
LC_MONETARY="en_US"
LC_MESSAGES="en_US"
LC_PAPER="en_US"
LC_NAME="en_US"
LC_ADDRESS="en_US"
LC_TELEPHONE="en_US"
LC_MEASUREMENT="en_US"
LC_IDENTIFICATION="en_US"
LC_ALL=
Solarisのからの例を「ロケール」:
user_b@some_sun_box:~>locale
LANG=
LC_CTYPE="C"
LC_NUMERIC="C"
LC_TIME="C"
LC_COLLATE="C"
LC_MONETARY="C"
LC_MESSAGES="C"
LC_ALL=

UTF-8ロケールを使用していない上記の例でUser_BへないUSER_Aないことは明らかであるように、すべてのUTF-8ローカルな基準を設定するには、「UTF-8」で終わります。 他のローカル調整は、タイプ持っているかを決定するために、 locale -a

Linuxを「ロケール-a」の場合:
user_a@some_linux_box:~>locale -a
C
POSIX
af_ZA
ar_AE
ar_BH
ar_DZ
ar_EG
ar_EG.utf8
ar_IN
Uz_UZ vi_VN.utf
8
yi_US
zh_CN
zh_CN.gb
18030
zh_CN.gbk
zh_CN.utf
8
zh_HK
zh_TW zh_TW.euctw zh_TW.utf 8
このようSolarisのの「ロケール-a」:
user_b@some_sun_box:~>locale -a
POSIX
C
iso_8859_1

Solarisのボックスには、いずれかを持っていませんが、それは例えばLinuxディストリビューションは、(、使用されていることは明らかである(SuSEの7.3は 、いくつかのUTF-8がインストールローカル基準を(すべて図示せず)を有しているSolarisがUTF-8現地の基準を提供していますが、彼らは、オプションパッケージとしてインストールする必要があります。:参照Solarisの国際化ガイド

Linux用のローカル設定を変更するには、単に変数に設定LANGご使用中の環境.profileファイルを。 出力ことに注意してくださいlocale -a上に示したのLinuxボックスには、「表示さutf8ハイフンなしで、小さな文字で」を、これは間違いです。 あなたが設定LANG変数を、型UTF-8大文字とハイフンと:

LinuxでBASHシェルのためa.profileみんなでLANG変数を設定します:
...
export LANG=en_US.UTF-8

新しい使用して再度ログインするとLANG設定をするはずです他「のほとんどのことがわかりLC_ 」変数ローカル環境が自動的に更新:

UTF-8 ulokalnom LinuxではLANGを設定した後:
user_a@some_linux_box:~> locale
LANG=en_US.UTF-8
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE=POSIX
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=

UTF-8ロケールで、あなたは今、あなたのマシン上でのUnicodeのすべての利点を持つことができます。 でも、あなたができない場合は、一部のUnicodeソフトウェアは非常に効果的に使用できることに注意してください、またはローカルUTF-8に切り替える準備ができていません。 以下の例のyuditについては、現在、他の地方の標準をサポートしていないなどのOpenBSDなどsistemma上でもうまく動作します。

ターミナルエミュレータ

でも時にKDEGnomeの 、良い端末エミュレータなしで動作しますLinuxまたはUNIXのない賛美者はありません。 いくつかのUnicodeの端末エミュレータは、以下に記載されています。

mlterm

Mltermは、疑いもなく、多言語操作のための最高の端末エミュレータであり、それは確かに私のお気に入り(図1)です で構成されている場合fribidilibind 、mltermは複雑なヒンドゥー教のレコードはデーヴァナーガリーをポップサポートしそのようなタイ語、 アラビア語ヘブライ語のように右から左にレコードなどのインドの記録を作りました Mltermもむしろ珍しい組み合わせCTRL <右クリック>( 図2)を用いて活性化されるGTK + GUIコンフィギュレータを運びます

 

Mlterm
図。 第2 Mlterm。 GUIコンフィギュレータは、mltermの設定が簡素化されます。 UTF-8でエンコードされたHTMLファイルは、mltermの下でvimの中で見ることができます

既にほとんどのLinuxディストリビューションおよび他のフリーのUnix-GNU Unifont上記図2に示したビットマップフォントをインストールされているルール、一般的に使用されるビットマップフォントGNU Unifontとして Mlterm ..

あなたがしたい場合は、mlterm uTrueTypeフォントがエッジを柔らかくすることができます。 この場合、 ビットストリームベラなきモノエバーソンモノユニコードなどの非プロポーショナルフォントは最高です。 あなたは(おそらくルートなど)にすると、mltermの変更が必要になります$PREFIX/etc/mlterm/aafontあなたは二重の幅(ノーマルとCJK文字の表示に使用するフォントを強調するために、構成ファイルを$PREFIX 、あなたがそれをインストールする場合mltermがインストールした場所によって異なります。一人で、それはおそらくある/usr/local/ 。それがインストールされて来た場合は、おそらく/etc例として、ここに私の方法です。 aafontファイルは次のようになります。

  ISO10646_UCS4_1 =エバーソンモノユニコードiso10646-1そうすると。
 ISO10646_UCS4_1_BIWIDTH =ビットストリームCyber​​bit-iso10646-1そうすると;

これはセリフビットストリームCyber bitフォントがCJK文字の幅を倍増するために使用しながら、EversonovサンセリフエバーソンモノUnicodeフォントは、文字の通常の幅のために使用されていると述べています。 軟化したエッジにフォントに切り替えるために、とmlterm起動する必要があり-Aこのようなフラグ:

  mlterm -A&

ここでの結果は、MandrakeのLinuxボックス上でどのように見えるかです:

あなたは可変幅フォントを使用したい場合は、変更後aafont適切に、このようなmltermを実行-a:

  mlterm -A -V&
注意:あなたが設定する必要がありosnovu libind一緒に入れて 問題は、Makefileを提供することで発生します あなたは、どちらかのMakefileを修正することができまたは怠惰なだけ設定することができますroot

xtermの

代替案は、で得られるのxterm( 図3)を使用することであるXFree86のを xtermが 、アラビア語ヘブライ語のように右から左に書かれる言語をサポートしていません 私はそれがインドのレコードの大半をサポートしていませんと思います。 の下に示されているようしかし、それはタイをサポートしています 第三の

Xterm's
図。 第三の xterm UTF-8モード。 xtermが 、タイを含め、UTF-8をサポートしていますが アラブのように、しかし、右から左に書かれていない言語

mltermxtermの両方のためにあなたはUTF-8にロケールを設定する必要があります。 私は令状またはロケールがUTF-8でないマシンを使用していた場合、多言語の操作のためにmltermとのxtermを開始するには、「ミニスクリプト」を使用します。

地元の標準はまだUTF-8に設定されていないUTF-8をサポート、とmlterm起動する「uterm」スクリプト:
#!/bin/sh
LC_CTYPE=en_US.UTF-8 mlterm --sbmod=right &
「あるuxterm」CRIPTローカル標準はまだUTF-8に設定されていない場合、UTF-8をサポートしてxtermのを開始します:xtermのためにあなたが実行するスクリプトまたはエイリアスを使用しない場合は非常に不便であるコマンドラインで、上のフォントを指定する必要があります。
#!/bin/sh
LC_CTYPE=en_US.UTF-8 xterm -u8 -fn \
'-misc-fixed-medium-r-semicondensed--13-120-75-75-c-60-iso10646-1' &
注意: OpenBSDの3.2はノーサポート現地の基準はないように思えるが、そのようなレコードがメッセージ与える「ローカル設定が成功していないの。」 それにも関わらず、UNIXののような単純なソフトウェアツールが正しく動作しない、と開くように読みやすい表示UTF-8のファイルを生成しません。 しかし、そのようなvimのようなその他のソフトウェアは、端末エミュレータの可能性にもかかわらず、オペレーティング・システムとローカル標準をサポートが存在しない場合に正しく機能しません。

私はKDEの特長好きがkonsoleの (KDE 3.xの)を 、今のところ、タンプは、多言語の業務のためにお勧めするように私は、UTF-8ローカル基準の下で、タイ料理やアラブの記録に間違いに気づきました。

Unicodeの編集者

それは現在、Linux / Unixのためのよいユニコードエディタの数利用可能ですが、私は3つだけを説明します:

yudit

Yuditその本質的なユニコードX Window System用のテキストエディタ(図4)。 Yuditは、任意のローカル設定で使用することができます。 それも、 開くために使用することができ、それは地元の標準を欠いています。 プログラムは非常に使いやすいですし、キーボード上のフォルダが多数付属しています – でも、(日本の)漢字と漢字(中国語)のための手書き認識で。 手書き認識は素晴らしいアイデアですが、実際にはそれだけのような非常に小さな動き、と非常にシンプルな文字でうまく動作します。それは非常に面倒なマウスを使用して、より複雑な文字を描画しているため、「人」や「水」。 より深刻な中国語、日本語、韓国語(CJK)kucačkeタスクのために、入力方法を必要とするものSCIM (もっと下の下)。

エディタに加えて、プログラムの配布は、二つの絶対に不可欠なツールが含まれています。

  • uniprintポストスクリプト印刷方法を提供Uniprint yudit内、またはコマンド環境から印刷に使用することができます。
  • uniconvシームレスにUnicodeの数が多く、全国時代遅れ、およびISO標準のコーディングの間でファイルを変換します。

使用に関する情報uniprintuniconvに位置しているツール

プログラムメニューには、多くの言語でご利用いただけます。 プログラムは、(X Windowsの除く)いくつかの外部依存関係を持ち、多言語現地の基準のインストール前の環境のための必要はありません。 例えば、Yuditは Vimが失敗しているローカルサポートを、欠けているのOpenBSD 3.2上で完璧に動作します。

Yudit
図。 第4回 Yuditは、言語の数のための事前instalitranomフォルダボタンが付属しています。 プログラムとそれに付随するツール、uniprintuniconvは、ツールは、ツールのごUnicodeのセットで必要とされています。

Vimの

それは一般的なアプリケーションことを知ってうれしいですので、多くのプロの開発者は、すでに彼らのizabranodエディタとして使用するあなたに依存しているVimは完全にUTF-8(図5)をサポートしています。

 

VIM
図。 第5回 Vimは C / C ++の強調表示色の構文でmlterm-中で実行されています ここに示したコードでは、静的なCスタイルの文字列を直接UTF-8エンコードされたデータのローカル基準を含んでいます。

多言語の仕事に役立つ操作コンソールvimのデバイスへの2つのキーがあります。 まず、あなたは、mltermとしてUTF-8資格の端末エミュレータでVimを実行する必要があります。 第二に、あなたはあなたの好みの言語を入力するには、フォルダボタンが必要になります。yuditとは異なりルックスはVIMと一緒に配布されていない多くの標準フォルダボタン

使用可能なキーボードであるフォルダを確認するには、次のコマンドを入力します。

:echo globpath(&rtp, "keymap/*.vim")

これは、あなたも世界的に利用できるフォルダボタンの位置、そしてあなたは、すべてのユーザーがそれにアクセスできるようにしたい場合は、あなたが作成したフォルダのボタンを配置するパスを伝えます。

セットアップとのvimのフォルダ]ボタンを使用することは難しいことではありません。 タイのフォルダボタンからの抜粋を以下に示します。 マップキー上のファイルの命名規則は以下のとおりです。

<language>_<encoding>.vim

したがって、この場合には、ファイルが呼び出されます。

thai_utf-8.vim

ここでは、ファイルのコピーは、次のとおりです。

例のvimのフォルダ]ボタン:thai_utf-8.vimからの抜粋を以下に示します。
UTF-8タイのための「Vimのキーマップファイル
「メンテナ:エドワード・H・トラガー <ehtrager@umich.edu>
「最終更新日:2003-04-08.ET

「このマッピングは、タイの標準TIS820-2538キーボードに準拠します
「layout.LetのB:keymap_name = “タイ” Loadkeymap
〜»
! Ɨ
第1幕
#2
$ 3
Pasento 4
^ <シャア-0X0E39>」THAI CHARACTER SARA UU
安藤<シャア-0X0E4E>「THAI CHARACTER YAMAKKAN
。..
。..
。..

「。ライン、「地図ボタン上のコメントのためのラインは、引用符、「」始まりlet b:keymap_name = "thai"私たちは、このようにフォルダを使用するようにvimの中でコマンドを発行することができるように、フォルダの短い名前を提供します。

:set keymap=thai

この行のすべてが言葉「次のloadkeymapキーマッピングです」。 1つ以上のキーをタイピングするための最初の列、ならびにキーに記載されていることができます。 一つ以上のバイトは、第二列の結果として指定することができます。

例えば、上記の抜粋に示すように、一番上の行のQWERTYキーボードで初めに最初の6つの主要なマッピングは、直接UTF-8としてシリアル化されるタイ語文字にマッピングされています。 これらの文字はそれぞれ、通常は3つのバイトを必要とするが、彼らはあなたのウェブブラウザでタイ語の文字として表示されます。 このようなフォルダボタンを作成する最も簡単な方法は、私は何をしたか、yuditを使用することです。

次の2つの項目は、別のアプローチを示しています。ここにあなたがしたいASCIIエディタを使用して、簡単なことで入力することができheksadecimaleに直接入力のUnicodeコードポイント、です。 任意のレコード用のUnicodeコードポイントを持つポータブル・ドキュメント・フォーマット(PDF)で、オンラインで見つけることができwww.unicode.org/charts/

あなたがキーボードマップを作り、(例えば、適切な場所にそれを入れているので/usr/share/vim/current/keymap )、Vimのの単にタイプ:

:set keymap=thai

この代替フォルダ]ボタンを有効にします。 あなたが編集モードにいるときは、キーのCtrl + ^を使用して標準および代替フォルダを切り替えることができます

最後に、ちょうどあなたが行うことができます他に何のアイデアを与えるために、ここでいくつかの漢字の決意のためのピンインのローマ字を使用してカスタムファイルフォルダボタンから簡単に抜粋です。 この例では、単純に複数のキーストロークのシリーズは、Unicode文字にマッピングすることができる方法を示しています。

別の例Vimのフォルダ]ボタン:一部の漢字のチェック項目を使用して特定のフォルダから抽出します。
「カスタムピンインキーマップ
「メンテナ:エドワード・H・トラガー <ehtrager@umich.edu>
「最終更新日:2003-04-08.ET

Bましょう:keymap_name = “特別な” LoadkeymapRi日
風水水
あなたNI
REN人
XINハート
朱竹
。..
。..
。..

それは、次の例を示してあなたは、vašem.vimrcファイルに使用するフォルダボタンを指定することができることに注意してください。

例〜/ファイル.vimrc:
これの.vimrcファイルには、コマンドCTRL ^を使用して切り替えることができますする別のフォルダボタンを提示します 他の行は、色や自動インデントを強調C / C ++の構文のためのvimを設定します。
set nocp incsearch
set cinwords=if,else,while,do,for,switch,case
set cindent
set nowrap
set keymap=thai
syntax on

vimのタイプからUnicodeとフォルダボタンの完全な使用方法については:

:help mbyte.txt
:help mbyte-keymap

採掘

直感的なユーザーインターフェース、ドロップダウンメニュー、と採掘体制コンソールユニコードエディタは、二重の幅と文字を組み合わせて、アラブ連盟のライゲーション、キーマッピング、構文をマーキング、および他の多くの機能が含まれていますUnicodeのサポートを、拡大しました。 UNIXおよびDOS / Windowsのプラットフォーム上で使用することができ採掘され、

mining
図。 6日 採掘は別のユニコードエディタです。

私は個人的に採掘を使用しますが機能の良いセットを持っていると思わないでください。

Unicodeエディターのより詳細な概要については、アラン・ウッドの概要を参照のUnixおよびLinux用のUnicodeと多言語エディタやワープロを

中国語、日本語、韓国語、その他の言語の入力メソッド

フォルダキーボードチベットは何である、中国語、日本語、韓国語(通常は「CJK」と呼ばれる)と他の言語をノックするのに十分ではありません。 これらの言語は、を介して動作洗練された入力方法(IMS)が必要ですXIMを マイク・ファビアン設定する方法について説明しており、ページの優れたセットを与える日中韓・コンピューティング環境を数多くのIMエンジンの設定の説明と詳細を提供し、あなたのLinuxボックスに。 最高のオープンソースのIMエンジンの一つはスマート共通の入力メソッド(SCIM)私は、以下の説明します、。

SCIM(智能通用输入法平台)

SCIM logo ジェームズ・スーのスマート共通インプットメソッド(SCIM)は C ++で書かれたIMプラットフォームはUnicodeです。 セットアップされ、UTF-8、または継承されたローカル規格を使用することは容易であるため、ユーザーのために、SCIMは優れた選択肢です。 それは自由、独立したクラスのセットへの入力メソッドのインタフェースを抽象化するので、あなたは簡単にわずか数行のコードで独自の入力方法を書くことができますので、それはまた、開発者に適しています。
Google search for "Olympics"
図。 第七SCIM優れたIMアプリケーションは、それが含む多くのCJK入力方法、サポート自然码zìránmǎのMozillaでのGoogle検索に中国語で示す入力を..

SCIMは現在、次のメソッドの一覧表を提供します。

  • ひらがな
  • カタカナ
  • 韓国語ハングル 한 글 입 력
  • 韓国語漢字漢字입 력
  • 中国倉頡倉頡
  • 広東省広東語ピンイン廣東拼音
  • 中国のerbiの二筆
  • 中国の香港語言学学会粤語ピン音方案粵語拼音
  • 中国の単純簡易
  • 中国の五筆五筆字型
  • 中国zìránmǎ自然碼
  • 中国の知的ピンイン智能拼音

利用できる数多くの中国語入力メソッド、 インテリジェントなピンインZiranmaの使用するのが最も簡単です。 キーボードレイアウト、および標識を使用する方法の説明自然碼zìránmǎ、または自然双拼イラン双ピン、あなたは見つけることができるここに インテリジェントなピンインの方法は、ソース・ソフトウェアを閉じ、またはあなたが自由にSCIMで使用するためのバイナリRPMのバージョンをインストールすることができますので、予めご了承ください。 あなたはソースからコンパイルした場合、私はあなたが方法が自然碼zìránmǎ非常に満足のいくと考えると思います。

SCIMは 、ALK-1.0 + 2.0 +泥、 パン-1.0 + + 2.0GTK +を必要とします これらのライブラリは、新しいLinuxディストリビューションで存在するであろうか、からそれらをダウンロードすることができますGTK +のサイトここで

あなたがSCIMをコンパイル実行するとあなたはあなたに次の行を追加する必要があります.xinitrcあなたはXウィンドウを起動するたびに開始SCIMを保存するファイル:

SCIM CDを起動するために〜/ .xinitrcファイルに追加する行の例:
最初の行は、デーモンとしてSCIMを開始します。 2行目は、サーバーの入力方法としてSCIMを使用するようにXを伝えます。
scim -d
export XMODIFIERS=@im=SCIM

あなたがSCIMの古いバージョン(前のバージョン0.8.0)を使用し、まだ中国語、日本語、韓国語のローカル基準を実行していない場合は、設定する必要がありますLC_CTYPE 、あなたの中のロケール日本語や韓国語、中国語を参照して、変数の環境を~/.profileファイル。あなたも、あなたができることに注意してくださいLANG下の例に示すように、英語など、環境は第二(UTF-8)ロケール用に設定されています。 SCIM取引のバージョン。 0.8.0はとうまく動作しますLANG 任意の UTF-8ロケールに設定します。

SCIM CDを起動するための〜/ .profileファイルに追加する行の例:
SCIMのバージョンの前に。 0.8.0は、日中韓の環境で動作するはずです。 しかし、SCIMは他の主要言語的環境の下で、UTF-8英語では何であり、ここでは示されているようLANG環境変数LC_TYPEを設定することで動作します。 この例では、BASHの基礎を使用することを前提としています。 バージョンSCIM取引付き。 0.8.0は、任意のUTF-8ローカル規格では動作しますが、あなたは、具体的LC_CTYPEを設定する必要はありません。
export LANG=en_US.UTF-8
export LC_CTYPE=zh_TW.UTF-8

電子メールエージェント

Muttの

Mutt's logo Muttは良いUTF-8 Unicodeサポートと優れた電子メール・エージェントです。 Muttはも広く個々のニーズに適合させることができます。 例えば、非常に簡単な調整は、メッセージのインデックスに特別色をチェックし、特定の人々、ドメイン、またはメーリングリストからエマールを受信することです。 そのような例では、左側(図8)以下のように示されています。 私はizh_naborのMuttのが好きなもう一つの特徴は、あなたが電子メールを構成する任意のエディタを使用することができるということです。 私はMuttはUTF-8でメールを作成するために使用するためyuditを設定しています。 より多くの一般的なオプションが使用Muttに数回と安いが、異なる設定オプションで遊ぶためのエディタはVimの使用である、あなたは別の電子メールエージェントを使用してに戻ることはありません。
Mutt's index with konsole Mutt displays UTF-8 encoded e-mail of
図。 8日 Muttは優れた電子メール剤です。 あなたがでMuttを数回使用し、あなたの好みに調整している場合は、他のメールエージェントを使用することは決してないだろう! 左サイド:メッセージインデックスターミナルKDE konsoleの右側に働くカスタムカラーでMuttに例を示します。MuttはmltermでUTF-8エンコードされたメッセージを表示します

ツール

このセクションでは、印刷のための変換やツールを示します。

変換ツール

別の暗号化されたファイルを変換するには、言及する価値の3つのツールがあります。

  • iconv GNUのlibcのの一部である(したがって、あなたのシステムにおそらく既にある)を。
  • uniconv Yuditと一緒に配布されます
  • convmvこれらのツールの使用を以下に示します。

    iconv

    著者は、「これは、これらの名前のすべての組み合わせがFROMために使用することができ、ラインパラメータを指令することを意味するものではありません」という警告がGNUのiconvが 、コーディングの数が多いです。 すべての既知の符号化、タイプのリストを取得するには:

    iconv -l

    使用は次の通りです:

    iconv -f <from_encoding> -t <to_encoding> [-o <output_fileの> <INPUT_FILE>
    % iconv -f ISO8859-8 -t UTF-8 -o myfile.utf8 myfile.input

    uniconv

    Yuditで配布内部および外部の符号化の有用なセットを含むことがUniconv。 完全なリストについては、次のように入力しますuniconv –help

    uniconv --help

    使用を以下に示します。

    uniconv -decode <from_encoding> -encode <to_encoding> -in <INPUT_FILE> -out <output_fileは>
    % uniconv -decode java -encode utf-8 -in myfile.input -out myfile.utf8

    piconv

    Perlの5.8+を一緒に配布されpiconv 使用は、GNU のiconv(および方法で、道はるかに知的な)とほぼ同じです。 piconvのmanページには、詳細情報を提供しています。 piconv -l他の仮名を有するいくつかは、120以上の認識されたコードのリストを提供します。

    convmv

    Convmvは、 (例えば、UTF-8における従来の符号化から)別のエンコーディングからのディレクトリツリー内のファイル名を変換するためのツールです。 ファイル名だけを変換します。 ファイルの内容は変更されません。 あなたは見つけることができますconvmvのmanページここに

    印刷のためのツール

    Unicodeテキストやデータを印刷する場合は、そこuniprintその他のパッケージyuditと一緒に配布され、あまり知られて呼ばれているpaps あなたがプログラマであれば、見て、 LAGのポストスクリプト・印刷の流れに基づいて、C ++のライブラリ..

    uniprint

    Uniprintは Yuditと一緒に配布すること それは印刷に使用yuditが、それは直接コマンドラインから使用することができます。 使用して、タイピングすることによって得ることができます。uniprint --help

    一般的な使用方法を次に示します。

    uniprint -hsize <header_font_size> -font <truetype_font_to_use> -in <INPUT_FILE> -out <output_fileは>
    % uniprint -hsize 0 -font /usr/local/fonts/cyberbit/cyberbit.ttf -in myfile.utf8 -out myfile.ps

    PAPS

    PAPSはで利用可能なUTF-8からPostScriptへの変換器であるhttp://imagic.weizmann.ac.il/~dov/freesw/paps/ PAPSが敷設され、印刷するためのオプションを持っており、非常に便利なことができた、片側に複数の列を印刷します。

    参照してくださいLAGの下のPostScript印刷ライブラリの議論を。

    フォント

    近年のオープンソースソフトウェアの急速な成熟のために、高品質のフォントを持つ完全なLinuxデスクトップエクスペリエンスを体験できるようになりました、MacまたはWindowsのPC上ですでに達成可能であるものに競合することで、エッジを軟化。 Unicodeフォントは自然に国際化、多言語デスクトップを作成するための重要な部分です。 このような環境を作成するには、知っておく必要があります。

    • フォント、使用X Windows用の、特にUnicodeのTrueTypeフォントをインストールする方法。
    • Unicodeフォントをインストールする方法についていくつかの提案。

    これらのトピックについて説明しています。

    KDEからフォントをインストールします

    あなたは、最近のLinuxディストリビューション上でKDEを実行している場合は、インストールする最も簡単な方法は、コントロールセンターの一部であるフォントのためのKDEのグラフィカルインストールプログラムを使用することです。 メニューから、その後、KDE コントロールセンター、 システム管理、およびフォントインストーラを強調表示します。 管理用モードでのクリックごとにフォントをインストールし、rootのパスワードを入力します。 そして、単純に(図9)を 追加]ボタンをクリックして、必要なフォントを追加します 完了したら、ハイライトが適用されます。 KDEはあなたのマシン上でのフォントの設定を更新するために必要なすべてのシナリオを実行します。

    KDE Font Installer
    図。 第九KDEのフォントインストーラは、LinuxでのUnicode TrueTypeフォントをインストールするmolakšava。

    手動でフォントをインストールするには

    最近のLinuxディストリビューションでは、システムを使用するのfontconfigフォント管理。 fontconfigは定期的にグローバルにリストされているフォントフォルダスキャン/etc/fonts/fonts.confとユーザ固有の~/.fonts.conf .konfiguracionimファイルを。 ユーザーが行う必要があるすべては、既知のディレクトリに新しいファイルのフォントを置くことである、と彼らは自動的に使用可能になります。 これは、以前よりもはるかに簡単です!

    たとえば、SUSE LINUXとXウィンドウシステムを使用し、他の多くのシステムでは、TrueTypeフォントおよびOpenTypeフォントはに保存されている/usr/X11R6/lib/X11/fonts/truetype このパスが長い、と私は望んでいないとして覚えている、私は自分の人生を容易にするために、シンボリックリンクを使用して実行しているシステムで:

      〜>です
       パスワード:******
     〜> CD /
     〜> Lnの-sは/ usr / X11R6 / libに/ X11 /フォント/ TrueTypeフォント/ /フォント
    

    今、システム全体の使用のホームディレクトリの新しいフォントをインストールし、より多くの何物でもありません。

      〜>蘇-c「MV my_new_font.otf /フォント "
       パスワード:****** 
    

    唯一の個人的な使用のためのフォントのインストール:

      〜> Mのmy_new_font.otfの.fonts
    

    Unicodeのフォント

    フリー/リブレオープンソースのオペレーティングシステム用のUnicodeフォントガイドは、オープンソースのオペレーティングシステムの使用に対応する遊離し、合法的にダウンロードするベクトルフォント(TrueTypeフォントおよびOpenType)のための簡潔なガイドです。 フォントのガイドは、Unicodeでエンコードされた世界Skrpteのほとんどの品質Unicodeフォントのさまざまなリンクを提供します。

    上記のフォントのUnicodeガイドには含まれていない多くの商用フォントを含むフォントのより包括的な治療、については、 アラン・ウッドのフォントページを

    フォントエディタ

    Pfaedit

    Pfaeditは、あなたがあなた自身のPostScript、TrueTypeフォント、OpenTypeフォント、CID-キーおよびビットマップ(BDF)のフォントを作成することを可能にするのLinux / UNIX、オープンソースのフォントエディタです。 あなたはまた、異なる形式で既存のフォントファイルを編集することができます。

    独自のフォントを作成する予定がない場合でも、Pfaeditは、Unicodeのブロックを決定するために非常に有用で、そのためのスクリプト、Unicodeフォントで覆われています。 フォントをインストールする前に、グリフの形を確認することも不可欠です。 フォントのためのKDEインストーラーで提供フォントの表示、およびその他のプログラムは、通常は全く不十分、など一般的にのみASCIIまたはラテンブロックを示しています。 非ラテンレコードの場合、Pfaeditは、フォントを表示するために、より便利なプログラムです。 > 表示固めた -フォントのすべてのグリフの簡単な概要については、 ビューを選択します。 デフォルトのエンコードされたビューは、与えられたフォントで定義されませんそれらの多くは、すべてのUnicodeコードポイントのフィールドが表示されます。

    PFAEdit font editor
    図。 10位 Pfaeditは、Linux用のオープンソースのフォントエディタです。

    オフィスソフトウェアパッケージ

    オープンオフィス

    Open office logo もっと最近発行されたオープンオフィスのバージョン1.1を優れた国際化の持つ特性右から左へのサポート、複雑なテキストレイアウト(CTL)、(RTL)を含むが、双方向のアルゴリズムの(のBiDi)をサポート。 オープンオフィスは、Microsoftのフォーマットdocumenata、PDFへのエクスポート、XMLのサポート、および他の多くの機能のための優れたサポートを提供します。 オープンオフィスのローカライズには、多くの言語や地域の規格に存在するチェコ語デンマーク語ドイツ語スペイン語フランス語インドイタリア日本オランダ語ポルトガル語(ブラジル)ロシア語フィンランド語タイトルコ語

    プログラミングとデータリソース

    ICU

    IBM ICU's logo IBMのオープンソースのUnicode国際コンポーネントライブラリは、サービスの取り扱い、テキスト、Unicodeの正規表現の解析、言語的に敏感なペアリング、および200の以上のローカル規格の設計ルールを含む強固なUnicodeのサービスを提供しています。 ライブラリは、C、C ++、およびJavaで利用可能です。 あなたが直接ICUライブラリを使用する予定がない場合でも、ローカルデータ自体非常に有用な資源です。 これは無視すべきではない素晴らしいリソースです。

    Pangoの
    Pangoのレイアウトや国際テキスト設定のためのオープンソースのライブラリを提供します。 RedHatののオーウェン・テイラーによって開始Pangoのは、GTK +およびGNOMEのUnicodeのサービスに基づく多言語スケジュールを提供します。 Pangoのは、しかし、GTK +やGNOMEに依存せず、他のプロジェクトで使用することができます。
    FreeTypeの
    FreeType 2は、オープンソースフォントエンジンです。それは関係なく、ファイル形式のコンテンツのフォントへのアクセスを使用するようにシンプルなインターフェイスを提供します。クライアントプログラムは、グリフデータのアウトラインにアクセスするか、滑らかなエッジで、モノクロまたはビットマップを取得するためにフリータイプのグリッドを使用することができます。
    非常に興味深い機能ライブラリFreeeType 2それは「autohinterが」あなたはアップルにライセンスを支払った場合は、FreeTypeのはコンパイルできますが、特許取得済みのフォント技術の補正をするために使用されているApple Computer、Inc.が所有する3件の特許の侵害を避けるために含まれていることです太い文字。幸いなことに、アップルからだけでなく、Linux用のライセンスを購入する必要はありません。皆のために、無料のタイプも「autohinter」を使用するようにコンパイルすることができ、まだ、コンパクト、まだ真のビットマップグリフの大きさ、特にながら、特許を侵害しないように設計されています。

    手のひらC ++ライブラリのポストスクリプト印刷

    LAGは、もともと私の友人は、今eyegeneのウェブサイトここで作られた新しいPostScript印刷ライブラリラリー・セイドン作りました。 Pangoの利点のグリフとのFreeType 2 Unicodeテキストのレイアウトと設定について。
    主にQT、KDEを(あなたはどのようなアプリケーションのライブラリ偉大なGUIに関連付けられていない誰かを持っている非ラテン系の科学と他の徴候とマデリーンのPostScript文書の記録とを印刷する機能を必要とする私の科学と他のプログラムで必要なもの)、またはGTK + / Gnomeの。
    C +のフローに基づいて以下の例のようにLAGの複雑なフォーマットルールを有する単純な(ヘブライ語、アラビア語)右から左への記録を含む印刷ユニコードテキストの複雑な詳細から右の画像に示された現像剤、 +分離するために、彼らは(アラビア語、タイ語devenagariを)インタフェースを提供。世界スクリプトに加えて、利用者はもちろん、単純に示すUTF-8でエンコードされたシーケンス()メソッドを追加することができますし、Unicodeで定義された多くの科学と数学記号を活用します。ショー()。
    Example of extended LAG
    お絵かき。 11。それは、それが簡単にあなたのPostScriptドキュメントにUnicodeからのテキストを組み込むことができます。これらの非常に類似した特性を生成するために使用されるソースコードは、あなたがそれを見ることができる余分です。
    例のヤシのポストスクリプト印刷ライブラリ
    シンタックスの#include <iostreamの>
    フォーマットする#include <stdexcept提供提供>
    フォーマットの#include <psDoc.h>私は、ヤシの名前空間を使用しました。
    名前空間stdを使用してください。

    INTメイン(int型ARGC、CHAR CONST * ARGV [])
    {
    試してみます {

No Comments

    Leave a reply