コンピューターで全漢字使用可に 6万字コード化

1:2017/12/24(日) 22:36:10.23 ID:

https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html?utm_int=news_contents_news-main_001

12月24日 18時04分IT・ネット
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

漢字とコンピューターのこれまで

戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。

その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。

現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
(リンク先に続きあり)


7:2017/12/24(日) 22:39:23.74 ID:

全漢字ってどういうこと?

当用漢字だけじゃないってこと?


28:2017/12/24(日) 22:47:21.31 ID:

戸籍ね
誤字や書き間違い多いからな
それを直せよ


34:2017/12/24(日) 22:49:05.83 ID:

>>7
全漢字というのは確かにおかしい。

漢字辞典のでっかいのには約三十万字漢字が登録されていて、中国でもだいたい同じなので、存在し、文字として多数から認識されている漢字は三十万字程度あると思われる。

六万字はあくまで日本の中で名前などで使われたことがある漢字ということだろう。

実は大昔からこんなに漢字があるわけではなく、明治以降の戸籍の発足に伴って、公務員と申告者の書き間違え、見間違い他でやたらに漢字のバリエーションが増えた。

だから、大半の漢字はそもそも単なる間違いで存続させる意味はない。

でも、IPAとかそれを存続理由の一つにしているから始末が悪い。


44:2017/12/24(日) 22:50:37.91 ID:

>>1
戸籍で使用できる漢字を常用漢字に統一するのが正道だと俺は思うのだが


71:2017/12/24(日) 22:55:34.88 ID:

>>44
本人の同意を得られればだろ
戦前は漢字の表記が統一されてなかったからばらばらになってるだけ
公務員が嫌がらせで変な字を当ててることもあるけど


91:2017/12/24(日) 22:59:29.11 ID:

コード付けたのは大成果だけど
各種の字体のフォント作らなきゃいけない
フォントクリエーターが(T_T)泣くな
使えるってことは作らなきゃいけないってことだよ


94:2017/12/24(日) 22:59:50.32 ID:

で、スマホやパソコンが対応するのはいつ頃?


126:2017/12/24(日) 23:06:48.61 ID:

>>1
2バイトは16ビット
2^16 = 65535

つまり、2バイト文字は
六万五千五百三十五個の
漢字コードが  割当て可能なのです。

∧_∧
(  ^ω^)   < これ豆知識・・・
/


129:2017/12/24(日) 23:07:42.10 ID:

EUCコード、シフトJIS、Unicodeが並立していた時期が懐かしいわ。
nkfで変換していた時代が懐かしい


136:2017/12/24(日) 23:09:06.66 ID:

>>129
その前にJISというのもあってな。

もっと言えば、シストJISもNEC拡張とマイクロソフト拡張があって、それも数度にわたっているから、もうごちゃごちゃ。


137:2017/12/24(日) 23:09:07.68 ID:

>>126
それじゃぜんぜん足りない
世界には日本語以外の文字も沢山ある


146:2017/12/24(日) 23:10:37.64 ID:

UnicodeのUniって、全世界の文字を一つのコードって意味だろ?


154:2017/12/24(日) 23:12:36.28 ID:

>>137
32ビットのトロンではむしろページはあまりまくりで、古代エジプトのヒエログリフやアニメの星界の~シリーズのアーブ語とかも入れられていた。


169:2017/12/24(日) 23:14:46.14 ID:

>>146
それが出来るように当初4バイト文字くらいまであったような
日本は最小限しかコード化しなかった、ハングルは部首の組み合わせ全部コード化した


186:2017/12/24(日) 23:19:55.09 ID:

>>136
いまだに全銀手順はEBCDIC


212:2017/12/24(日) 23:24:35.92 ID:

おれのPC-6601はとっくの昔に漢字を使用できているがなにをいまさらかと


223:2017/12/24(日) 23:27:02.23 ID:

若い人は知らないだろうけれど、行政は以前は文字(漢字)を減らそう減らそうとしてた。 それはもうすごい勢いだった。
役所の窓口では、手書きの間違った字は ごく当たり前に変更していたし、字形が違っても当用漢字に当て直してた。
それはそれで正しい行動だと思う。

>>1 のような書き損じの字まで外字登録したら6万じゃ済まない。
跳ねがちょっと違ったり、点の位置が違うだけなのは新たに登録しないでほしい。


233:2017/12/24(日) 23:29:53.15 ID:

ごめん教えて
コードを割り振ってもフォントが対応しなきゃだめじゃね?
フォントってマイクロソフトとかが用意するんだろ?
マイクロソフトが金かけてフォント用意するのかね?


259:2017/12/24(日) 23:38:18.73 ID:

>>233
コードが標準化されてれば誰が作ったフォントでも統一された扱いができる。その字体は別の話。
NECやマイクロソフトの作ってきた製品化のために一企業が勝手に作った独自コードに過ぎない。


319:2017/12/24(日) 23:56:14.83 ID:

そもそもUnicodeつかってたら
なんの問題もおきない

Unicode以外のキャラクタセット使うOSでは
まずマッピングできないから表示できない


330:2017/12/24(日) 23:58:09.40 ID:

6万字とかまだまだ全部じゃないだろ。


338:2017/12/24(日) 23:59:33.11 ID:

>>34
大漢和辞典とか数十万文字の漢字が載ってるよね
鉄っていう漢字だけで百種類を超える外字がある


386:2017/12/25(月) 00:18:25.50 ID:

  雲
雲龍雲
龍龍
(たいと)が、ユニコードのCJK統合漢字拡張Gに入る予定みたいだな


457:2017/12/25(月) 00:50:53.52 ID:

今昔文字鏡涙目だな。いや一番お世話になってるけどUnicode対応遅れすぎだろ。


458:2017/12/25(月) 00:51:01.41 ID:

いや、IVSコード無視すれば大丈夫
痛い字は表示できない仕様のフォントですと宣言すれば
ハードルはかわらない


460:2017/12/25(月) 00:51:11.20 ID:

漢検に段ができる日が来たのか
胸熱だな


550:2017/12/25(月) 02:56:47.77 ID:

割り切るもなにも、カタカナは日本の文字じゃん
ローマ字表記は訳が違う


557:2017/12/25(月) 03:11:14.11 ID:

住基ネットと戸籍の電子化に必要な漢字をUnicodeに入れてもらったのがISOで規格化されたという話らしいな

戸籍の電子化の話だったかな、手書きで100種類近い形がある同一(と認定した)文字を20種類くらいに絞ったとテレビでやってた
それ以外の形の文字で登録されている人には変えてもいいかを聞いて登録していくと言ってた


574:2017/12/25(月) 03:42:09.41 ID:

>>1
年220日労働したとして15年で5万時だと日に15文字なんだけど…

やる気無さ過ぎませんかね?


628:2017/12/25(月) 06:38:59.94 ID:

どんだけぐうたらなんだらうな。
たかが漢字だけを登録する仕事なのに15年も掛かるとはねw
三十年前には終らせてゐなければならなかつた物だよなw」


633:2017/12/25(月) 07:00:07.33 ID:

一日百個登録するだけの簡單なお仕事でも一年で三萬六千五百個登録できる。
二年もかからずにをはる仕事を十五年w


634:2017/12/25(月) 07:01:09.05 ID:

漢字5万文字を15年かけて…って一人でやってたとしても1日当り13~15文字。
複数人でやってたらほんの数文字。
こういう作業こそコンピュータでやればすぐ出来そうなのに


689:2017/12/25(月) 08:13:32.26 ID:

ともあれユニコードで解決したものと思っていたのに、
不完全だったわけだな。もっともオイラのPCでは
液晶の粒の事情で、
画面表示のときは、さらに簡略化された文字になってるが。


750:2017/12/25(月) 09:24:20.00 ID:

無駄にでかくなるからサブセットにしてくれんかな


761:2017/12/25(月) 09:35:35.08 ID:

>>1
俺の戸籍上の名前は「ころもへん」に右側の上が「火」その下が「口」
本当は「裕」を書こうとしてオヤジの字が下手ただった為そういう字になった
コンピューターどころか辞書にも中国にもない漢字らしい
そういうのはそうすんだよ?


767:2017/12/25(月) 09:39:57.67 ID:

渡邉だけどめんどくさいから普段渡辺で通してるよ
仕事も病院も
役所関係だけだな渡邉使うのは


773:2017/12/25(月) 09:45:07.28 ID:

>>1
戸籍統一文字って5.5万字コード化されてるよね?
1万字しかされてないってどこの世界?


790:2017/12/25(月) 10:26:58.82 ID:

個人の思いつきでどんどん漢字の読み方を増やせるなんて異常事態だぞ


820:2017/12/25(月) 12:46:44.58 ID:

なんか知らんが嬉しい。


821:2017/12/25(月) 13:45:37.86 ID:

仕事で接する感じだと、吉を苗字に使う人の場合「きち」より「つちくち」の方が多い気もする。


837:2017/12/25(月) 15:41:34.98 ID:

竜と龍はどうなるんだ?

正字の龍に統一か?それともより古い甲骨文字に起源を持たせ、竜に統一か?

いずれも各所から文句が来そうな事案だな。


ブログランキング

シェアする

  • このエントリーをはてなブックマークに追加

フォローする