1: みつを ★ 2017/12/24(日) 22:36:10.23 _USER9
92f56ea6
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html?utm_int=news_contents_news-main_001

12月24日 18時04分IT・ネット
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

漢字とコンピューターのこれまで

戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。

その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。

現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
(リンク先に続きあり)
引用元: http://asahi.5ch.net/test/read.cgi/newsplus/1514122570/


44: 名無しさん@1周年 2017/12/24(日) 22:50:37.91
>>1
戸籍で使用できる漢字を常用漢字に統一するのが正道だと俺は思うのだが

71: 名無しさん@1周年 2017/12/24(日) 22:55:34.88
>>44
本人の同意を得られればだろ
戦前は漢字の表記が統一されてなかったからばらばらになってるだけ
公務員が嫌がらせで変な字を当ててることもあるけど

77: 名無しさん@1周年 2017/12/24(日) 22:56:39.43
>>71
法律を改正して常用漢字に強制的に切り替えればいいんだよ。

4: 名無しさん@1周年 2017/12/24(日) 22:38:32.94
昔、俺の親父の免許も一部手書きになってたわ

6: 名無しさん@1周年 2017/12/24(日) 22:39:05.80
仕事増やすなよ
これで住民票も全部チェックして該当者のは入替発生だわ

7: 名無しさん@1周年 2017/12/24(日) 22:39:23.74
全漢字ってどういうこと?

当用漢字だけじゃないってこと?

18: 名無しさん@1周年 2017/12/24(日) 22:43:13.97
>>7
当用漢字ってジジイかてめーわ

常用漢字にしても2000文字もないんだから
今回は日本で使われる全漢字ってことだ

46: 名無しさん@1周年 2017/12/24(日) 22:50:54.48
>>18
魚偏に強いと書いてイワシと読む漢字が入っていません
ヴァル閣下が怒ります

207: 名無しさん@1周年 2017/12/24(日) 23:24:09.64
>>46
どうしてそうなった?

218: 名無しさん@1周年 2017/12/24(日) 23:25:50.56
>>207
イワシは栄養素の塊、決して弱くないのだ、というところから

9: 名無しさん@1周年 2017/12/24(日) 22:39:36.84
魚強
は入ってんの?

11: 名無しさん@1周年 2017/12/24(日) 22:40:11.05
特に斉藤には偏屈な人が多くて、
メールの宛先の漢字が間違ってたらヘソを曲げて嫌がらせしてくる人がいるからな。

270: 名無しさん@1周年 2017/12/24(日) 23:40:56.20
>>11
斉藤ていうか齊藤の人だな。

505: 名無しさん@1周年 2017/12/25(月) 01:14:54.65
>>270
齋藤かもしれんぞ

12: 名無しさん@1周年 2017/12/24(日) 22:41:21.92
草は使える漢字になったの?

13: 名無しさん@1周年 2017/12/24(日) 22:41:55.64
超漢字・・・


しかし自治体の基幹業務システムにおおむね反映されるのはいつの日やら・・・

15: 名無しさん@1周年 2017/12/24(日) 22:42:03.72
TRONコードの試みは貴重な踏み石扱いか

43: 名無しさん@1周年 2017/12/24(日) 22:50:36.63
>>15
トロンは32ビットあるから、なんでもできる。
だからあわてないのだが、これはUnicodeの拡張なのでとっても窮屈。

そもそも漢字として確立してはいけない漢字が多数だから、あまり意味はない。

95: 名無しさん@1周年 2017/12/24(日) 22:59:54.62
>>43
Unicodeて多バイト文字あるよね

108: 名無しさん@1周年 2017/12/24(日) 23:02:43.01
>>95
プレーンな32ビットにすれば良いのに、ページとか作りまくりだから、結構海外と文字がずれたりすることになっている。

432: 名無しさん@1周年 2017/12/25(月) 00:39:02.04
>>108
実際には4面さえフル実装してないけどな。
16、17面は外字だし

16: 名無しさん@1周年 2017/12/24(日) 22:42:21.10
その昔トロンというものがあってだな・・・

19: 名無しさん@1周年 2017/12/24(日) 22:43:30.26
またSEが過労死するんか

21: 名無しさん@1周年 2017/12/24(日) 22:44:53.56
元号変わるより楽やで

26: 名無しさん@1周年 2017/12/24(日) 22:47:13.65
unicode 2の時の
ハングル大移動は
ひどかった。

27: 名無しさん@1周年 2017/12/24(日) 22:47:14.38
吉田のヨシのつくりが、って、こいつ日本語わかってんのか?
何で字の上半分が、つくりなんだ?
バカか。

28: 名無しさん@1周年 2017/12/24(日) 22:47:21.31
戸籍ね
誤字や書き間違い多いからな
それを直せよ

37: 名無しさん@1周年 2017/12/24(日) 22:49:44.53
>>28
異体字の始まりはだいたいこれ

29: 名無しさん@1周年 2017/12/24(日) 22:47:57.18
国文学やってる奴はMacの超漢字が必須だっていうもんな。
なんぼか状況変わるのかね?
まだまだなのか。

30: 名無しさん@1周年 2017/12/24(日) 22:48:22.32
ついでに常用漢字も撤廃しろ

「ねつ造」とか「わい曲」なんて字面が間抜けに過ぎる

32: 名無しさん@1周年 2017/12/24(日) 22:48:43.62
サロゲートペアとか未だによく理解できてないタコプログラマです

33: 名無しさん@1周年 2017/12/24(日) 22:48:47.08
戸籍を整備する際の転記ミスがまったく修正されずに長年にわたって通用していたのが現況
いまさら変更は不可能になっている

35: 名無しさん@1周年 2017/12/24(日) 22:49:22.42
日本もそうだが、中國は繁体字を使え!

手書きでなら、
簡体字でもローマ字でも平仮名片仮名でも何だってよいが、
印刷物・本雑誌新聞等やモニター画面・テレビ字幕パソコンタイピング等では
表意に優れた繁体字(正體字)を使うべき。
コレを「識繁写簡」と言う。

21世紀以降の科学技術発展には6万語ある文字「漢字」が活かされる。
IoT(モノのインターネット)もそうだが、
これから益々高度化する有りと有らゆる高機能化部品に名前を付ける場合、
表音文字では最早限界に達している。
と言うか
その部品に意味付け出来る単語を創れない。
出来るのは番号や記号付けだけだ。
高機能化部品に意味を持った名前を付ける。
数百万点以上の高機能化部品の複合化、
数百億点以上の高機能化部品を利用した新アイディア創出等で
番号記号より意味ある名前を使った方が有利。と、思うぉ。

科学技術立国の日本もそうだが
「識繁写簡」を積極的に推進すべき。

あと、
6万語ある漢字でプログラミング言語も作るべき。
そして、人工知能の自己進化機能で
其のプログラミング言語を永続的にアップグレードさせるべき。
地球人の宇宙文字として、
漢字・繁体字(正體字)が相応しい。

52: 名無しさん@1周年 2017/12/24(日) 22:51:47.43
>>35
中国にそう言うなら、まず日本は常用漢字の使い方を撤廃しないとな。

桜とか学校とか全部ダメ。
そんなことができるのか?

54: 名無しさん@1周年 2017/12/24(日) 22:51:58.33
>>35
それなら全部繁体文字で書けよ(笑)

85: 名無しさん@1周年 2017/12/24(日) 22:58:08.08
>>35
だったらおまえの文も
すべて繁体字で書けよ

38: 名無しさん@1周年 2017/12/24(日) 22:49:46.95
それより「斉藤」と「渡辺」のバリエーションの多さはいい加減にしてほしい!

変換がどうのこうの以前に、細かい部分が老眼では見えないw

59: 名無しさん@1周年 2017/12/24(日) 22:52:38.87
>>38
正直、大半は間違いなんだから、どこかで職権で無くさないといかなかった。

72: 名無しさん@1周年 2017/12/24(日) 22:55:52.31
>>59
だよなぁ

87: 名無しさん@1周年 2017/12/24(日) 22:58:21.47
>>72
このままこの数万字漢字として残しても、その人の名前でしか使わないから、その人の検索性も落ちるし、良いことはない。

39: 名無しさん@1周年 2017/12/24(日) 22:49:58.59
ボンクラばかりのIPAが珍しく仕事らしい仕事してるんやな

647: 名無しさん@1周年 2017/12/25(月) 07:29:56.03
>>39
IPAは割りといい仕事してる印象

41: 名無しさん@1周年 2017/12/24(日) 22:50:04.22
戦後の改革期に人名漢字を統一できなかったツケが回ってきたよな

渡「辺」、「斉」藤の各一種類で困らんやん

つまらんアイディンティティーを主張する輩も
戦後にやっとけば今ごろは死に絶えてたのに

45: 名無しさん@1周年 2017/12/24(日) 22:50:46.18
これで喜ぶのは中国人だけだろ

48: 名無しさん@1周年 2017/12/24(日) 22:51:04.17
昔の公務員が変な字で登録したのがはじまり
俺の先祖もとんでもない字で登録されてる

50: 名無しさん@1周年 2017/12/24(日) 22:51:40.94
檸檬も薔薇もOKか

63: 名無しさん@1周年 2017/12/24(日) 22:53:33.62
>>50
そんなのはUnicodeで大丈夫だった。

バリエーションは字体でカバーすべきだった。

413: 名無しさん@1周年 2017/12/25(月) 00:30:34.32
>>50
それらは昔から問題ないよ。また、それらって異字体もないし。
厩舎の「厩」のような漢字は異字体がたくさんある。

57: 名無しさん@1周年 2017/12/24(日) 22:52:33.51
データベース検索でどうしても引っかからない名前がある原因は
大概、漢字の微妙なバリエーション違いw

60: 名無しさん@1周年 2017/12/24(日) 22:52:41.43
15年かけて6万文字ってことは
単純計算で1日10文字くらいしか登録できないのか

62: 名無しさん@1周年 2017/12/24(日) 22:53:22.17
マイナンバーを沢山見てどんだけ酷いか少しだけ分かった
書き間違いだろと思うような種類の多さ

70: 名無しさん@1周年 2017/12/24(日) 22:55:14.78
>>62
いや書き間違いなんだよ。

原簿がそうなってるから原簿の通りというだけで。

67: 名無しさん@1周年 2017/12/24(日) 22:54:40.09
超漢字…

69: 名無しさん@1周年 2017/12/24(日) 22:55:09.21
フォントメーカー泣かせ

74: 名無しさん@1周年 2017/12/24(日) 22:56:04.78
>>69
フォントメーカーはむしろかき入れのタイミング。

セットで置き換えできるから結構美味しい。

75: 名無しさん@1周年 2017/12/24(日) 22:56:18.44
トランプ 「お前ら何やってんねん?アルファベットで不便ないよ。」

安倍 「...」
文 「...」
蔡 「...」

84: 名無しさん@1周年 2017/12/24(日) 22:58:03.22
>>75
フォントの字体をコードで全部区別してんだよ

78: 名無しさん@1周年 2017/12/24(日) 22:56:57.38
むしろ漢字減らそうよ
島と嶋と嶌とか統一しようよ

82: 名無しさん@1周年 2017/12/24(日) 22:57:58.52
最近のUnicodeは絵文字も入ってるゼ

98: 名無しさん@1周年 2017/12/24(日) 23:00:37.63
>>82
ああいうのはやめるべきやわ

83: 名無しさん@1周年 2017/12/24(日) 22:58:02.69
苦節何十年だよ
簡単なようでいろいろ難しかったな

しかし、フォントも辞書もこれから開発だろ?

89: 名無しさん@1周年 2017/12/24(日) 22:59:00.96
なおフォント

91: 名無しさん@1周年 2017/12/24(日) 22:59:29.11
コード付けたのは大成果だけど
各種の字体のフォント作らなきゃいけない
フォントクリエーターが(T_T)泣くな
使えるってことは作らなきゃいけないってことだよ

120: 名無しさん@1周年 2017/12/24(日) 23:05:44.98
>>91
そこは作らずに割り切ってるフォント屋も多いぞ

144: 名無しさん@1周年 2017/12/24(日) 23:10:27.55
>>120
名前と地名はこだわりある人が多いから
印章関係と役所向けには作らざるを得ない

どこが要求されるかだが
出版関係でも仏教系と国文学系の専門業者は要求されるかも
ふつうの人には無縁だな簡体字と正体字で問題ない

163: 名無しさん@1周年 2017/12/24(日) 23:13:48.29
>>144
民間でも医療機関なんかの氏名入りの公文書を作成するところは要求されるんじゃないか

93: 名無しさん@1周年 2017/12/24(日) 22:59:40.83
渡邊さんや齋藤さんが歓喜するのか

99: 名無しさん@1周年 2017/12/24(日) 23:00:48.28
やっとか 思うけど
素晴らしい 進歩

104: 名無しさん@1周年 2017/12/24(日) 23:01:48.57
たしかに書き間違いからできた漢字って多いんだろうね

スポンサード リンク