-
Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!.PO
STED!not-for-mail
From: "Wiktor S." <w...@M...fm>
Newsgroups: pl.comp.programming
Subject: Re: Unicode powyżej BMP
Date: Tue, 24 May 2011 23:03:01 +0200
Organization: http://onet.pl
Lines: 61
Message-ID: <irh6fg$ig6$1@news.onet.pl>
References: <irgrep$37m$1@news.onet.pl>
NNTP-Posting-Host: 188.33.194.80
Mime-Version: 1.0
Content-Type: text/plain; format=flowed; charset="iso-8859-2"; reply-type=response
Content-Transfer-Encoding: 8bit
X-Trace: news.onet.pl 1306271024 18950 188.33.194.80 (24 May 2011 21:03:44 GMT)
X-Complaints-To: n...@o...pl
NNTP-Posting-Date: Tue, 24 May 2011 21:03:44 +0000 (UTC)
In-Reply-To: <irgrep$37m$1@news.onet.pl>
X-Priority: 3
X-MSMail-Priority: Normal
X-Newsreader: Microsoft Windows Mail 6.0.6002.18197
X-MimeOLE: Produced By Microsoft MimeOLE V6.1.7601.17514
Xref: news-archive.icm.edu.pl pl.comp.programming:190650
[ ukryj nagłówki ]> Czy warto się tym przejmować?
i tak i nie. z jednej strony, jest to część standardu. z drugiej strony,
pisma tam umieszczone są już egzotyką pośród egzotyki. z trzeciej strony,
miejsca jest dużo, więc z czasem może dodadzą tam jakiś bardzo-fajny zestaw
znaków, który będzie zyskiwał na popularności: może coś na miarę
dzisiejszych emotikonek, może jakieś kody sterujące, trudno przewidzieć.
żeby się nie odcinać od tego obszaru, warto unikać odwoływania się do znaków
poprzez konkretny, stały indeks jak str[5] -- a tylko gdy indeks pochodzi z
funkcji typu find(), pos() czy podobnej: str[i].
pojawi nam się jednak drugi problem: że nawet wyszukanego indeksu nie możemy
ot tak sobie przesuwać (np. i++). ale problemu się pozbędziemy, jeśli string
będzie albo zawsze traktowany jako całość, albo - jeśli konieczna jest jego
analiza - przez wyrażenia regularne lub podobne funkcje biblioteczne, o ile
oczywiście te będą prawidłowo obsługiwać surogaty.
ale jeśli okaże się z tym za dużo zachodu, to póki co można machnąć ręką...
> Czy używane są znaki powyżej granicy 64 Ki,
skoro zostały zdefiniowane, to na pewno fascynaci takich znaków się
znaleźli.
> jakie fonty je używają aby przetestować?
tutaj test egipskich hieroglifów, które są na pewno powyżej BMP
http://users.teilar.gr/~g1951d/
a tutaj różne czcionki, ale to już sprawdź które skrypty są w BMP a które
korzystają z surogatów:
http://www.alanwood.net/unicode/egyptian-hieroglyphs
.html
> Czy tekst złożony z dwóch surogatów podany do TextOut
> da w rezultacie wyrysowany jeden znak?
powinno. sprawdź...
> Znaki chińskie i japońskie mieszczą się w planie podstawowym od
> 0x4e00 do 0x9fff (miejsce na ponad 20 tys. ideogramów)
no nie wszystkie, powyżej jest dalsze 50 tys. znaków, tu masz rozpiskę
http://en.wikipedia.org/wiki/CJK_Unified_Ideographs#
Unicode_version_history
ale ideogramy które są powyżej BMP przeciętnego Chińczyka lub Japończyka
interesują mniej więcej tyle, co nas głagolica, albo jakieś runy. do
zastosowań w opracowaniach historycznych, językoznawczych i podobnych. w
codziennej gazecie takich znaków nie uświadczysz.
podsumowując: jeśli stringi tylko pobierasz, wczytujesz, składujesz,
wyświetlasz - zawsze w całości, to nie musisz nic robić: przetestuj tylko
czy wyświetlają się prawidłowo.
problemy się zaczynają, gdy zaczynasz te stringi parsować, szatkować i
wyżymać.
--
Azarien
Następne wpisy z tego wątku
- 24.05.11 21:05 Wiktor S.
- 24.05.11 21:51 Zbigniew Malec
- 24.05.11 22:18 Zbigniew Malec
- 24.05.11 22:51 Borneq
- 24.05.11 23:13 Borneq
- 24.05.11 23:10 Wiktor S.
- 24.05.11 23:13 Wiktor S.
- 25.05.11 19:25 Zbigniew Malec
- 25.05.11 20:49 Zbigniew Malec
- 26.05.11 05:26 Wiktor S.
- 26.05.11 07:18 Zbigniew Malec
Najnowsze wątki z tej grupy
- We Wrocławiu ruszyła Odra 5, pierwszy w Polsce komputer kwantowy z nadprzewodzącymi kubitami
- Ada-Europe - AEiC 2025 early registration deadline imminent
- John Carmack twierdzi, że gdyby gry były optymalizowane, to wystarczyły by stare kompy
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2025
- Linuks od wer. 6.15 przestanie wspierać procesory 486 i będzie wymagać min. Pentium
- ,,Polski przemysł jest w stanie agonalnym" - podkreślił dobitnie, wskazując na brak zamówień.
- Rewolucja w debugowaniu!!! SI analizuje zrzuty pamięci systemu M$ Windows!!!
- Brednie w wiki - hasło Dehomag
- Perfidne ataki krakerów z KRLD na skrypciarzy JS i Pajton
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- U nas propagują modę na SI, a w Chinach naukowcy SI po kolei umierają w wieku 40-50lat
- C++. Podróż Po Języku - komentarz
- "Wuj dobra rada" z KDAB rozważa: Choosing the Right Programming Language for Your Embedded Linux Device
Najnowsze wątki
- 2025-05-31 Skoro jest tak dobrze i TANIO to dlaczego jeszcze nie jeździmy na takich akumulatorach?
- 2025-05-31 Warszawa => IT Data Analyst (obszar Power BI) <=
- 2025-05-31 Warszawa => IT Hardware Specialist - Wsparcie i Konfiguracja <=
- 2025-05-31 Środa Wielkopolska => Konsultant wewnętrzny SAP FI/CO <=
- 2025-05-31 Gdańsk => PHP Developer <=
- 2025-05-31 Lublin => Delphi Programmer <=
- 2025-05-31 co to za obcęgi? [OT]
- 2025-05-30 Rondo :)
- 2025-05-30 Warszawa => Senior Account Manager <=
- 2025-05-30 Warszawa => Senior C++ Developer (analiza numeryczna i modelowanie) <=
- 2025-05-30 Gdańsk => Team Lead Data Engineer (Snowflake) <=
- 2025-05-30 Warszawa => Team Lead Data Engineer (obszar Snowflake) <=
- 2025-05-30 Gdańsk => Programista Delphi <=
- 2025-05-30 Warszawa => Software Engineer .Net <=
- 2025-05-30 Warszawa => Inżynier oprogramowania .Net <=