-
Data: 2009-12-03 18:43:32
Temat: Re: Biblia jako XML, reprezentacja danych
Od: MinkoSoft <m...@g...com> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]On 29 Lis, 16:46, "Wojciech \"Spook\" Sura"
<s...@s...please.op.pl> wrote:
> Witam!
>
> Chciałbym przechować Pismo Święte w postaci pliku XML z podziałem na księgi,
> rozdziały i wersety. W Internecie udało mi się znaleźć tylko jedno miejsce z
> którego da się ściągnąć Biblię w tej postaci, ale wynikł pewien problem w
> reprezentacji danych.
>
> Otóż na samym początku, w księdze Genesis mamy następujący fragment:
>
> [Cytuję]
> (...)
> <werset numer="4">Oto są dzieje początków po stworzeniu nieba i
> ziemi.</werset>
> <header_2>Drugi opis stworzenia człowieka</header_2>
> Gdy Pan Bóg uczynił ziemię i niebo,
> <werset numer="5">nie było jeszcze żadnego krzewu polnego na ziemi, ani
> żadna trawa polna jeszcze nie wzeszła - bo Pan Bóg nie zsyłał deszczu na
> ziemię i nie było człowieka, który by uprawiał ziemię</werset>
> (...)
> [/Cytuję]
>
> I dalej mamy już normalnie. Zapytam pewnie jakiegoś biblistę, ale wygląda na
> to, że werset czwarty jest przedzielony na dwa kawałki nagłówkiem drugiego
> stopnia. Jestem też przekonany, że nie jest to jedyne miejsce takiej
> postaci, a co gorsza będę musiał narzeźbić jakiś parser do poprawienia tego
> błędu, bo cały tekst ma przeszło 190000 linijek i ręczne poprawki nie
> wchodzą w grę.
>
> No i tu mam zagwózdkę, bo nie wiem, jak to teraz ubrać w poprawnego XMLa.
> Powyższy kod jest oczywiście nieprawidłowy, bo - przynajmniej za mojej
> pamięci - gałąź może zawierać albo tekst albo podgałęzie, nigdy na raz. Mam
> kilka pomysłów, ale nie jestem zadowolony z żadnego rozwiązania:
>
> a) Ubrać urwany kawałek w znaczniki <werset> i nadać mu ten sam numer, jak
> werset poprzedzający nagłówek. Wtedy jednak powstaje pewna
> niejednoznaczność - co mam pokazać, jeśli użytkownik zażyczy sobie
> przeczytać właśnie ten werset?
> b) Podobnie, jak powyżej, ale dodać do znacznika jakiś parametr informujący
> o tym, że jest to kontynucja urwanego wersetu, coś pokroju <werset
> rodzaj="cd">. Tyle tylko, że wtedy będę musiał przygotować jakiś dodatkowy
> mechanizm analizujący to, co jest za danym wersetem, bo może się okazać, że
> werset jest połamany na kawałki, jak powyżej.
> c) Zrezygnować z oznaczania wersetów znacznikami, natomiast wprowadzić
> własne formatowanie wewnątrz rozdziału - przykładowo przyjąć, że @(1)
> oznacza, że jest to początek pierwszego wersetu. Niby wygodne do
> oprogramowania i przetworzenia, ale wydaje mi się, że jest to hackerskie
> rozwiązanie, z którym będę miał później same problemy.
>
> Rozwiązaniem byłoby oczywiście usunięcie znacznika nagłówka drugiego
> poziomu, ale w ten sposób pozbywam się treści, co oczywiście jest
> nieakceptowalne.
>
> Czy macie może jakiś lepszy pomysł?
>
> Pozdrawiam -- Spook.
>
> --
> ! ._______. Warning: Lucida Console sig! //) !
> ! || spk || www.spook.freshsite.pl / _ """*!
> ! ||_____|| spook at op.pl / ' | ""!
> ! | ___ | tlen: spoko_ws gg:1290136 /. __/"\ '!
> ! |_|[]_|_| May the SOURCE be with you! \/) \ !
A tak BTW to po cholerę Ci biblia w XML-u?
Następne wpisy z tego wątku
- 04.12.09 14:13 MoonWolf
- 05.01.10 22:19 Wojciech \"Spook\" Sura
- 05.01.10 23:14 Borneq
- 06.01.10 07:16 Wojciech \"Spook\" Sura
- 16.11.15 11:58 k...@g...com
- 28.02.17 23:07 s...@g...com
- 01.03.17 21:40 t...@g...com
- 06.04.17 22:24 m...@g...com
- 24.04.18 15:23 m...@g...com
- 26.04.18 01:34 M.M.
Najnowsze wątki z tej grupy
- Xiaomi [Chiny - przyp. JMJ] produkuje w całkowitych ciemnościach i bez ludzi
- Prezydent SZAP/USONA Trump ułaskawił prezydenta Hondurasu Hernandeza skazanego na 45 lat więzienia
- Rosjanie chwalą się prototypem komputera kwantowego. "Najważniejszy projekt naukowy Rosji"
- A Szwajcarzy kombinują tak: FinalSpark grows human neurons from stem cells and connects them to electrode arrays
- Re: Najgorszy język programowania
- NOWY: 2025-09-29 Alg., Strukt. Danych i Tech. Prog. - komentarz.pdf
- Na grupie comp.os.linux.advocacy CrudeSausage twierdzi, że Micro$lop używa SI do szyfrowania formatu dok. XML
- Błąd w Sofcie Powodem Wymiany 3 Duńskich Fregat Typu Iver Huitfeldt
- Grok zaczął nadużywać wulgaryzmów i wprost obrażać niektóre znane osoby
- Can you activate BMW 48V 10Ah Li-Ion battery, connecting to CAN-USB laptop interface ?
- We Wrocławiu ruszyła Odra 5, pierwszy w Polsce komputer kwantowy z nadprzewodzącymi kubitami
- Ada-Europe - AEiC 2025 early registration deadline imminent
- John Carmack twierdzi, że gdyby gry były optymalizowane, to wystarczyły by stare kompy
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2025
- Linuks od wer. 6.15 przestanie wspierać procesory 486 i będzie wymagać min. Pentium
Najnowsze wątki
- 2026-01-29 KSeF - 13 wątpliwości
- 2026-01-29 A ja się pochwalę
- 2026-01-29 Warszawa => Mid/Senior IT Recruiter <=
- 2026-01-29 Warszawa => Senior Java Developer <=
- 2026-01-29 Warszawa => IT Recruiter <=
- 2026-01-28 Degradacja
- 2026-01-28 Wysoki Sąd poinstruował czego unikać wyzywając Owsiaka "Równiejszego"
- 2026-01-28 Białystok => Solution Architect (Workday) - Legal Systems <=
- 2026-01-28 Białystok => Preseles Inżynier (background baz danych) <=
- 2026-01-28 Wrocław => Konsultant wdrożeniowy ERP <=
- 2026-01-28 Łódź => Microsoft Engineer <=
- 2026-01-28 Białystok => Tester manualny <=
- 2026-01-27 Tradycja ciągania posłów po sądach za wystąpienia w Sejmie będzie kontynuowana [Lepper 2]
- 2026-01-27 Pierwszy raz sprzedano więcej samochodów zeeletryfikowanych niż ice
- 2026-01-27 Elektryczny Kałasznikow




Jak kupić pierwsze mieszkanie? Eksperci podpowiadają