-
Data: 2009-11-29 16:46:49
Temat: Biblia jako XML, reprezentacja danych
Od: "Wojciech \"Spook\" Sura" <s...@s...please.op.pl> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]Witam!
Chciałbym przechować Pismo Święte w postaci pliku XML z podziałem na księgi,
rozdziały i wersety. W Internecie udało mi się znaleźć tylko jedno miejsce z
którego da się ściągnąć Biblię w tej postaci, ale wynikł pewien problem w
reprezentacji danych.
Otóż na samym początku, w księdze Genesis mamy następujący fragment:
[Cytuję]
(...)
<werset numer="4">Oto są dzieje początków po stworzeniu nieba i
ziemi.</werset>
<header_2>Drugi opis stworzenia człowieka</header_2>
Gdy Pan Bóg uczynił ziemię i niebo,
<werset numer="5">nie było jeszcze żadnego krzewu polnego na ziemi, ani
żadna trawa polna jeszcze nie wzeszła - bo Pan Bóg nie zsyłał deszczu na
ziemię i nie było człowieka, który by uprawiał ziemię</werset>
(...)
[/Cytuję]
I dalej mamy już normalnie. Zapytam pewnie jakiegoś biblistę, ale wygląda na
to, że werset czwarty jest przedzielony na dwa kawałki nagłówkiem drugiego
stopnia. Jestem też przekonany, że nie jest to jedyne miejsce takiej
postaci, a co gorsza będę musiał narzeźbić jakiś parser do poprawienia tego
błędu, bo cały tekst ma przeszło 190000 linijek i ręczne poprawki nie
wchodzą w grę.
No i tu mam zagwózdkę, bo nie wiem, jak to teraz ubrać w poprawnego XMLa.
Powyższy kod jest oczywiście nieprawidłowy, bo - przynajmniej za mojej
pamięci - gałąź może zawierać albo tekst albo podgałęzie, nigdy na raz. Mam
kilka pomysłów, ale nie jestem zadowolony z żadnego rozwiązania:
a) Ubrać urwany kawałek w znaczniki <werset> i nadać mu ten sam numer, jak
werset poprzedzający nagłówek. Wtedy jednak powstaje pewna
niejednoznaczność - co mam pokazać, jeśli użytkownik zażyczy sobie
przeczytać właśnie ten werset?
b) Podobnie, jak powyżej, ale dodać do znacznika jakiś parametr informujący
o tym, że jest to kontynucja urwanego wersetu, coś pokroju <werset
rodzaj="cd">. Tyle tylko, że wtedy będę musiał przygotować jakiś dodatkowy
mechanizm analizujący to, co jest za danym wersetem, bo może się okazać, że
werset jest połamany na kawałki, jak powyżej.
c) Zrezygnować z oznaczania wersetów znacznikami, natomiast wprowadzić
własne formatowanie wewnątrz rozdziału - przykładowo przyjąć, że @(1)
oznacza, że jest to początek pierwszego wersetu. Niby wygodne do
oprogramowania i przetworzenia, ale wydaje mi się, że jest to hackerskie
rozwiązanie, z którym będę miał później same problemy.
Rozwiązaniem byłoby oczywiście usunięcie znacznika nagłówka drugiego
poziomu, ale w ten sposób pozbywam się treści, co oczywiście jest
nieakceptowalne.
Czy macie może jakiś lepszy pomysł?
Pozdrawiam -- Spook.
--
! ._______. Warning: Lucida Console sig! //) !
! || spk || www.spook.freshsite.pl / _ """*!
! ||_____|| spook at op.pl / ' | ""!
! | ___ | tlen: spoko_ws gg:1290136 /. __/"\ '!
! |_|[]_|_| May the SOURCE be with you! \/) \ !
Następne wpisy z tego wątku
- 29.11.09 17:11 Jacek Czerwinski
- 29.11.09 18:19 Jędrzej Dudkiewicz
- 03.12.09 18:43 MinkoSoft
- 04.12.09 14:13 MoonWolf
- 05.01.10 22:19 Wojciech \"Spook\" Sura
- 05.01.10 23:14 Borneq
- 06.01.10 07:16 Wojciech \"Spook\" Sura
- 16.11.15 11:58 k...@g...com
- 28.02.17 23:07 s...@g...com
- 01.03.17 21:40 t...@g...com
- 06.04.17 22:24 m...@g...com
- 24.04.18 15:23 m...@g...com
- 26.04.18 01:34 M.M.
Najnowsze wątki z tej grupy
- Xiaomi [Chiny - przyp. JMJ] produkuje w całkowitych ciemnościach i bez ludzi
- Prezydent SZAP/USONA Trump ułaskawił prezydenta Hondurasu Hernandeza skazanego na 45 lat więzienia
- Rosjanie chwalą się prototypem komputera kwantowego. "Najważniejszy projekt naukowy Rosji"
- A Szwajcarzy kombinują tak: FinalSpark grows human neurons from stem cells and connects them to electrode arrays
- Re: Najgorszy język programowania
- NOWY: 2025-09-29 Alg., Strukt. Danych i Tech. Prog. - komentarz.pdf
- Na grupie comp.os.linux.advocacy CrudeSausage twierdzi, że Micro$lop używa SI do szyfrowania formatu dok. XML
- Błąd w Sofcie Powodem Wymiany 3 Duńskich Fregat Typu Iver Huitfeldt
- Grok zaczął nadużywać wulgaryzmów i wprost obrażać niektóre znane osoby
- Can you activate BMW 48V 10Ah Li-Ion battery, connecting to CAN-USB laptop interface ?
- We Wrocławiu ruszyła Odra 5, pierwszy w Polsce komputer kwantowy z nadprzewodzącymi kubitami
- Ada-Europe - AEiC 2025 early registration deadline imminent
- John Carmack twierdzi, że gdyby gry były optymalizowane, to wystarczyły by stare kompy
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2025
- Linuks od wer. 6.15 przestanie wspierać procesory 486 i będzie wymagać min. Pentium
Najnowsze wątki
- 2026-01-29 KSeF - 13 wątpliwości
- 2026-01-29 A ja się pochwalę
- 2026-01-29 Warszawa => Mid/Senior IT Recruiter <=
- 2026-01-29 Warszawa => Senior Java Developer <=
- 2026-01-29 Warszawa => IT Recruiter <=
- 2026-01-28 Degradacja
- 2026-01-28 Wysoki Sąd poinstruował czego unikać wyzywając Owsiaka "Równiejszego"
- 2026-01-28 Białystok => Solution Architect (Workday) - Legal Systems <=
- 2026-01-28 Białystok => Preseles Inżynier (background baz danych) <=
- 2026-01-28 Wrocław => Konsultant wdrożeniowy ERP <=
- 2026-01-28 Łódź => Microsoft Engineer <=
- 2026-01-28 Białystok => Tester manualny <=
- 2026-01-27 Tradycja ciągania posłów po sądach za wystąpienia w Sejmie będzie kontynuowana [Lepper 2]
- 2026-01-27 Pierwszy raz sprzedano więcej samochodów zeeletryfikowanych niż ice
- 2026-01-27 Elektryczny Kałasznikow




Jak kupić pierwsze mieszkanie? Eksperci podpowiadają