-
Data: 2013-01-16 15:37:59
Temat: Re: algorytm stringi
Od: firr kenobi <p...@g...com> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]W dniu środa, 16 stycznia 2013 10:29:01 UTC+1 użytkownik M.M. napisał:
> W dniu środa, 16 stycznia 2013 09:29:22 UTC+1 użytkownik firr kenobi napisał:
>
> > nie rozumiem, jak wogole wygladalo by
>
> > takie indeksowanie np na przykladzie zaindeksowania 'robinsona cruzoe' (okolo
>
> > 500kb)? robi sie cos w rodzaju slownika/mapy
>
> > ze slowami i offsetami w pliku?
>
>
>
> Też nie mam ani szczegółowej wiedzy, ani doświadczeń praktycznych z
>
> tego typu algorytmami. Wyobrażam sobie to mniej/więcej w ten sposób...
>
>
>
> Mamy tekst:
>
> char text[M];
>
>
>
> Mamy długość prefixa:
>
> const int N = 6;
>
>
>
> Mamy parę:
>
> struct Pair {
>
> unsigned int key; // suma-klucz
>
> unsigned int pos; // pozycja w text.
>
> Pair *next;
>
> };
>
>
>
> Mamy hash-table:
>
> Pair *hash_table[S];
>
>
>
> Mamy klucze, po jednym kluczu dla znaku alfabetu:
>
> const unsigned int keys[256] = {rand,rand...rand};
>
>
>
> Inicjujemy hash-table:
>
> unsigned int key = 0;
>
> for( int i=0 ; i<N ; i++ )
>
> key ^= keys[ text[i] ];
>
> for( int i=N ; i<M ; i++ ) {
>
> Pair *pair = new Pair( key , i-N , NULL );
>
> const unsigned int entry = key % S;
>
> insert( pair , hash_table , entry );
>
> key ^= text[i-N] ^ text[i];
>
> }
>
>
>
> Potem mamy wzorzec:
>
> char pattern[N+R];
>
>
>
> Liczymy klucz:
>
> key = 0;
>
> for( int i=0 ; i<N ; i++ )
>
> key ^= keys[ pattern[i] ];
>
>
>
> Liczymy punkt wejścia do hash-table:
>
> entry = hash_table + key % S;
>
> while( entry ) {
>
> print( entry->pos ); // pozycje pod którymi może zaczynać się wyszukiwany tekst
>
> enetry = entry->next;
>
> }
>
Ni do konca rozumiem niestaty co tu sie robi,
moze jakis komentarz szczegolowy? co to jest pattern?
nie wiem czy budowanie drzewa z pojedynczych liter czy bajtow (np w przypadku
indeksowani tresci robinsona kruzoe) mieloby jakies spore walory co do uzytecznosci
bo to drzewo byloby zaiste wielkie tj 'roztyte' (jak ja ostatnio bo pysk mi
ostatnio nieststy utył)
Pewnie mozna takie drzewo zbudowac ale byloby bolaste - zapewne kilka (iles) razy
wieksze od oryginalnego pliku, no i trzebe by przebudowywac przy zmianach (ogolnie np
obrabianie 100 k oryginalnych danych i np 900k
indeksu nie wydaje sie zbyt praktyczne),
ale w pewnych przypadkach jak moze przy kompresji itp moze sie przydac - nie wiem
nie interesowalem sie tym :/
Następne wpisy z tego wątku
- 16.01.13 15:43 firr kenobi
- 16.01.13 19:36 M.M.
- 17.01.13 18:16 firr kenobi
- 17.01.13 22:11 M.M.
- 20.01.13 14:28 firr kenobi
- 20.01.13 14:37 firr kenobi
Najnowsze wątki z tej grupy
- Perfidne ataki krakerów z KRLD na skrypciarzy JS i Pajton
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- U nas propagują modę na SI, a w Chinach naukowcy SI po kolei umierają w wieku 40-50lat
- C++. Podróż Po Języku - komentarz
- "Wuj dobra rada" z KDAB rozważa: Choosing the Right Programming Language for Your Embedded Linux Device
- Nowa ustawa o ochronie praw autorskich - opis problemu i szkic ustawy
- Alg. kompresji LZW
- Popr. 14. Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- Arch. Prog. Nieuprzywilejowanych w pełnej wer. na nowej s. WWW energokod.pl
- 7. Raport Totaliztyczny: Sprawa Qt Group wer. 424
- TCL - problem z escape ostatniego \ w nawiasach {}
- Nauka i Praca Programisty C++ w III Rzeczy (pospolitej)
- testy-wyd-sort - Podsumowanie
Najnowsze wątki
- 2025-05-02 tona telefonów komórkowych kryje ok. 3,5 kilograma srebra, 360 gramów złota i 280 gramów palladu.
- 2025-05-01 Jak zbudować Perpetum Mobile
- 2025-05-01 Wybory ten wygra kto odzyska TEPS'ę od Kulczyka
- 2025-04-30 Czy wymieniacie fotel kierowcy, gdy kupujecie używanego gruchota po prostacie i nietrzymaniu moczu ?
- 2025-05-02 dewastują Tesle
- 2025-05-02 jadę do państwa polskiego
- 2025-05-01 zachowaj odstęp
- 2025-04-30 Czy wymieniacie fotel kierowcy, gdy kupujecie używanego gruchota po prostacie
- 2025-04-30 co macie na fotelach?
- 2025-05-02 tona telefonów komórkowych kryje ok. 3,5 kilograma srebra, 360 gramów złota i 280 gramów palladu.
- 2025-05-01 Warszawa => Senior Frontend Developer (React + React Native) <=
- 2025-05-01 Wrocław => Konsultant wdrożeniowy (systemy controlingowe) <=
- 2025-04-30 Warszawa => Programista Back-end <=
- 2025-04-30 Warszawa => Back-end Programmer <=
- 2025-04-30 Warszawa => Senior Backend Developer <=