eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingAlgorytm szukania podobny do GoogleRe: Algorytm szukania podobny do Google
  • Data: 2016-06-08 10:32:13
    Temat: Re: Algorytm szukania podobny do Google
    Od: Borneq <b...@a...hidden.pl> szukaj wiadomości tego autora
    [ pokaż wszystkie nagłówki ]

    W dniu 07.06.2016 o 22:31, Borneq pisze:
    > Tu też potrzebny jakiś algorytm aby nie trzeba używać całej bazy
    > polimorfologika
    >
    >> słowa, które występują bardzo często i nie wnoszą żadnej informacji
    >> do wyszukiwania się po prostu pomija

    Tu praca nlp.ipipan.waw.pl/~adamp/msc/janus.daniel/praca.pdf.
    gz
    pokazuje że bitowe indeksy są niepraktyczne:
    "Jednak to dla dużych korpusów zalety indeksowania są najbardziej
    widoczne, a wtedy ten sposób przechowywania indeksów jest zupełnie
    niepraktyczny. Dla próbki Korpusu IPI PAN (por. tabela 4.2), zajmującej
    w postaci binarnej
    bez indeksów 303 MB, sam tylko indeks form literalnych reprezentowany w
    ten sposób miałby
    rozmiar 670475?30002374/8 B = 2,29 TB, czyli blisko 8000-krotnie (!)
    więcej niż wyjściowy korpus."

    Bo binarne indeksy wzrastają kwadratowo z wielkością tekstu.

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: