-
X-Received: by 2002:aed:3225:: with SMTP id y34mr27830163qtd.353.1574089611206; Mon,
18 Nov 2019 07:06:51 -0800 (PST)
X-Received: by 2002:aed:3225:: with SMTP id y34mr27830163qtd.353.1574089611206; Mon,
18 Nov 2019 07:06:51 -0800 (PST)
Path: news-archive.icm.edu.pl!news.icm.edu.pl!fu-berlin.de!j16no566762qtl.0!news-out.
google.com!g53ni272qtg.0!nntp.google.com!j16no566756qtl.0!postnews.google.com!g
legroupsg2000goo.googlegroups.com!not-for-mail
Newsgroups: pl.comp.programming
Date: Mon, 18 Nov 2019 07:06:50 -0800 (PST)
In-Reply-To: <5dd2acca$0$559$65785112@news.neostrada.pl>
Complaints-To: g...@g...com
Injection-Info: glegroupsg2000goo.googlegroups.com; posting-host=178.36.217.178;
posting-account=xjvq9QoAAAATMPC2X3btlHd_LkaJo_rj
NNTP-Posting-Host: 178.36.217.178
References: <5dc7d565$0$17350$65785112@news.neostrada.pl>
<5dd2acca$0$559$65785112@news.neostrada.pl>
User-Agent: G2/1.0
MIME-Version: 1.0
Message-ID: <d...@g...com>
Subject: Re: DeepL
From: "M.M." <m...@g...com>
Injection-Date: Mon, 18 Nov 2019 15:06:51 +0000
Content-Type: text/plain; charset="UTF-8"
Content-Transfer-Encoding: quoted-printable
Xref: news-archive.icm.edu.pl pl.comp.programming:214442
[ ukryj nagłówki ]On Monday, November 18, 2019 at 3:38:04 PM UTC+1, Borneq wrote:
> W dniu 10.11.2019 o 10:16, Borneq pisze:
> > No i stało się. Zainstalowałem DeepL lokalnie na komputerze, do tej pory
> > używałem przez internet. Działa szybciej niż przez internet, nie trzeba
>
> z pdf z https://github.com/lmthang/thesis
> przykład gdzie nie ma słownika tylko korpus równolegly
>
> Chodzi o to, jakie maksymalne informacje można wydobyć z korpusa.
>
> parallel corpus
> She loves cats = Elle aime les chats
> She loves him = Elle l'aime
> He adores cute cats = Il adore les chats mignons
> He has a cat = Il a un chat
>
> pytanie: jak przetłumaczyć na podstawie tych 4 zdań "She loves cute cats"?
Nie wiem, ale chyba albo ilość danych rośnie wykładniczo, albo musimy
znać model.
> ja dochodzę do wniosku że
> Elle aime les chats mignons
> deepL: Elle adore les chats mignons - słuszniej, ale nie wynika to z
> tych 4 zdań
>
> można się dowiedzieć że
> she = elle
> loves = aime (cats)|l'aime(him) przy czym te słowa są zadziwiająco
> podobne, czyli nie inne tylko inna forma
> w rzeczywistości l'aime jest dużo mocniejsze (lubi-kocha) a nie inna forma
> cats = les chats //nawet podobne ale nie trzeba się tym sugerować
> him = albo znika w tym zdaniu, stając się domyślny albo staje się
> przedrostkiem - w rzeczywistości jeśli obiektem jest "on", wtedy się
> opuszcza
> he = Il
> adores = adore
> cute = mignons + zamiana miejscami słów we frazie
> has - a
> a cat = un cat, tylko skąd wiedzieć że to nie "a" zostało przetłumaczone
> na "a"?? - potrzebne są albo
> wstępne informacje językowe albo więcej zdań w korpusie
Taki nieprzemyślany pomysł: bierzemy tyle sieci neuronowych ile jest słów w
języku docelowym jedna siec ze słowem pustym. Sieci mogą mieć wspólne wagi.
Wrzucamy z kontekstu 100 poprzednich słów, 100 następnych i oczywiście słowo
tłumaczone. Do zdania tłumaczonego dodajemy sztuczne słowa nie istniejące
w oryginalnym języku, np. słowo "Zwykle prawą ręką zapalam światło" zamieniamy
na zdanie "aaaa bbbb Zwykle cccc dddd prawą eeee ffff ręką gggg hhhh zapalam
iiii jjjj światło kkkk llll". Czasami sieć dla sztucznych słów wypluje
słowa typu a, the, albo jakieś idiomy. Innym razem sieć wypluje slowo puste, co
będzie znaczyło, że tego slowa się nie tłumaczy. Potem inny zestaw sieci zadba o
kolejność, interpunkcję, wielkie litery... a może to kolejny zestaw doda
idiomy i słowa których nie da się wyrazić uboższą gramatyką w języku docelowym?
> Gdyby zapytać się o : He has a cat -> Elle a un chat
> można stwierdzić nawet bez wiedzy o tym czy "a" to "has" czy "a" to "a"
> Tylko należy zauważyć że te zdania są bardzo krótkie i dość łatwo można
> je dopasować
Pomimo że są krótkie, to czasami wieloznaczność słów uniemożliwia
przetłumaczenie bez kontekstu, słynny polski 'granat', 'on ma granat',
chodzi o owoc czy ładunek wybuchowy, a może o kolor?
Pozdrawiam
Następne wpisy z tego wątku
- 18.11.19 19:42 Borneq
- 18.11.19 20:11 Borneq
- 18.11.19 23:18 M.M.
- 18.11.19 23:24 M.M.
- 22.11.19 15:20 M.M.
Najnowsze wątki z tej grupy
- Grok zaczął nadużywać wulgaryzmów i wprost obrażać niektóre znane osoby
- Can you activate BMW 48V 10Ah Li-Ion battery, connecting to CAN-USB laptop interface ?
- We Wrocławiu ruszyła Odra 5, pierwszy w Polsce komputer kwantowy z nadprzewodzącymi kubitami
- Ada-Europe - AEiC 2025 early registration deadline imminent
- John Carmack twierdzi, że gdyby gry były optymalizowane, to wystarczyły by stare kompy
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2025
- Linuks od wer. 6.15 przestanie wspierać procesory 486 i będzie wymagać min. Pentium
- ,,Polski przemysł jest w stanie agonalnym" - podkreślił dobitnie, wskazując na brak zamówień.
- Rewolucja w debugowaniu!!! SI analizuje zrzuty pamięci systemu M$ Windows!!!
- Brednie w wiki - hasło Dehomag
- Perfidne ataki krakerów z KRLD na skrypciarzy JS i Pajton
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- U nas propagują modę na SI, a w Chinach naukowcy SI po kolei umierają w wieku 40-50lat
Najnowsze wątki
- 2025-07-23 Gdańsk => Programista Delphi <=
- 2025-07-23 Gdańsk => Programista Mainframe (z/OS, Assembler) <=
- 2025-07-23 Warszawa => Starszy inżynier DevOps (AWS) <=
- 2025-07-23 Gdańsk => Mainframe (z/OS, Assembler) Developer <=
- 2025-07-23 Kraków => Senior Fullstack Engineer (Low-Code Platform) <=
- 2025-07-23 Wrocław => Senior Key Account Manager IT <=
- 2025-07-23 Trójmiasto => Head of Social Media <=
- 2025-07-23 Rzeszów => Spedytor Międzynarodowy <=
- 2025-07-23 Lublin => ERP Implementation Consultant (AP Module) <=
- 2025-07-23 Środa Wielkopolska => SAP FI/CO Internal Consultant <=
- 2025-07-23 Warszawa => Inżynier oprogramowania .Net <=
- 2025-07-23 Kraków => Kotlin Developer <=
- 2025-07-23 Żerniki => Dyspozytor Międzynarodowy <=
- 2025-07-23 Warszawa => Java Developer <=
- 2025-07-23 Wrocław => Konsultant wdrożeniowy (systemy controlingowe) <=