| System Komputerowej Ewidencji Publikacji | ![]() |
|
| Strona główna | Skorowidz nazwisk | Raporty | Przesyłanie plików źródłowych | Kategorie osiągnięć naukowych | Dyscypliny naukowe |
|
1. Uwagi wstępneSystem poszukuje publikacji, które zawierają poszukiwaną frazę (lub frazy - w zależności od wybranej opcji) w którymkolwiek miejscu w opisie bibliograficznym, który pojawia się na stronie www (np. nazwisko autora, tytuł publikacji, numer ISBN, rok wydania, nazwa wydawnictwa, w którym wydano publikację, kategoria publikacji w systemie SKEP, itp.). System potrafi również przeszukiwać dołączone do opisów bibliograficznych pliki źródłowe (np. zapisane w formatach doc, ps, pdf). Można podawać przedział lat, z których chcemy wyświetlić publikacje (chodzi o rok opublikowania dzieła). Wyniki można wstępnie grupować wg. roku opublikowania oraz według rodzaju publikacji. Wreszcie można ustalić ile wyników ma być pokazywanych na jednej stronie. Do wyboru mamy wartości 10, 25, 50 lub 100. Uwaga: Język polski ma charakter fleksyjny. Stąd, chcąc odnaleźć publikacje dotyczące np. kryptografii, lepiej wpisać frazę krypto% niż kryptografia. W drugim przypadku publikacje zawierające w opisie bibliograficznym takie słowa jak np. kryptograficzne lub kryptografii nie zostaną odnalezione. Bardzo przydatne w tym miejscu są znaki uogólniające, tzw. operatory (% "procent" oraz _ "podkreślnik"). Szczegóły patrz punkt 3. System uwzględnia również polskie znaki diakrytyczne oraz jest nieuczuły na wielkość liter. |
2. Opcje wyszukiwaniaPrzykład 1 Załóżmy, że w odpowiednich polach edycyjnych wpisane są następujące frazy:
Wówczas wyszukiwarka odnajdzie wszystkie publikacje, dla których spełnione jest podane niżej wyrażenie logiczne:
Przykład 2 Załóżmy, że w odpowiednich polach edycyjnych wpisane są następujące frazy:
Wówczas wyszukiwarka odnajdzie wszystkie publikacje, dla których spełnione jest podane niżej wyrażenie logiczne:
Ponieważ publikacji, gdzie w opisach bibliograficznych występuje fraza Polska LUB fraza lubuskie, jest bardzo dużo, to liczba odnalezionych pozycji jest też dosyć pokaźna. W przykładzie tym abstrahujemy od sensowności takiego akurat zapytania. Pokazujemy jedynie zasadę działania. Oczywiście nie wszystkie pola edycyjne muszą być obowiązkowo wypełnione. Gdy pewne pola są puste system po prostu je pomija. Przykład 3 Załóżmy, że w odpowiednich polach edycyjnych wpisana jest następująca fraza:
Wówczas wyszukiwarka odnajdzie wszystkie publikacje zawierające dokładnie wpisane wyrażenie czyli frazę "Zeszyty Naukowe Uczelni". Wszystkie trzy wyrazy muszą więc występować w publikacji tak jak je wpisano czyli obok siebie z rozdzielającą je spacją. Przykład 4 Podobny efekt uzyskamy wpisując podane powyżej wyrażenie bezpośrednio w polu edycyjnym opcji Skonstruuj wyrażenie logiczne. Podstawowa różnica jest taka, że w ramach tej opcji możemy dodatkowo użyć dostępnych tam operatorów (patrz punkt 3). Operatory te pozwalają bardziej precyzyjne skonstruować wyrażenie logiczne i tym samym otrzymać wyniki bardziej zbliżone do oczekiwanych. Poniższy przykład pokazuje jak to wygląda w praktyce:
W tym przypadku używając operatora % we frazie lubus% uwzględniliśmy ew. odmianę słowa lubuskie (lubuskiego, lubuska, lubuski, itp.). Ilość odnalezionych w bazie SKEP pozycji istotnie zwiekszyła się w porównaniu do ilości wyników z Przykładu 1. Przykład 5 W praktyce pole Skonstruuj wyrażenie logiczne najczęściej wykorzystywane bywa do uwzlędniania odmiany języka polskiego. Poniższy przykład pokazuje jak odnaleźć publikacje zawierające w opisie bibliograficznym frazę elektron (czyli np. słowo elektronicznej, elektronicznych, itp). Wynik wyszukiwania ograniczamy ponadto do pozycji zakwalifikowanych w sytemie SKEP jako "Publikacja w wydawnictwie ciągłym w języku polskim lub innym niekongresowym z listy KBN", które oznaczane są tam kodem CIA-KBN.
|
3. OperatoryW ramach opcji Skonstruuj wyrażenie logiczne można używać pewnych operatorów, które wzbogacają możliwości wyszukiwarki. Dzięki nim definiowane kryteria zapytań mogą być bardziej precyzyjne, a to z kolei pozwala otrzymywać wyniki możliwie jak najbardziej zbliżone do oczekiwanych. W poniższej tabeli zamieszczono krótki opis wspomnianych operatorów. W pierwszej kolumnie zamieszczono podstawową formę operatora. W drugiej kolumnie natomiast podano możliwy do zastosowania zamiennik. Obie formy są całkowicie sobie równoważne. |
| Oparator | Oparator alternatywny | Opis | Przykłady użycia |
| % | Operator zastępuje dowolną ilość znaków. Może występować przed frazą, za nią lub w dowolnym miejscu pomiędzy. Ilość używanych znaków % może być dowolna. |
kowal%
stero% g%cki tran%ow% |
|
| _ | Operator zastępuje dokładnie jeden znak. Może występować przed frazą, za nią lub w dowolnym miejscu pomiędzy. Ilość używanych znaków _ może być dowolna. |
tranzystor_
_cki |
|
| AND | & | Zwraca dokumenty, w których występują wszystkie frazy połączone tym operatorem. |
pies AND kot AND ptak
pies AND kot & ptak |
| OR | | | Zwraca dokumenty, w których występuje przynajmniej jedna z fraz połączonych tym operatorem. |
pies OR kot OR ptak
pies | kot OR ptak |
| NOT | ~ | Zwraca dokumenty, w których występuje pierwsza fraza i nie występuje druga fraza. |
pies NOT kot
pies ~kot |
| MINUS | - |
Zwraca dokumenty, w których występuje pierwsza fraza. Przy czym wystąpienie drugiej
frazy powoduje, że współczynnik trafień (ang. score) tego dokumenty staje
się niższy (patrz niżej, punkt 5).
Operator ten jest przydatny, gdy istnieje konieczność zmniejszenia znaczenia fraz mających charakter "szumów informacyjnych". |
pies MINUS owczarek
pies - owczarek |
| ACCUM | , | Operator ten jest podobny w działaniu do operatora OR. Różnica polega na tym, że wyższy współczynnik trafień otrzymują dokumenty, które zawierają wszystkie podane frazy. |
pies ACCUM kot
pies, kot |
* |
Operator wagi (ang. weight). pozwala na uprzywilejowanie wybranych fraz. Współczynnik trafień uzyskany dla danej frazy jest mnożona przez podaną wartość. Można podać liczbę w granicach od 0.1 do 10. Gdy w wyniku mnożenia otrzymamy liczbę większą niż 100, system zaokrągla wynik do liczby 100. | pies * 10 AND kot | |
| EQUIV | = | Operator ten pozwala zdefiniować zamiennik dla podanej frazy. Wyszukane zostaną również dokumenty zawierające tą drugą frazę (substytut). |
pies EQUIV owczarek OR kot
pies=owczarek OR kot |
| NEAR | ; | Operator daje wyższy współczynnik trafień dokumentom, w których szukane frazy występują bliżej siebie. |
piers NEAR kot
piers ; kot |
| > |
Operator progu zadziałania (ang. treshhold). Nie wyświetla tych dokumentów,
których współczynnik trafień jest niższy niż podany jako parametr operatora.
Może działać na dwóch poziomach: |
(pies AND kot) > 10
pies > 10 AND kot > 20 |
4. Znaki grupująceW kolejnej tabeli pokazano tzw. znaki grupujące. |
| Znaki grupujące | Opis | Przykłady użycia |
| ( ) |
Grupuje frazy i operatory. Pozwala ustalić właściwą kolejność wykonywania.
Gdy nie używamy nawiasów okrągłych operatory wykonywane są w następującej kolejności: EQUIV (=) NEAR (;) * MINUS (-) NOT (~) AND (&) OR ( | ) ACCUM (,) |
(pies OR kot) AND ptak |
| { } |
Pozwala grupować frazy w taki sposób, aby były traktowane jak jedna fraza.
W praktyce oznacza to, że wyszukiwarka poszukuje dokumentów zawierających wyrażenie w postaci dokładnie takiej, jak podano. Gdy w podanym wyrażeniu występują znaki specjalne (jak np. MINUS, -, OR) są one traktowane jak normalne frazy. |
{mam psa i kota}
{analysis and simulations} {controllability and stability analysis} {Litwo, Ojczyzno moja} |
| \ |
Pozwala "chwilowo" znieść specjalne znaczenie pewnych pojedynczych znaków.
Gdy przykładowo poszukujemy frazy "biało-czerwony" to chcielibyśmy, aby w tym momencie kreska rozdzielająca nie była potraktowana jak operator MINUS. |
biało\-czerwony
AG\&JG |
5. Współczynnik trafień dokumentówKażdy zwracany dokument otrzymuje pewien umowny współczynnik trafień (ang. score) zależny od dwóch elementów: Wyszukiwarka stara się ustawiać zwracane wyniki tak, aby te, które otrzymały wyższy współczynnik trafień były wyświetlane jako pierwsze. Współczynnik trafień jest zawsze liczbą z zakresu od 0 do 100. Użyty algorytm (ang. inverse frequency algoritm, tzw. formuła Saltona) przyjmuje, że frazy, które występują często w zbiorze dokumentów są elementami zakłócającymi i w związku z tym są one niżej oceniane (otrzymują niższy współczynnik trafień). Dla uzyskania wysokiego współczynnika trafień, poszukiwana fraza musi występować często w pojedynczym dokumencie, ale niezbyt często w całym zbiorze dokumentów. Formuła Saltona ma postać:
gdzie: w - współczynnik trafień f - ilość wystąpień poszukiwanej frazy w dokumencie N- całkowita liczba dokumentów n - liczba dokumentów, które zawierają przynajmniej jedno wystąpienie poszukiwanej frazy Przykładowo załóżmy, że w zbiorze 10000 dokumentów z dziedziny informatyki fraza komputer występuje co najmniej raz w każdym z tych 10000 dokumentów. Fraza ta występuje więc często w tym zestawie. Następnie załóżmy, że w pewnym konkretnym dokumencie fraza komputer występuje 5 razy. W dokumencie tym występuje również fraza dyskietka (też 5 razy) i fraza ta nie występuje w żadnym innym dokumencie. Możemy więc powiedzieć, że fraza dyskietka występuje rzadko w całym zbiorze dokumentów. Po wstawieniu odpowiednich wartości do wzoru Saltona otrzymujemy, że dla dokumentu, który zawiera 5 razy frazę komputer współczynnik trafień wynosi: 3*5(1+log(10000/10000)) = 15 a dla dokumentu, który zawiera 5 razy frazę dyskietka współczynnik trafień wynosi: 3*5(1+log(10000/1)) = 75. Ponieważ fraza komputer występuje często a fraza dyskietka rzadko, więc współczynnik trafień dokumentu w kontekście frazy komputer jest niższy niż współczynnik trafień tego dokumentu w kontekście frazy dyskietka. Zwróćmy uwagę, że wyznaczone współczynniki trafień są różne mimo tego, że obie frazy występują taką samą ilość razy (pięć) w badanym dokumencie. Poniższa tabela pokazuje jaka ilość wystąpień danej frazy w dokumencie jest potrzebna, aby uzyskać współczynnik trafień 100. Zakładamy, że tylko jeden dokument w całym przeszukiwanym zbiorze zawiera poszukiwana frazę (tzn. we wzorze powyżej n=1). |
| Całkowita liczba dokumentów (N) |
Liczba wystąpień poszukiwanej
frazy w danym dokumencie potrzebna do uzyskania współczynnika trafień równego 100 (f) |
| 1 | 34 |
| 5 | 20 |
| 10 | 17 |
| 50 | 13 |
| 100 | 12 |
| 500 | 10 |
| 1000 | 9 |
| 10.000 | 7 |
| 100.000 | 5 |
| 1.000.000 | 4 |
|
Z powyższej tabeli można przykładowo odczytać, że gdy mamy tylko jeden
dokument zawierający poszukiwaną frazę, musi ona wystąpić w nim aż 34 razy,
aby system nadał dokumentowi współczynnik trafień 100.
Gdy natomiast dokumentów tych jest 1000, to aby system nadał dokumentowi współczynnik trafień 100 poszukiwana fraza musi wystąpić w nim tylko 9 razy. Analogicznie, gdy mamy 1.000.000 dokumentów to już 4. krotne wystąpienie w nim poszukiwanej frazy nadaje dokumentowi współczynnik trafień 100. W przypadku używania operatorów (patrz punkt 3) dany dokument otrzymuje współczynnik trafień według następujących zasad:
|