ฐานข้อมูลและการสืบค้น

การสืบค้นฐานข้อมูลScienceDirect

ฐานข้อมูล ScienceDirect  เป็นฐานข้อมูลบรรณานุกรมและเอกสารฉบับเต็ม (Full-text) จากวารสารของสำนักพิมพ์ในเครือ Elsevier ประกอบด้วย หนังสือและวารสารด้านวิทยาศาสตร์  เทคโนโลยี   และ  วิทยาศาสาตร์การแพทย์     สามารถดูข้อมูลย้อนหลังตั้งแต่ปี  ค. ศ.1995 – ปัจจุบัน

 

1. แบบอาศัยการเก็บข้อมูลเป็นหลัก (Crawler-Based Search Engine)
หลักการนี้เป็นการใช้เครื่องมือที่เรียกว่า Crawler-Based Search Engine เป็นเครื่องมือที่ทำการบันทึกและเก็บข้อมูลเป็นหลัก ซึ่งเป็นประเภท Search Engine ที่ได้รับความนิยมมากที่สุดในปัจจุบันซึ่งการทำงานประเภทนี้ จะใช้โปรแกรมตัวเล็ก ๆ ที่เรียกว่า Web Crawler หรือ Spider หรือที่เรียกอีกอย่างว่า Search Engine Robots หรือที่เรียกสั้น ๆ ว่า บอท ในภาษาไทย www คือเครือข่ายใยแมงมุม ตัวโปรแกรมเล็ก ๆ ตัวนี้ก็คือแมงมุมนั่นเอง โดยเจ้าแมงมุมตัวนี้จะทำการไต่ไปยังเว็บไซต์ต่าง ๆ ทั่วโลกอินเตอร์เน็ต โดยอาศัยไต่ไปตาม URL ต่าง ๆ ที่มีการเชื่อมโยงอยู่ในแต่ละเพจ แล้วทำการ Spider กวาดข้อมูลที่จำเป็นต่าง ๆ (ขึ้นอยู่กับ Search Engine แต่ละที่ว่าต้องการเก็บรวบรวมข้อมูลอะไรบ้าง) แล้วเก็บลงฐานข้อมูล การใช้โปรแกรมกวาดข้อมูลแบบนี้ จึงทำให้ข้อมูลที่ได้มีความแม่นยำ และสามารถเก็บรวบรวมข้อมูลได้เร็วมาก Search Engine ที่เป็นประเภทนี้ เช่น Google Yahoo MSN
2. แบบสารบัญเว็บไซต์ (Web Directory)
Search Engine ที่เป็นแบบนี้มีอยู่หลายเว็บไซต์มาก ๆ ที่ดังที่สุดในเมืองไทย ที่เอ่ยออกไปใครใครคงต้องรู้จัก นั้นก็คือที่สารบัญเว็บของ Sanook.com ซึ่งหลาย ๆ คนคงเคยเข้าไปใช้บริการ หรืออย่างที่ Truehits.com เป็นต้น สิ่งที่เราจะสังเกตเห็นจาก Search Engine ประเภทนี้ก็คือ ลักษณะของการจัดเก็บข้อมูลที่แสดงให้เราเห็นทั้งหมด ว่ามีเว็บอะไรบ้างอยู่ในฐานข้อมูล ซึ่งแตกต่างจากประเภทแรก ที่หากคุณไม่ค้นหาโดยใช้คำค้น หรือ Keyword แล้ว คุณจะมีทางทราบเลยว่ามีเว็บไซต์อะไรอยู่บ้าง และมีเว็บอยู่เท่าไหร่ แบบสารบัญเว็บไซต์ จะแสดงข้อมูลที่รวบรวมเว็บไซต์ที่มีทั้งหมดในฐานข้อมูล และจะแบ่งเป็นหมวดหมู่ และอาจจะมีหมวดหมู่ย่อย ซึ่งผู้ค้นหาข้อมูลสามารถคลิกเข้าไปดูได้ หลักการทำงานแบบนี้ จะอาศัยการเพิ่มข้อมูลจากเจ้าของเว็บไซต์ต่าง ๆ ที่ต้องการประชาสัมพันธ์เว็บ หรืออาจใช้เจ้าหน้าที่ที่ดูแลส่วน Search Engine เป็นผู้หาข้อมูลเว็บไซต์มาเพิ่มในฐานข้อมูล ซึ่งข้อมูลในส่วนของสารบัญเว็บไซต์จะเน้นในด้านความถูกต้องของฐานข้อมูล ซึ่งข้อมูลเว็บไซต์ที่ถูกเพิ่มเข้ามาจะถูกตรวจสอบและแก้ไขจากผู้ดูแล
3. แบบอ้างอิงในคำสั่ง Meta Tag (Meta Search Engine )
Search Engine ประเภทนี้จะอาศัยข้อมูลใน Meta tag ซึ่งเป็นส่วนของข้อมูลที่อยู่ในแท็ก HEAD ของภาษา HTML ซึ่งข้อมูลในส่วนนี้ จะเป็นส่วนที่ให้ข้อมูลกับ Search Engine Robots
Search Engine ประเภทนี้ไม่มีฐานข้อมูลของตนเอง แต่จะอาศัยข้อมูลจาก Search Engine Index Server ของที่อื่น ๆ ซึ่งข้อมูลจะมาจาก Server หลาย ๆ ที่ ดังนั้น จึงมักได้ผลลัพธ์จากการค้นหาที่ไม่แม่นยำ ตัวอย่างเว็บที่ใช้งานประเภทนี้ metacrawler.com

การสืบค้นฐานข้อมูล

การสืบค้นฐานข้อมูล

ทคนิคการสืบค้นข้อมูล

เพื่อประหยัดเวลาในการสืบค้น ได้ข้อมูลในปริมาณไม่มากเกินไป และได้ผลการสืบค้นที่ตรงตามประสงค์ของผู้สืบค้น สามารถใช้เทคนิคเหล่านี้ ได้แก่

1. เลือก Search Engine ที่เหมาะสม

2. เลือกเว็บไซต์ที่อยู่ใกล้และอยู่ในช่วงเวลาที่เหมาะสม

3. การเลือกใช้คำสำคัญ (Keyword) หรือหัวเรื่อง(Subject) ที่ตรงกับเรื่องที่ต้องการ

4. กำหนดขอบเขตของคำค้น โดยใช้ตัวเชื่อมบูลีน(Boolean Operators) เช่น AND OR NOT
NEAR BEFORE เป็นต้น หรือการค้นวลี(Phrase Searching) การตัดคำ หรือการใช้คำเหมือน ดังต่อไปนี้

4.1 Boolean Operators
– AND หรือ เครื่องหมาย + ใช้เมื่อต้องการให้ค้นเอกสารที่มีคำทั้งสองคำปรากฏ เช่น
ค้นหาคำว่า Research AND Thailand ข้อมูลที่ได้จะมีเฉพาะคำว่า Research และ Thailand อยู่ในเอกสาร
– OR ใช้เมื่อต้องการค้นหน้าเอกสารที่มีคำใดคำหนึ่งปรากฏ เช่น Research OR
Thailand ข้อมูลที่ได้จะมีคำใดคำหนึ่งหรือมีทั้งสองคำปรากฏอยู่ในเอกสาร
– NOT หรือ เครื่องหมาย – ใช้เมื่อต้องการตัดคำที่ไม่ต้องการให้ค้นออก (คำหลัง NOT
หรือ เครื่องหมาย -) เช่น Research NOT Thailand ข้อมูลที่ได้จะมีคำว่า Research แต่จะไม่มีคำว่า
Thailand อยู่ในเอกสาร
– NEAR ใช้เมื่อต้องการให้คำที่กำหนดอยู่ห่างจากกันไม่เกิน 10 คำ ในประโยคเดียวกัน
หรือใกล้เคียงกัน (อยู่ด้านหน้าหรือหลังก็ได้) เช่น Research NEAR Thailand ข้อมูลที่ได้จะมีคำว่า Research และ Thailand ที่ห่างกันไม่เกิน 10 คำ ตัวอย่างเช่น Research on the Cost of Transportation in Thailand
– BEFORE ใช้เมื่อต้องการกำหนดให้คำแรกปรากฏอยู่ข้างหน้าคำหลังในระยะห่างไม่เกิน 8 คำ เช่น Research BEFORE Thailand
– AFTER ใช้เมื่อต้องการกำหนดให้คำแรกปรากฏอยู่ข้างหลังคำหลังในระยะห่างไม่เกิน 8 คำ เช่น Research AFTER Thailand
– (parentheses) ใช้เมื่อต้องการกำหนดให้ทำตามคำสั่งภายในวงเล็บก่อนคำสั่งภายนอก เช่น (Research OR Quantitative) and Thailand

4.2 การค้นวลี (Phrase searching)
เป็นการใช้เครื่องหมายอัญประกาศ (“ ”) เมื่อต้องการกำหนดให้ค้นเฉพาะหน้าเอกสารที่มีการเรียงลำดับคำตามที่กำหนดเท่านั้น เช่น “Methodology Research”

4.3 การตัดคำ (Word stemming / Truncation)
เป็นการใช้เครื่องหมาย asterisk (*) ตามท้ายคำ 3 คำขึ้นไป เพื่อค้นหาคำที่ขึ้นต้นด้วยตัวอักษรที่กำหนด เช่น Research*

4.4 คำพ้องความหมาย (Synonym)
เป็นการใช้คำเหมือนที่มีความหมายเดียวกันหรือใกล้เคียงกันเพื่อช่วยให้ค้นเรื่องที่ครอบคลุม เช่น Ocean Sea Marine

4.5 เขตข้อมูลเพื่อการค้น (Field Searching)
เป็นการกำหนดเขตข้อมูลเพื่อการค้น เช่น ชนิดของข้อมูล หรือที่อยู่ของข้อมูล เป็นต้น
เช่น text: “green tea” url: NASA

4.6 ตัวเล็กตัวใหญ่ถือว่าต่างกัน (Case sensitive)
เป็นการใช้ตัวอักษรใหญ่กับตัวเล็กในความหมายที่แตกต่างกัน เช่นใช้ตัวอักษรใหญ่ขึ้นต้นชื่อเฉพาะ เช่น George W. Bush

4.7 ภาษาธรรมชาติ (Natural Language)
เป็นการสืบค้นจากคำถามที่เป็นภาษาธรรมชาติ เช่น ใช้คำถามภาษาอังกฤษง่ายๆ ที่ต้องการให้ Search Engine หาคำตอบให้ เช่น What is Research?

ใส่ความเห็น

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / เปลี่ยนแปลง )

Twitter picture

You are commenting using your Twitter account. Log Out / เปลี่ยนแปลง )

Facebook photo

You are commenting using your Facebook account. Log Out / เปลี่ยนแปลง )

Google+ photo

You are commenting using your Google+ account. Log Out / เปลี่ยนแปลง )

Connecting to %s