Το Internet Archive ανακοίνωσε πως πλέον θα αγνοεί τα αρχεία robots.txt όταν αποθηκεύει ένα αντίγραφο ενός site. Τα αρχεία robots.txt έχουν σαν κύρια λειτουργία την ενημέρωση των μηχανών αναζήτησης, για το ποιά μέρη ενός ιστότοπου θα ταξινομηθούν από αυτές.
Αυτή η τακτική ακολουθείται ήδη στις σελίδες της κυβέρνησης και του στρατού των ΗΠΑ, από το Internet Archive, χωρίς να έχουν εμφανιστεί προβλήματα.“Over time we have observed that the robots.txt files that are geared toward search engine crawlers do not necessarily serve our archival purposes,” stated a blog post that the organization published last week. “Internet Archive’s goal is to create complete ‘snapshots’ of web pages, including the duplicate content and the large versions of files.”
Robots.txt files are increasingly being used to remove entire domains from search engines following their transition from a live, accessible site to a parked domain. If a site goes out of business, and is rendered inaccessible in this way, it also becomes unavailable for viewing via the Internet Archive’s Wayback Machine. The organization apparently receives queries about these sites on a daily basis.
Πηγή: Digital Trends
Εμφάνιση 1-12 από 12
-
24-04-17, 19:23 Το Internet Archive θα αγνοεί τα robots.txt αρχεία στην αρχειοθέτηση του #1
- Εγγραφή
- 22-09-2003
- Μηνύματα
- 81.767
- Downloads
- 218
- Uploads
- 48
- Άρθρα
- 6
- Τύπος
- VDSL2
- Ταχύτητα
- 204800/20480
- ISP
- Wind
- Router
- Technicolor DGA4130
- SNR / Attn
- 6(dB) / 2.8(dB)
- Path Level
- Interleaved
-
24-04-17, 19:38 Απάντηση: Το Internet Archive θα αγνοεί τα robots.txt αρχεία στην αρχειοθέτηση του #2
Ναι ε...?
Με το έτσι θέλω θα αποθηκεύει μια σελίδα.... BAN BAN BAN
-
24-04-17, 20:03 Re: Το Internet Archive θα αγνοεί τα robots.txt αρχεία στην αρχειοθέτηση του #3
Αμα είναι free η σελίδα γιατί όχι?
-
24-04-17, 20:56 Απάντηση: Re: Το Internet Archive θα αγνοεί τα robots.txt αρχεία στην αρχειοθέτηση του #4
Ειμαι της προσωπικής γνώμης ότι οποιος δεν θέλει να του κάνουν οι μηχανές αναζήτησης index απλώς βάζει ένα αρχείο htpasswd και την αντίστοιχη οδηγία στο htaccess για να ζητάει όνομα χρήστη και κωδικό για την πρόσβαση στο site.
-
24-04-17, 21:03 Απάντηση: Το Internet Archive θα αγνοεί τα robots.txt αρχεία στην αρχειοθέτηση του #5
Δεν νομίζω κανένας να μην έχει καταλάβει ότι το robots.txt είναι ψιλοάχρηστο.
-
24-04-17, 21:16 Απάντηση: Το Internet Archive θα αγνοεί τα robots.txt αρχεία στην αρχειοθέτηση του #6
-
24-04-17, 21:31 Απάντηση: Το Internet Archive θα αγνοεί τα robots.txt αρχεία στην αρχειοθέτηση του #7
Και για ποιο λογο να θες να κρυψεις κατι απο την google (και την καθε google) και να μην εχεις απλα access control.
-
24-04-17, 21:43 Απάντηση: Το Internet Archive θα αγνοεί τα robots.txt αρχεία στην αρχειοθέτηση του #8
Αν και βγαίνουμε ελαφρώς εκτός θέματος το robots.txt έχει να κάνει με το crawling μιας Ιστοσελίδας όχι με το Index της. Μπορεί κάλιστα να γίνει indexed μια Ιστοσελίδα ακόμη και αν έχει το robots.txt. Επίσης το robots.txt είναι απλώς μια οδηγία προς τις μηχανές αναζήτησης. Είναι στην ευχέρεια μιας υπηρεσίας αν θα το σεβαστεί. Απο Google Webmaster Tools
Υπάρχουν τα meta tags NOINDEX και NOFOLLOW για να μην γίνεται Index μιας ιστοσελίδας ή σελίδων αλλά και πάλι πολλές μηχανές αναζήτησης το αγνοούν.
-
24-04-17, 23:16 Απάντηση: Το Internet Archive θα αγνοεί τα robots.txt αρχεία στην αρχειοθέτηση του #9
Θα συμφωνήσω 100% με ότι λές !
- - - Updated - - -
Δεν είναι θέμα να κρύψω... Σε ένα site μπορέι να θέλω να επιτρέπω το crawling στις σελίδες του επισκέπτη αλλά να μην θέλω να γίνουν crawl οι σελίδες του admin ή να μην επιτρέπω την πρόσβαση σε φακέλους που περιέχουν κώδικα που καλείται από σελίδες...
htaccess ναι στον admin μπορώ να βάλω αλλά αν βάλω σε φακέλους που περιέχουν classes που καλούνται από σελίδες του επισκέπτη θα του βγάζει για user/pass ... Ακόμα και αν υπάρχει λύση με το htaccess γενικά η φιλοσοφία πέραν για security δεν είναι σωστή για την συγκεκριμένη χρήση !
Το σωστό είναι το robots.txt και ένα Disallow εκεί που που θέλεις και τέλος ...αλλά δυστυχώς δεν το ακούν όλες οι μηχανές και κακώς για μένα !
Όπως και να έχει είναι πονεμένη ιστορία αυτό ... Πάντως για την ιστορία εκτός από google και συναφή ... όταν έχω να κάνω με κακόβουλα robots τραβάω ban στο firewall και τέλος ...και ας μην ακούνε .... τίποτα...
Κακό του κεφαλιού τους..
-
25-04-17, 03:25 Απάντηση: Το Internet Archive θα αγνοεί τα robots.txt αρχεία στην αρχειοθέτηση του #10
To robots.txt είναι κάτι σαν το do not track. Δεν το επιβάλει κανείς, είναι απλά μια προτίμηση.
-
25-04-17, 08:30 Απάντηση: Το Internet Archive θα αγνοεί τα robots.txt αρχεία στην αρχειοθέτηση του #11
Οτιδηποτε σχετικο με ασφαλεια ειναι 100% λαθος να χρησιμοποιειται το robots.txt.
Αν εχεις κανει τετοιο σχεδιασμο ειναι περα για περα μη ασφαλης.
Οι admin pages πρεπει να προστατευονται με access control και οχι φυσικα με ban στην ip.
Οσο για το htaccess ειναι ξεπερασμενη μεθοδος.
-
25-04-17, 22:14 Απάντηση: Το Internet Archive θα αγνοεί τα robots.txt αρχεία στην αρχειοθέτηση του #12
Ψιλοβλακεία τους. Έχω μεγάλα αρχεία και δεν θέλω να μου τρώνε latency ή bandwidth. Θα πρέπει να τους βάλω throttle.
Έχω ένα php με '404 not found' και το κάνω link ως index.php, αλλά δεν βοηθάει για τα μεγάλα αρχεία όπως ανέφερα.
Κώδικας:<?php header('HTTP/1.0 404 Not Found'); echo "<h1>404 Not Found</h1>"; echo "<p>The page that you have requested could not be found. Try my <a href=\"/index.php\">homepage</a></p>"; exit(); ?>
Παρόμοια Θέματα
-
γενικό πρόβλημα με το internet?
Από akisgr στο φόρουμ VodafoneΜηνύματα: 4699Τελευταίο Μήνυμα: 10-04-24, 10:54 -
Που αποθηκεύονται τα αρχεία των extensions του Chrome
Από pfg στο φόρουμ Software γενικάΜηνύματα: 2Τελευταίο Μήνυμα: 14-12-16, 13:11 -
Πρόβλημα στην ταχύτητα του internet
Από D3LTA στο φόρουμ VodafoneΜηνύματα: 1Τελευταίο Μήνυμα: 30-11-16, 01:44 -
Το WhatsApp θα μοιράζεται τα δεδομένα των χρηστών του με το Facebook
Από nnn στο φόρουμ ΕιδήσειςΜηνύματα: 76Τελευταίο Μήνυμα: 18-11-16, 13:46 -
Wind: αύξηση στην χρήση του δικτύου της τον Αύγουστο, πρωτιά του YouTube
Από nnn στο φόρουμ ΕιδήσειςΜηνύματα: 22Τελευταίο Μήνυμα: 05-09-16, 15:22
Bookmarks